首页 » Web前端 » php研讨院技巧_上海人工智能实验室联合商汤科技与高校合营宣告通用视觉技能体系

php研讨院技巧_上海人工智能实验室联合商汤科技与高校合营宣告通用视觉技能体系

访客 2024-12-13 0

扫一扫用手机浏览

文章目录 [+]

11月17日,上海人工智能实验室联合商汤科技SenseTime、喷鼻香港中文大学、上海交通大学共同发布新一代通用视觉技能体系“诗人”(INTERN),该体系旨在系统化办理当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
目前技能报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布[1](arxiv.org/abs/2111.08687),基于“诗人”的通用视觉开源平台OpenGVLab也将在明年年初正式开源,向学术界和家当界公开预演习模型及其利用范式、数据系统和评测基准等。
OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab[2](github.com/open-mmlab)、OpenDILab[3](github.com/opendilab)一道,共同构筑开源体系OpenXLab,助力通用人工智能的根本研究和生态构建。

上海人工智能实验室联合商汤科技、喷鼻香港中文大学、上海交通大学共同发布新一代通用视觉技能体系“诗人”(INTERN)

php研讨院技巧_上海人工智能实验室联合商汤科技与高校合营宣告通用视觉技能体系

任务通用和数据学习效率是制约当古人工智能发展的核心瓶颈问题。
根据干系技能报告,一个“诗人”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。
在ImageNet(www.image-net.org/challenges/LSVRC/index.php)等26个最具代表性的下贱场景中,诗人模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。

php研讨院技巧_上海人工智能实验室联合商汤科技与高校合营宣告通用视觉技能体系
(图片来自网络侵删)

相较于当前最强开源模型(OpenAI 于2021年发布的CLIP),“诗人”在准确率和数据利用效率上均取得大幅提升。
详细而言,基于同样的下贱场景数据,“诗人”在分类、目标检测、语义分割及深度估计四大任务26个数据集上的均匀缺点率分别降落了40.2%、47.3%、34.8%和9.4%。
“诗人”在数据效率方面的提升尤为令人瞩目:只须要1/10的下贱数据,就能超过CLIP(openai.com/blog/clip)基于完全下贱数据的准确度,例如在花卉种类识别FLOWER(www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html)任务上,每一类只需两个演习样本,就能实现99.7%的准确率。

随着人工智能赋能家当的不断深入,人工智能系统正在从完成单一任务向繁芜的多任务协同演进,其覆盖的场景也越来越多样化。
在自动驾驶、智能制造、聪慧城市等浩瀚的长尾场景中,数据获取常日困难且昂贵,研发通用人工智能模型,对付降落数据依赖尤为主要。
而打破“工业运用红线”的模型,需知足同时完成多任务、覆盖大量长尾场景,且基于下贱小样本数据进行再演习等哀求。
上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“诗人”通用视觉技能体系,表示了产学研互助在通用视觉领域的全新探索,为走向通用人工智能迈出坚实的一步。
借助“诗人”通用视觉技能体系,业界可凭借极低的下贱数据采集本钱,快速验证多个新场景,对付解锁实现人工智能长尾运器具有主要意义。

“当前发展通用视觉的核心,是提升模型的通用泛化能力和学习过程中的数据效率。
面向未来,‘诗人’通用视觉技能将实现以一个模型完成成百上千种任务,体系化办理人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。
”上海人工智能实验室主任助理乔宇表示。

商汤科技研究院院长王晓刚表示,“‘诗人’通用视觉技能体系是商汤在通用智能技能发展趋势下前瞻性布局的一次考试测验,也是SenseCore商汤AI大装置背景下的一次新技能路径探索。
‘诗人’承载了让人工智能参与处理多种繁芜任务、适用多种场景和模态、有效进行小数据和非监督学习并终极具备靠近人的通用视觉智能的期盼。
希望这套技能体系能够帮助业界更好地探索和运用通用视觉AI技能,促进AI规模化落地。

诗人(INTERN)在分类、目标检测、语义分割、深度估计四大任务26个数据集上,基于同样下贱场景数据(10%),相较于最强开源模型CLIP-R50x16,均匀缺点率降落了40.2%,47.3%,34.8%,9.4%。
同时,诗人只须要10%的下贱数据,均匀缺点率就能全面低于完全(100%)下贱数据演习的CLIP。

阶梯式学习:七大模块打造全新技能路径

诗人(INTERN)技能体系可以让AI模型处理多样化的视觉任务

通用视觉技能体系“诗人”(INTERN)由七大模块组成,包括通用视觉数据系统、通用视觉网络构造、通用视觉评测基准三个根本举动步伐模块,以及区分高下游的四个演习阶段模块。

诗人作为中国古代读书人的经典形象,代表着一个通过不断学习、不断发展进而拥有各方面才能的人格化角色:从根本的知识技能学习开始,到对多种专业知识举一反三,进而发展为拥有通用知识的通才。
将全新的通用视觉技能体系命名为“诗人”,意在表示其犹如诗人一样平常的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的交融贯通,终极实现灵巧高效的模型支配。

当前的AI系统开拓模式下,一个AI模型每每只善于处理一项任务,对付新场景、小数据、新任务的通用泛化能力有限,导致面对千变万化的任务需求时,须独立开拓成千上万种AI模型。
同时,研究职员每演习一个AI模型,都需构建标注数据集进行专项演习,并持续进行权重和参数优化。
这种低效的学习演习方法,导致人力、韶光和资源本钱居高不下,无法实现高效的模型支配。

“诗人”的推出能够让业界以更低的本钱得到拥有处理多种下贱任务能力的AI模型,并以其强大的泛化能力支撑聪慧城市、聪慧医疗、自动驾驶等场景中大量小数据、零数据等样本缺失落的细分和长尾场景需求。

通用视觉技能体系“诗人”(INTERN)由七大模块组成,包括3个根本举动步伐模块、4个演习阶段模块

持续发展:“四阶段”提升通用泛化

在“诗人”(INTERN)的四个演习阶段中,前三个阶段位于该技能链条的上游,在模型的表征通用性上发力;第四个阶段位于下贱,可用于办理各种不同的下贱任务。

第一阶段,着力于培养“根本能力”,即让其学到广泛的根本知识,为后续学习阶段打好根本;第二阶段,培养“专家能力”,即多个专家模型各自学习某一领域的专业知识,让每一个专家模型高度节制该领域技能,成为专家;第三阶段,培养“通用能力”,随着多种能力的交融贯通,“诗人”在各个技能领域都展现精良水平,并具备快速学会新技能的能力。

在循规蹈矩的前三个演习阶段模块,“诗人”在阶梯式的学习过程中具备了高度的通用性。
当进化到第四阶段时,系统将具备“迁移能力”,此时“诗人”学到的通用知识可以运用在某一个特定领域的不同任务中,如聪慧城市、聪慧医疗、自动驾驶等,实现广泛赋能。

产学研协同:开源共创通用AI生态

作为AI技能的下一个重大里程碑,通用人工智能技能将带来颠覆性创新,实现这一目标须要学术界和家当界的紧密协作。
上海人工智能实验室、商汤科技、港中文以及上海交大未来将依托通用视觉技能体系“诗人”(INTERN),发挥产学研一体化上风,为学术研究供应平台支持,并全面赋能技能创新与家当运用。

明年年初,基于“诗人”的通用视觉开源生态OpenGVLab将正式开源,向学术界和家当界公开预演习模型、利用范式和数据库等,而全新创建的通用视觉评测基准也将同步开放,推动统一标准上的公正和准确评测。
OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,持续推进通用人工智能的技能打破和生态构建。

附:

技能报告《INTERN: A New Learning Paradigm Towards General Vision》链接:arxiv.org/abs/2111.08687

OpenMMLab开源网址:github.com/open-mmlab

OpenDILab开源网址:github.com/opendilab

标签:

相关文章