首页 » 网站建设 » phplayer框架技巧_最强大脑火眼金睛一文读懂视觉智能技能的现状与未来

phplayer框架技巧_最强大脑火眼金睛一文读懂视觉智能技能的现状与未来

访客 2024-12-04 0

扫一扫用手机浏览

文章目录 [+]

整理/ 吉菁菁 新媒体编辑/吕冰心

【主讲高朋】

phplayer框架技巧_最强大脑火眼金睛一文读懂视觉智能技能的现状与未来

王金桥

phplayer框架技巧_最强大脑火眼金睛一文读懂视觉智能技能的现状与未来
(图片来自网络侵删)

中国科学院自动化研究所研究员

▲“火眼金睛”+“最强大脑”——视觉智能技能的现状与未来(上),打开https://v.qq.com/txp/iframe/player.html?vid=x3239phsx32不雅观看

▲“火眼金睛”+“最强大脑”——视觉智能技能的现状与未来(下),打开https://v.qq.com/txp/iframe/player.html?vid=g3238xgkjn3

随着5G、AI及移动互联技能的迅猛发展,视频已全面融入了我们的日常生活,影响着我们与天下的连接办法与沟通形式。
同时也带来一个严厉的寻衅:如何有效处理爆炸性增长的海量数据?视觉智能技能大概便是最佳答案。

通过场景与算法的有效结合,视觉智能技能已经在安然城市、智能交通、智能医疗、智能金融、视频侦查和移动互联网等多种场景中得到了广泛运用。
视觉打算和识别的技能都是如何发展的?让我们一起探寻展望视觉智能技能的美好未来。

人工智能:大国之间竞争的新焦点

经由六十多年的发展,上升到国家计策地位的人工智能已经敲响了“未来之门”,为人类拉开了第四次工业革命的序幕,除了成为军事、工业核心的竞争力,更成为大国之间竞争的新焦点。

第四次工业革命到来之前,中国、美国、欧盟、英国、日本,都环绕着深度学习、超级算力、工业软件、智能系统这几方面做了深入布局,个中,最有代表性的便是中国和美国。
从中、美比拟来看,美国在自然措辞处理、机器学习、打算机视觉领域非常强大,而中国更多在运用与打算机视觉和图像、机器人和NLP自然措辞处理领域有更多积累。

2020年,中国人工智能的论文数量第一次超过了美国,但引用次数、论文影响力比美国稍差一点。
在一些大公司的布局上,人工智能的竞争核心也由一些高档院校不断转入到现在的“巨无霸”企业,美国紧张是谷歌、Facebook、亚马逊、微软,中国更多则是阿里、腾讯、字节跳动、华为等。
人工智能的竞争从研究层面到企业层面,再到运用层面,目前发展得非常快。

更主要的是数据和人才的比拟。
比较美国,中国拥有更丰富的C端企业和C端数据——比如交通出行、网上购物,各种各样的直播等,创业公司也在不断增加,数据迎来了持续性的、爆炸性的增长,在数据可以作为生产力主要要素的新时期,数据可以作为智能发展的强驱动力,这让中美之间的差距不断缩小。

其余,还有打算资源的极大丰富。
中国现在的打算力有了大幅度跃升,给智能化供应了条件。
2012年,深度学习的涌现,把一个两层的神经网络变成了几百层、上千层,而其他没有太大变革。

算法的提升,助力机器学习的性能一下提升了30%,这是大数据时期人工智能的条件。
数据爆炸性的增长、算力的丰富和深度学习的复兴,给智能化时期供应了充分的条件。

不过,这也并不代表目前人工智能的智能性就特殊高。
人工智能分为两部分:感知智能和认知智能。
所谓感知智能,便是在数据根本上,让数据去驱动智能化的运用,没有人类的高等感知和认知观点。
而认知智能是通过对数据的加工,能够理解数据,提炼出数据包含的褒贬感情、个人不雅观点以及作者不雅观点;在理解根本上,要像写作文一样,上段写完把下段写出来。
现在的人工智能仍是感知智能,还处在非常弱的起步阶段,以是现阶段不用担心机器会超过人类。

技能进化:视觉运用场于关键期

作为一个生命体,人类感想熏染天下70%是依赖视觉——这也是为什么在人工智能领域,目前运用最广的是各种视觉技能,由于能代替人的眼睛。

远在寒武纪期间,一个生命体进化出了具有视觉感知的细胞,能感想熏染很近范围的太阳光,涌现了最早的视力系统。
视觉产生的事理是小孔成像:光芒通过视网膜映射在我们的瞳孔中,成为一个倒立的像,再通过视神经传导到大脑的视觉神经中枢,视觉神经中枢再把它正过来,便是视觉成像。

光的浸染结束后,视觉形象在视神经并不立即消逝,这种残留的视觉称为“视觉暂留”,但是非常遗憾,这个成像韶光仅仅不到1秒。
也便是说,无论面前站了多美的人,你也只能“瞥见”他1秒。
1秒之后,你对他面部特色的影象点,就都是通过大脑加工出来的。
下次再见面,你便是依赖这些大脑加工后的特色影象,从茫茫人海中来辨认他。

视觉技能的进化和人眼进化的过程类似。
第一代摄影机胶卷的全体成像过程是仿照可见光,通过化学元素的调配,使感光胶片记录下来的影像与人眼看到的图像同等,这是化学成像阶段。
后来,随着技能发展变为第二代电子管成像,等有了数字化后,电子管又进化成第三代LED液晶屏,一贯到现在的触摸屏OLED屏,成像过程从原来的仿照旗子暗记到了数字旗子暗记。

这一阶段涌现了视频编解码技能,从算法角度来看,之前很多安防场景,靠的是保安每天盯着监视器屏幕,后来有了变革检测,通过剖析检测前一帧和后一帧的影像,让机器自主学习人脸模型特色,把人脸图像投影到非线性的空间,但全体特色空间比较小,算法很难得到担保。

从2012年开始,迎来了第四代视觉技能阶段,通过深度学习网络来仿照人的感知过程,对视觉的理解从被动防御变为了主动预警,视觉识别运用场在落地关键期。

2014年,人脸识别在上一阶段的根本上,针对姿态、光照、表情、遮挡等外界影响成分,提出了一系列的改进算法与新的理论,但在现实场景中运用还不足好,常常有人坐高铁刷不了脸。

当数据积累到一定程度,2019年至今,迎来了人脸识别快速成长期,图像识别、视觉识别的技能在交通出行、住宿、手机解锁、手机转账等多个领域百花齐放,得到了广泛运用。

零售领域用视觉智能技能剖析人的行为,机器人领域运用在物流机器人,实现自动搬运、自动运输、自动抓取,在新零售领域商品自动识别、场景的OCR(Optical Character Recognition,光学字符识别,是指电子设备检讨纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成打算机笔墨的过程)和无人驾驶领域发展也特殊快,进入了人工智能视觉运用的关键期间。

运用领域:从人脸识别到百花齐放

视觉智能技能紧张涉及三个方面。
第一,提取关键特色来表示。
比如一堆蓝色口罩中的赤色口罩;第二,实现语义的理解。
语义的理解分为几个层次,比如最底层是目标级语义:地皮、矿泉水、椅子、人坐着;还有场景级的语义,这个人在站着喝水、他们在握手,这类行为语义涉及人和人之间的交互。
再往上一级,涉及环境和人之间的交互,比如两人在报告厅坐着,台上有人在演讲,可以推理这两个人在听报告;第三,关联和推理。
我们理解了场景之后,该当做什么样的判断和实行,通过场景行为动作的理解和剖析,来预设下一步该当做什么。

在细颗粒度的差异上,经由大量数据演习,机器练就了“火眼金睛”:当你在路上看到一个行驶中的汽车,可能并不知道它是哪年生产的,乃至不知道它是哪个型号,机器通过大量的数据学习后,可以把这些风雅化的差异有效地分辨出来。

在无人驾驶领域,视觉智能用来办理交通场景分割、目标探测、目标速率、目标间隔、障碍物检测等问题。
比如识别车道线和可行驶区域,哪条线是我要走的,哪条线是别人要走的,前面是否有红绿灯,周围是否有行人或障碍物。
机器学习最大的难点是,面对没有见过的事物就手足无措,这时就须要让其跑更多的路,“喂到”更多的场景数据。
这里也涉及AI的边界和局限,机器跟人还是有差异的。
如果在数据标注过程中要识别一辆只露出1/3或者更少画面的车,在机器学习领域称之为困难样本,机器学起来就会特殊困难,以是在演习机器的时候,为了担保识别准确度,必须要给它很清晰的模型。

无人驾驶通用很难,大略的场景便是公园园区或者码头,点到点的路线和场景基本是单一和固定的,以是就不会有太多安全事件,而在交通繁芜的场景下,就变得非常困难。
由于除了须要感知,还牵扯到决策的问题,前一段韶光出了一个新闻,无人驾驶的特斯拉行驶中撞上了一辆白色货车。
特斯拉有8个视觉摄像头,为什么还撞了呢?由于它的视觉无法测距,也没有推理和知识能力,把近在咫尺的白色货车算作了远在天边的一朵白云,结果就发生了交通事件。

还有用于交通信息的采集,运用处景是车的识别。
识别的特色包括车停得歪不歪、司机的行为(有没有打电话、有没有吸烟、有没有系安全带)、车的挂件摆件、车的类型品牌等。

▲车纹识别系统目前已可以风雅识别5000多种车型车款,检索假牌和套牌车,帮忙公安部门快速查找嫌疑车辆、帮助交通部门做违章车限行、大货车收费等管理(图源:中科视语)

识别车是否套牌是运用最广的,通过对类似人类指纹一样“车纹”的身份识别,可以快速地查找到真牌和假牌。
可能拍一张照片,就能理解这辆车的载重、排放是多少。
通过一个摄像头,就可以进行多种角度车的属性、身份、行为的识别,知道每个车的行为轨迹。

在大众传媒领域,目前运用比较普遍的是,在一个播放器上叠加一个透明播放器,通过预估摄像头的运动轨迹,把目标做有效更换,来做场景广告的植入。

电影行业里,未来虚拟的合成演员数量也会因此而增长。
通过人脸上的256个关键点,精确地拟合出XYZ轴的角度,把人脸肌肉的运动用把稳力模型来仿照真实演员的动作。
合成演员的上风在于能集所有精良演员的演出特色为“一脸”,而且本钱也比较低,以是未来市场空间巨大。
目前一些电视台也有了自己的虚拟主播,它的声音是合成出来的,人脸的表情也很自然。

运用在体育领域,比如NBA勇士队当年夺冠,数据剖析就出了大力。
一个篮球场有六个相机,对球员进行识别和剖析,比普通的识别难度大。
除了要精准地定位每个衣着相同的球员的行为和轨迹,判断每个球员分别跑了多少公里,起跳多少次,多少次投篮,多少次持球,多少次运球,还要对其进行精准的数据剖析,制订应对战术。
视觉智能技能也将运用在北京2022年冬奥会,对各种冰上运动中运动员的动作标准化进行剖析,运用处景非常多。

通用的物品商品识别,现在运用得越来越多。
很多无人商店智能货架都是靠视觉来识别商品,每个重量不同的商品下面都有一个重力传感器,通过人进去之后抓取的动作实现人和商品的精准绑定,其他运用也包括一些智能家电。
比如智能冰箱食品生鲜识别系统,你打开冰箱门的时候会自动拍照,识别冰箱内的食品,剖析食品中的营养身分,见告利用者该当吃什么。
当然,目前也仍存在一些识别难点,比如土豆和姜、苹果和梨,机器有时就难以做到“窥一斑而知全豹”。

其余,这也会牵扯数据隐私等问题,今年的3·15晚会就曝光了一些通过数据侵害用户隐私的案例,目前我国也为此成立了人工智能管理专业委员会来保护个人隐私,防止大数据杀熟等行为的发生。

身份识别是大家见得最多的。
通过人脸、年事、性别、姿态、衣着进行身份识别,虽然目前判断人的感情方面精度还不是特殊高,但已能通过呼吸时人脸部血管的伸缩变革,精确“瞥见”这个人的心跳和呼吸次数。

当下是人工智能快速发展的阶段,现有条件下数据爆炸性地增长,人工智能也会在数据的偏见里形成智能的偏见。
像中国的人脸识别系统,比起其他人种,对黄色人种识别效果就更好,由于学习的数据样本更丰富。

视觉智能技能在各个领域里的赞助运用也越来越多。
工业质检和农业也是视觉智能运用非常多的领域,通过替代人工的重复性劳动来提高生产效率。
iPhone的生产线、组装线上有400个工人,个中很多特殊风雅的操作,是目前机器搞不定的,但一些重复性的质检过程,就可以利用智能化检测来代替。

我所带领研究团队的一些技能成果,也在央视一些节目中进行了展示。
在央视《加油!
向未来》节目中,我们团队的机器人守门员挡住了130公里时速射过来的足球。
130公里时速射过来的足球是什么观点?如果是真人守门员,这威力足以把人打穿。
这里的上限在于电机的相应速率,从这一点看,机器有时候比人要厉害,如果用机器人守门员的话,中国足球的大门就非常安全了。

通用视觉:发展及未来思考

可以说,目前人工智能技能还处在爬升期。
视觉、文本、NLP、自然措辞、感知技能已经相比拟较成熟,只要数据足够多,场景的边界掌控得比较好,就会发展得更为迅速。
生物芯片、全自动驾驶、下一代脑机接口、量子打算等领域可能还须要二十年,高性能芯片也还有很大的发展空间,现在还处于高速成长期。

2017年,人工智能才作为独立的学科,中国科学院大学设立了海内第一个人工智能学院。
目前在海内子工智能领域,中科院自动化所是中国最强的单位,所里的模式识别国家重点实验室排在环球第七位,培养了很多人才。
人工智能学院招生也特殊火热,发展的空间非常大。

未来几年,机器人的理解能力、行为剖析、舆图定位的能力将越来越强。
三至五年后,家务机器人可能会成为每个家庭的普遍配置;十年旁边,随着机器人情感学习能力的提升,它也可能成为人很好的陪伴。
通过日常生活中的不雅观察学习,可能你回家只给机器人一个眼神,它就知道若何为你供应最好的做事。

认知智能现在还没有看到,但随着未来机器人的数据不断增加,等到它自己能主动获取数据、加工数据,优化自己模型的时候,机器人可能就有了意识。
当机器人有了自我意识,有了推理能力的时候,就会涉及到生命体如何定义的问题:机器和人的差异在哪里,机器什么时候是生命体,机器人是不是有生存的代价不雅观,是不是有它的权利、能力、生存的空间⋯⋯这些都会带来很大的寻衅。

随着智能技能的发展,人类要管控机器的边界,使机器有效地为人类做事。
在技能发展中人类如何管控智能,人和机器怎么和谐共存,在智能制造领域、无人驾驶领域,在操作机器过程中如何担保人的安全,对人工智能的安全管理也非常主要。

从技能角度来讲,当下语音技能比较成熟,但囿于方言、噪声、专业度等问题,语音识别还有一定的限定。
相对而言,图像识别的运用会更多,只要人眼睛可以干的事,都可以用AI代替,视觉是主流运用的落地场景。
安防行业中的车辆数据提取、医疗行业的影像诊断、电商行业中的精准营销,以及赞助驾驶都为图像识别技能供应了许多落地变现机会。

从行业角度来看,安防是人工智能在中国最随意马虎变现的行业:中国的城市管理者已经积累了强大的视频数据采集能力,交通拥堵和反恐等运用处景又急需最前辈的人工智能技能。
互联网广告和电商蕴含大量数据,也为人工智能在这两个领域的运用供应了广阔的资源和空间。
比如2020年新冠肺炎疫情期间,电商外卖业务成倍增长,通过数据优化外卖行进路径,效率变得更高。
“电动化+智能化”重构了汽车的生产过程,许多工厂都是机器臂加自动化流水线进行智能生产,在这一领域,打算机视觉的运用空间也非常大。

(图源:视觉中国)

从理论发展上,人工智能将从感知智能向认知智能发展,通过编码进行快速打算,降落功耗,从“后深度学习”到量子打算,从情绪打算到伦理思考,让机器做到“察言观色”。
从家当发展来看,会从人脸识别逐步向各行各业延伸,在各领域百花齐放。
软件、芯片、算法、5G⋯⋯特殊是5G大幅提高通信带宽后,若何把软件算法芯片和5G领悟到一起是家当发展的主要潮流。

在未来,“人机耦合,取长补短”的状态将是一个长期过程,让我们连续期待智能家当不断改变我们的事情和生活办法,感激大家。

延伸阅读:

问:为什么男装店一样平常不须要人脸识别?

答:现在的用户画像,通过一张照片就可以看到像素级的语义理解:通过衣服、鞋子、帽子、口罩等,给人做风雅化的画像,这是现在做算法主要的运用领域。
聪慧阛阓的运用,是通过人的轨迹来优化物品摆放,有时候算法是有效的,比如卖包卖汽车,人都会常常去,做好数据关联,可以提升3%-5%的发卖额。
但男装就不一样了,例如某品牌男装,一天一两百人,均匀购物韶光5—10分钟,男装颜色基本是蓝色、灰色、玄色,样式也比较统一,一样平常卖得最好的便是当季最新款,用户画像没什么效果,以是男装店基本不上人工智能系统。

问:为什么人脸识别系统被戏称为“中青年人脸识别系统”?

答:由于演习模型的数据大部分都是十几岁以上、六十岁以下的,这些人是常常住酒店、坐高铁、坐飞机的主流群体,而其他年事段群体的数据就偏少。
小孩的五官随年事增长会发生很大变革;而老人脸上的皱纹比较多,脸部特色和六十岁之前办的身份证会有很大差异,这些都会对人脸识别的准确度产生大的影响。

(本文内容来自4月3日的都城科学讲堂。
讲堂由北京市科学技能协会主理、北京科学中央承办、北京科技报社协办,每周约请院士专家开讲,传播科学知识、科学方法,弘扬科学精神、科学文化,匆匆使"大众全面、精确理解科学。

出品:科普中心厨房

监制:北京科技报 | 科学加客户端

标签:

相关文章

PHP实现文字转图片的代码与应用

图片处理技术在各个领域得到了广泛应用。在PHP编程中,文字转图片功能同样具有很高的实用价值。本文将针对PHP实现文字转图片的代码进...

网站建设 2025-03-02 阅读1 评论0

NAN0017探索新型纳米材料的奥秘与应用

纳米技术作为一门新兴的交叉学科,近年来在材料科学、生物医学、电子工程等领域取得了举世瞩目的成果。其中,NAN0017作为一种新型纳...

网站建设 2025-03-02 阅读5 评论0

L26368XO代码其背后的创新与突破

编程语言在各个领域发挥着越来越重要的作用。在众多编程语言中,L26368XO代码以其独特的优势,成为了业界关注的焦点。本文将深入剖...

网站建设 2025-03-02 阅读1 评论0

HTML字体背景打造个化网页设计的关键元素

网页设计已经成为现代网络传播的重要手段。在众多网页设计元素中,字体和背景的搭配尤为关键。本文将从HTML字体背景设置的角度,探讨其...

网站建设 2025-03-02 阅读1 评论0