自从2018年整合Arm在华业务成立合伙公司进行独立运营以来,业界一贯关注安谋科技自研产品技能的发展。在这期间,环绕人工智能、CPU、信息安全、多媒体处理等核心领域,安谋科技推出了“周易”NPU、“星辰”CPU、“山海”SPU以及“玲珑”ISP、“玲珑”VPU等处理器IP,并实现了客户干系产品的流片和量产。截止目前,已经有超过160家本土客户采取了该公司自研的IP,而基于安谋科技自研IP的芯片出货量也已打破2亿颗。
这5年也是AI运用在纵深市场高速扩展的期间,对AI处理能力不断增加的需求推动了干系产品的快速迭代。日前,面向智能汽车和边缘打算AI图像处理,安谋科技推出了新一代NPU“周易”X2 NPU,该处理器不仅在算力、精度、灵巧性等方面进行了大幅提升,还针对车载、边缘打算等运用处景进行了专门优化,进一步提升这些场景下的打算效率,知足包括4K高分辨率在内的多种分辨率和多路图像领悟打算的需求。
安谋科技实行副总裁、产品研发卖力人刘澍表示,“周易”X2 NPU首先面向汽车市场。中国的汽车发展动力强劲,中国市场汽车销量已占环球汽车销量的1/3。同时,安谋科技的中国客户也有长足的进步和发展,本土智能汽车品牌正在崛起,相信中国智能汽车的发展进程将经历类似于智好手机的发展,中国品牌会在环球市场上霸占越来越主要的地位。

在汽车智能化中自动驾驶(ADAS)对AI的需求越来越多,包括ADAS系统中更多的摄像头和雷达旗子暗记的处理,以及车内车外各种赞助系统的决策,须要更高的帧率、更大的算力、更多人机交互、更多安全性等,这些都对处理器IP产品提出了更高的哀求,而“周易”X2 NPU的推出,可以知足这些需求。当然,除了汽车,该产品也面向其他算力场景的边缘侧运用,如做事器、手机、PC、平板电脑等。
汽车智能化过程对AI图像处理提出了更多的哀求。以多路图像领悟打算——紧张是ADAS运用——为例,其在AI算法演进上,不仅须要处理器能够在统一空间支持多模传感器感知领悟与多任务共享,还要能够预测与方案联合建模,离线与在线学习相结合,能够自学习处理不愿定性下的安全与可阐明问题,通过持续学习办理新场景问题。
这一演进趋势须要更高的算力和一系列性能优化来实现。据安谋科技产品总监杨磊先容,相较于上一代产品,“周易”X2 NPU 基于最新的V3架构指令集,在八个方面进行了技能升级:
一、其多核cluster, 可支持最高达320 TOPS子系统;
二、支持更好的i-Tiling技能方案,可大幅减少带宽需求,办理内存墙问题,进一步提升打算效率,从而大幅降落系统的本钱;
三、采取TSM任务分拆和管理技能,可以充分发挥各个打算单元效能,提高算法效率;
四、支持稠浊精度打算,包括 int4/int8/int12/int16/int32, fp16/bf16/fp32。既可以做定点的、整型的数据打算,也支持浮点的16bit或者是32bit的打算,可以很好地平衡功耗、算力密度以及打算精度。这是V3架构里新支持的技能功能;
五、针对汽车领域常见的AI模型Transformer专门进行了性能优化。包括现在最火热的ChatGPT,模型根本架构也是基于Transformer的;
六、增加了无损的权重压缩技能,节省了数据传输的带宽;
七、低功耗技能升级,在7nm工艺节点上实现10TOP/W的能效;
八、面向手持设备做了专门的优化,例如拍照AI去噪声,视频的超分辨率、插帧等。
图1:“周易”X2 NPU紧张功能升级
“周易”X2 NPU 基于最新的V3架构指令集。对此,安谋科技NPU研发高等总监孙锦鸿强调道:相较于“周易”V1、V2架构,V3架构更强调并行性和可扩展性。全体“周易”NPU设计的核心思想是在指令以及数据处理单元的同构打算里做到最大并行;而在异构上,则是把数据的Channel和Batch,乃至异构算子做成并行,在同构和异构的单元里得到统一。在此根本上扩展内核和Cluster,通过不同颗粒度的并行性来表示全体“周易”架构的强扩展性。虽然“周易”V3架构的扩展维度多样,但都可以通过统一的OpenCL界面把不同扩展性的打算单元通过统一的编程办法进行编程,因此供应了较好的用户体验。
孙锦鸿表示,“周易”NPU团队自主定义了V3架构所有的超过1000个的指令集。针对不同场景,这些指令基于VLIW构造,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。
为了开拓者可以方便、快速地进行算法移植和调试,从第一代“周易”NPU推出开始,安谋科技就供应了一套完全的人工智能软件开拓套件,该套件支持主流的人工智能框架,如 TensorFlow、Caffe、ONNX、PyTorch等模型,具有多种开放接口,支持用户模型和自定义算子等开拓和调试。套件搭载了丰富的调试工具。支持多种层次的开拓和调试,知足高等开拓者白盒开拓的性能调优的需求。其他资源包括支持 Android、Linux、RTOS 、QNX 平分歧 OS,支持 TVM、Arm NN 的 SoC 异构打算,从而有效利用 CPU、GPU、NPU等打算资源,具有Bit精度的软件仿真平台,便于算法移植和支配。
目前“周易”NPU这套工具链及技能做事,可适配100多种算法。杨磊强调,“周易”NPU也可以支持客户的自定义算子,以知足各种模型支配的需求,支持定制差异化的AI办理方案。
纵不雅观安谋科技的产品路线,不丢脸出其立意在于打造完全的异构打算矩阵,而就IP商业模式而言,生态培植至关主要。安谋科技在去年7月发起了生态伙伴操持,目前已有来自智能汽车、AIoT、终端领域的40家头部芯片设计公司、办理方案供应商和系统平台公司加入。
异构打算的IP办理了底层硬件重复开拓的问题,而面向着多元化的运用,要实现每一个领域的广泛参与,“开源”是一个主要的举措。例如“周易”NPU面向物联网、智能终端、汽车等市场,而面向这些领域的芯片设计工程师常日要面对上层软件的运用、算法开拓、选择适宜自身硬件的推理软件工具、算法移植等共性问题。
因此,继生态伙伴操持之后,去年11月,安谋科技开始发起“周易”NPU软件开源操持,通过开放源码,来知足客户更自主、更灵巧的算法移植需求,携手更多开拓者以及互助伙伴共建国内NPU家当生态。而随着这次“周易”X2 NPU的发布,该公司也正式对外发布这一操持,在第一阶段,安谋科技对外开放的资源包括NPU中间表示层规范、模型解析器、模型优化器、驱动等,并供应免费的软件工具链,包括软件仿照器、调试器、C编译器。
图2:“周易”NPU软件开源操持
详细而言,安谋科技目前已开源其“周易” Compass软件平台的前端,并在开源操持的第一阶段开放以下资源:
Compass解析器——解析器源代码和中间层表示规范;
NPU Linux驱动——更易在现有SoC上支配,并符合GPLv2协议;
Compass集成——供应“周易”NPU网络布局工具端到端验证环境;
模型仓库——已验证的开源NN模型,便于测试和快速上手。
个中,Compass解析器的紧张浸染是将多种框架的模型转换成“周易”NPU的中间表示,开拓者可以基于源码进行修正以适配更多神经网络模型。除了调试、验证解析器本身功能之外,开拓者还可以在极术社区上免费获取软件工具链,进行算法模型端到真个调试和验证。如下图所示,Compass解析器不仅支持基于软件仿真器的调试和结果验证,还可以支配到内嵌“周易”NPU的芯片上进行测试和性能优化。
图3:“周易”Compass软件平台
杨磊表示,“周易”Compass软件平台不仅能充分发挥NPU的性能,还能支持安谋科技供应的一揽子IP组合异构打算办理方案,包括Arm CPU、GPU,以及安谋科技自研ISP、VPU、SPU等。目前,“周易”Compass软件平台支持TVM以及Arm NN两套异构打算平台,能够将SoC芯片中的CPU、GPU、NPU IP的性能协同发挥出来,这也是比较新的功能。
安谋科技已分别在代码托管平台Gitee、GitHub上建立该项目的开源库,开拓者可以方便地在这些平台上获取资源。据悉,这只是“周易”NPU软件开源操持的第一步,安谋科技后续还将逐步开放更多资源,例如模型优化器、模型量化、算子实现等源代码。
“周易”X2 NPU已经可以正式交付客户,今年将会有多款搭载“周易”X2 NPU的芯片产品面世。截止目前,“周易”NPU软件开源操持已吸引了首批互助伙伴“入驻”。随着安谋科技异构打算产品的发展和演进,其独立运营的根本进一步夯实,在坚持开展自研IP业务和发展Arm IP业务这一模式不变的根本上,安谋科技对其在中国半导体及自研IP家当发展中扮演的角色充满信心。