按照寒武纪公布的参数,思元 220 参数性能比肩英伟达去年发布的 Jetson 系统级模块——AGX Xavier 和上周发布 Jetson Xavier NX。
在功耗上胜出 AGX Xavier,在计算速度上优于 Xavier NX。
11 月 14 日机器之心消息,寒武纪副总裁刘道福在深圳发布思元系列边缘端 AI 芯片「思元 220」和思元 220-M.2 边缘加速卡。
思元 220 的问世, 标志着寒武纪已经具备了从终端 (寒武纪 1A、1H、1M 处理器 IP)、边缘端 (思元 220 芯片) 到云端 (思元 100、思元 270 芯片) 完整的智能芯片产品线。
最新发布的思元 220 芯片采用了寒武纪在处理器架构领域的一系列创新性技术——寒武纪最新一代智能处理器 MLUv02,实现:
最大 32TOPS(INT4)算力,而功耗仅 10W。
对比 英伟达在去年发布的 Jetson 系统级模块——AGX Xavier 和上周发布 Jetson Xavier NX。
AGX Xavier 有 10W/15W/30W 三种选择,神经网络运算输出为 32TOPS,可应付多达四路的 HEFC 4K 、60fps 视频流。在功耗上有待进一步提升。
在功耗上有待进一步提升。
而就在上周,英伟达进一步推出 Jetson 的最新成员 Jetson Xavier NX,号称「全球最小边缘超算」。
可提供高达 14 TOPS(功耗为 10W 时)或 21 TOPS(功耗为 15W 时)的性能,能够并行运行多个神经网络,并在与 Nano 同样尺寸(70x45mm)的小巧外形中同时处理来自多个高分辨率传感器的数据。
Xavier NX 将于明年 3 月开始发售,价格 399 美元。虽主打边缘超算,但这个价格有些让人望而却步。
说回思元 220 ,据介绍,它可提供 16/8/4 位可配置的定点运算,客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。
在软件方面,通过端云一体的软件平台,思元 220 继续支持寒武纪 Neuware 软件工具链,支持业内各主流编程框架,包括 Tensorflow,Caffe,mxnet,以及 pytorch 等。
思元 220 是一款专门用于深度学习的 SOC 边缘加速芯片,采用 TSMC 16nm 工艺,它具有高算力,低功耗和丰富的 I/O 接口。
基于思元 220,寒武纪前期面向市场推出小尺寸的 M.2 加速卡,未来会推出更高算力的产品形态。
思元 220-M.2 边缘加速卡在尺寸为 U 盘大小的卡片上实现了 16TOPS(INT4)或 8TOPS(INT8)的算力。客户可以通过标准的 M.2 接口快速部署到已有的业务中实现业务的智能升级和边缘加速解决方案。
寒武纪表示,面向未来,针对不同的场景,包括边缘计算、自动驾驶车载计算、训练等场景。寒武纪将持续投资,推出更多的 AI 处理器,面向全场景持续提供更先进灵活、快速高效、性能卓越 AI 算力产品及服务。
1
边缘端为何重要
活动现场,寒武纪副总裁刘道福认为:相比数据中心计算或者说云计算,边缘计算有几个优势:
1)大幅降低传输成本。
在很多如电力、能源等工业领域,网络条件并不好,并且通讯基础设施的改造成本很高,因此数据直接在边缘进行处理,处理完的数据直接用于边缘决策,或者有效信息传回云端集中决策,这都可以减少传输成本。
2)大幅降低延时。
边缘计算往往具有实时的要求,因为要对各种设备进行实时决策,而传统的云计算,由于网络延时,很难做到实时。
3)保护数据隐私和安全。
边缘计算可以无需将数据或者原始数据传回云端,从而可以大大保护数据的安全和隐私,减少数据泄漏。
在昨天的报道《继英伟达最小边缘超算,英特尔再推 10 倍提升 VPU,终端 AI 芯片创业压力加剧》里,我们也谈到,边缘智能,作为人工智能的最后一公里,很长一段时间里被创业者视为得以绕开巨头打压的蓝海市场,但今年市场被催熟的趋势明显,英特尔 Nervana、英伟达 Jeston 系列、以及谷歌 Coral 和华为鲲鹏等巨头逐步进场收割,AI 芯片创业生态竞争加剧。
2
云边终三端布局
除了目前云边结合的思元系列,寒武纪在更早推出的是终端产品线:终端 IP 处理器系列。
从第一代产品,2016 年推出的首个商用深度学习处理器 Cambrion-1A,到 17 年面向计算机视觉领域专用的二代处理器 Cambricon-1H(Cambricon-1H8、Cambricon-1H16),再到延续了前两代产品完备性优点的第三代最新产品,面向本地训练的 Cambricon-1M。
采用 7nm 台积电工艺的 Cambricon-1M,性能十倍超越于已被广泛使用各大移动手机终端的 Cambricon-1A。可以实现 5TOPS/W 能效比,单个处理器核即可支持 CNN、RNN、SOM 等多样化的深度学习模型,更进一步支持 SVM、k-NN、k-Means、决策树等经典机器学习算法。
科大讯飞就曾在发布会上披露,寒武纪处理器在语音智能处理的测试结果,显示出了能耗效率上的优越性。其领先于竞争对手的云端 GPU 方案至少 5 倍,语音本地识别准确率相对于传统处理器也有 9.8% 的提升。
IP 处理器成名的寒武纪在终端产品不断成熟之后,紧接着推出云端芯片,本次思元系列的前两款产品:思元 100 和思元 270。
回顾这两款云端芯片在实际运用中,均表现出如下几点共同的优势:
- 作为通用处理器,支持各类深度学习技术,支持多模态智能处理(视觉、语音和自然语言处理),应用领域广泛;
- 从指令集和架构角度来看,相比于 GPU,对于在深度学习和人工智能场景中表现出了更高的效能比;
- 配套软件开发环境完善,用户体验良好;
- 为「端云一体「策略而开发的最佳执行者。
此次发布的思元 220,更是旨在弥补市场内边缘端加速方案的空白而存在,同时也彻底完善了寒武纪产品线中边缘端芯片的空白。
寒武纪借助由于人口因素带来的数据优势,更加擅长于训练,因此多款芯片均可以看出技术优势带来的侧重点在于训练。
目前寒武纪无论是云端,终端,还是边缘芯片,都采用统一的处理器架构和指令集,以及统一的软件栈。
这三个领域的生态可以相互促进,形成正循环。云端提供了完整的开发,调试,调优的软件,云端开发好的程序,可以很方便快速的部署到终端和边缘,解决终端和边缘开发难,调试难,调优难的问题,而终端和边缘,可以积累大量的客户和开发者,反哺于云端生态,最终实现云,边,端生态的繁荣。