x79平台cpu cpu对比平台( 二 )



x79平台cpu cpu对比平台


△MLPerf网站展示的玄铁C906的四项测试
从Tiny v0.7推理性能数据对比来看,玄铁C906的四项测试得分分别达到了其他机构最优性能的12.6倍、20.8倍、16.2倍和10.9倍以上 。足见玄铁C906在AIoT领域的性能优势 。

x79平台cpu cpu对比平台


△权威AI榜单MLPerf Tiny V0.7性能数据对比
据了解,在AI Benchmark领域,过去大家看重的都是芯片的AI性能,在这块MLPerf已经做到了国际公认的权威 。经过近几年的发展,特别是在IoT领域,芯片的AI能效表现越来越受到重视,MLPerf也对应的推出了针对IoT领域的AI能效的基准测试Tiny 。
孟建熠告诉芯智讯:“由于此前阿里在AI能效方面一直有较多的布局和积累,当Tiny这个测试推出之后,我们自然就想来反映一下自身的能力,于是就去参与了测试,结果四个指标都拿到了第一,证明了我们的技术路线是正确的 。”
需要特别指出的是,该测试成绩是在不使用加速器的情况下取得的,也就是说,这个测试的成绩完全反映的是平头哥C906的AI处理能力 。
“从平头哥的角度来说,我们的定位就是提供RISC-V原生的AI支持,而不是去做AI加速器,所以我们全部都是用CPU来跑的,通过软硬件的协同创新证明我们的整体能力 。客户可以基于此,再去研发更定制化的AI加速器 。”孟建熠强调:“我们觉得这件事真正的价值在于对RISC-V产业发展的推动,它不仅证明了RISC-V在AI的高能效处理上是可行的,而且相比其它架构还更具领先优势,大家可以持续地往这个方向做得更好 。”
RISC-V国际基金会CEO Calista Redmond也表示: “物联网领域的AI技术竞争激烈,不同层面的定向优化对于以极低功耗取得新突破至关重要 。阿里此次的工作证明了其在RISC-V产业的领导者地位,也给全球RISC-V社区和生态的发展提供了信心 。”
软硬协同优化是关键
那么,平头哥玄铁C906此次成功拿下四项AI测试的全球第一,并且相比友商的最优性能得分均高出了10倍以上,其背后又有着哪些秘密呢?
据介绍,此番玄铁C906这一成绩的取得,主要是得益于阿里软硬件协同创新优化的实力,包括了从硬件,到编译,到算法,再到应用的各个方面 。
首先,在硬件层面,玄铁C906处理器是业界最早量产的向量扩展RISC-V指令集处理器 。采用5~8级流水线设计,配备性能优异的单双精度浮点和128位矢量运算单元,支持INT8 / INT16 / INT32 / INT64 以及 BF16 / FP16 / FP32 / FP64多种格式的矢量运算 。同时,C906在数据预取上也做了优化,采用多通道多模式的数据预取技术,可大幅提升数据访问带宽 。
其次,在编译层面,平头哥进一步优化了针对玄铁CPU平台的神经网络模型部署工具集HHB(Heterogeneous Honey Badger) 及开源神经网络加速库CSI-NN2,将AI算子更好地与硬件适配,使得玄铁CPU实现了AI性能升级 。目前,HHB及CSI-NN2均已开源 。
第三,在算法层面,借助阿里云震旦异构计算加速平台SinianML对各个benchmark的神经网络进行了压缩、蒸馏、伸缩、网络结构搜索等多方位的优化,在保证达到要求精度目标的情况下,得到远高于标准模型的计算效率,同时集成阿里IoT、蚂蚁IoT、达摩院语音实验室等在各自领域的优化经验和能力,进一步拓展细分领域的优化的效果 。
【x79平台cpu cpu对比平台】第四,在应用层面,玄铁RISC-V处理器经过数年的发展,目前已覆盖低功耗、高能效、高性能等各类场景,并支持了OpenXuantie的多操作系统(AliOS、FreeRTOS、RT-Thread、Linux、Android等),广泛应用于智能家电、车载、工业控制、边缘计算等领域 。这也使得玄铁RISC-V处理器能够针对各种不同应用端的需求进行持续优化 。

推荐阅读