作为移动芯片领域的王者,Arm每年都会带来新的CPU、GPU、互连技术方案,近日就奉上了全新的Arm TCS22,也就是2022年全面计算解决方案,包括一系列IP组合。CPU方面是全新旗舰超大核心Cortex-X3、大核心Cortex-A715,以及升级版小核心Cortex-A510(名字没变)。
GPU方面是首次支持硬件光线追踪的旗舰级Immotalis-G715、高端的Mali-G715、高端的Mali-G615。
互连方面则是升级版的DSU-110。
接下来,我们就分别看看都有哪些变化。
【CPU:超大核性能提升25%、三种核心组合更灵活】
2021年3月底,Arm正式发布了全新的Armv9指令集,号称10年最重要的创新、面向未来10年移动计算的基石。
Armv9重点增强矢量计算(SEV2指令集)、机器学习、数字信号处理,强化安全性,并继续提升性能,号称IPC性能未来两代提升会超过30%。
当然,它完全向下兼容Armv8。
Armv9指令集的Cortex-X2超大核心已经在骁龙8/骁龙8+、天玑9000/天玑9000+等旗舰移动处理器中得到应用,这次发布的是新一代Cortex-X3。
Cortex-X3在架构设计上的变化相当深入、广泛,比如解码器每周期指令从5个增加到6个,乱序执行窗口从288个增加到320个, ALU整数算数单元从4个增加到6个,二级缓存容量从512KB翻番到1MB,并且不再支持32位指令集。
性能方面,3.3GHz频率、1MB二级缓存、8MB三级缓存的配置下,与基于Cortex-X2的安卓旗舰处理器对比,提升最多25%。
3.6GHz频率、1MB二级缓存、16MB三级缓存的配置下,与主流笔记本处理器(Intel i7-1260p)相比,单核性能高出最多34%。
Cortex-A715注重性能与能效的平衡,对比去年的Cortex-A710,在同等性能下能效提升最多20%,而在同等功耗下性能提升最多5%。
同时,它已经达到了上上代超大核Cortex-X1的性能水准。
对了,A710也仅支持64位指令集。
Cortex-A510名字没变,性能也没变,不过能效提升了5%,应该是与更新制造工艺结合的效果。
同时,它也是唯一保留32位指令集支持的核心。如果一款App还没有升级到64位,今后只能依赖小核心执行,效率必然大打折扣。
Arm也是意在通过此举推动行业向64位加速转型。
另外,DSU-110互连单元也更加强大灵活,支持核心数量增加50%,比如Cortex-X3可以最多12核心、16MB三级缓存,还支持更多指令集。
big.LITTLE大小核的组合也更加灵活、丰富,同样1+3+4,X3+A715+A510的组合比去年的X2+A710+A510性能可提升12%。
1+4+4则可比1+3+4性能提升最多21%,2+2+4可提升最多23%,还首次加入了8+4+0这样的组合,面向中高端笔记本,性能高出足足120%。
总体而言,Cortex CPU今年的升级比较中规中矩。X3、A715都是预料之中的对位升级,A510本身几乎毫无变化。
但是,结合新的DSU-10互连单元,三种核心的配置更加灵活多变,可满足不同设备、应用场景的不同需求,包括在笔记本领域继续竞争Intel、AMD x86双雄。
【GPU:首次迎来硬件光追 名字都变了】
Arm Mali GPU凭借与Cortex CPU的整合优化、持续不断的迭代升级,已经成为移动行业的绝对主流,出货量全球领先,累计已超80亿。
这一次,Arm GPU迎来了一次超级变脸,旗舰型号放弃了Mali的传统名字,改成了全新的“Immortalis”,首款型号“Immortalis-G715”。
之所以改名,首要原因就是第一次支持基于硬件的光线追踪,和NVIDIA、AMD、Intel的高性能显卡一样进入了光追时代。
当然,Arm GPU不是第一个支持光追的移动端产品,Imagination此前已经做到,但是两家的影响力不可同日而语,Imagination的光追方案时至今日仍然没有落地。
其实,去年的Mali-G710已经支持软件光追,联发科天玑9000就开启了这一功能,并用在了OPPO Find X5 Pro天玑版手机中,今年则升级为硬件光追。
当然,光线追踪非常消耗硬件和软件资源,一般也会大大增加功耗,不过Arm宣称,Immortalis-G715的光追单元只占用了大约4%的着色器核心面积,而且功耗非常低,就带来了超过3倍的性能提升(对比软件光追)。
以下是Arm官方给出的光追效果对比图,右半部分为开启光追,可以看到丰富、清晰的反射、阴影,与非光追不可同日而语。
当然,无论是性能、功耗、效果,都还有待实际考验。
VRS可变刷新率也成了标配,同样追上了NVIDIA、AMD、Intel的脚步。
该技术隶属于DX12范畴,简单地说可在单个帧画面内改变着色速率,选择性地降低画面部分区域的细节水平(被遮挡/画面边缘等),从而在几乎不影响画质的情况下,提升图形性能。
Arm展示了VRS在腾讯《王者荣耀》中的效果,原画面和VRS画面几乎看不出任何区别,而在性能上,官方号称可将帧率提升最多达40%。
回到常规层面,Immotalis-G715的提升也非常可观,官方号称对比上代Mali-G710同等功耗下性能提升最多15%,机器学习性能直接翻番,而在同等性能下能效可提升最多15%。
它可以配置10-16个核心。
另外,Arm对执行引擎也做了全方位增强,主要有三个方面:
一是重新设计转换模块,大大缩小占用面积。
二是升级乘积累加运算(FMA),模块数量翻番,进一步提升性能和能效。
三是支持矩阵乘法指令(Matrix Multiply),可提升计算摄影、图像增强的效率,这也是机器学习性能翻倍的主要来源。
其他方面,指令流前端(Command Stream Frontend)、层次细节(LOD)、固定率压缩(AFRC)等技术都得到了升级。
同时,Arm 也发布了高端的Mali-G715 GPU(是的编号一样),没有光追,能效提升15%,可配置7-9个核心。
还有高端的Mali-G615,可配置最多6个核心。
它们俩也都支持VRS可变刷新率,这已经是Arm GPU的标配,同时也升级了执行引擎。
总体而言,Arm GPU今年的变化比较极端,新引入的顶级核心Immortalis-G715整体焕然一新,性能提升明显,尤其是将开启手游的光追新时代。
Mali-G715、G615的亮点则在于普及了VRS。
【未来:一年一变 每年提升两位数性能】
有趣的是,Arm这次很大方地公布了未来两年的路线图。
明年的TCS23,超大核CPU升级为CXC23(预计命名Cortex-X4),大核、小核分别升级为Hunter、Hayes,DSU互联单元升级为Hayden,旗舰GPU则升级为Titan。
后年的TCS24,超大核CPU再次升级为CXC24(预计命名Cortex-X5),大核升级为Chaberton,小核则维持不变还是Hayes,旗舰GPU则继续升级为Krake。
另外,沿用多代的CoreLink CI-700一致性互连技术、CoreLink NI-700片上网络互连技术,也终将迎来更新,代号Tower。
希望Arm未来能在能效、扩展性、平台安全性方面齐头并进。