2024-06-17 17:39 中文科技资讯商业版
提到Arm,如今许多的智能手机用户、甚至是部分PC用户想必都不会感到陌生。毕竟客观来说,如今几乎所有的手机都运行在Arm的指令集上,大多数的手机SoC都或多或少使用了Arm的架构设计。即便是在PC市场,基于Arm架构打造的Mac系列机型和“Windows on Arm”,也是当下相当火热的话题。
对于绝大多数消费者而言,大家可能都知道Arm,也知道他们设计了如今诸多移动SoC的基础指令集和架构,但大家往往会有一种错觉,认为Arm好像就只是“高高在上”地更新着指令集、设计新的架构。而将这些设计“挑选”、“组合”成为最终芯片,并进行软件优化的工作,便是由各家芯片厂商、甚至是手机厂商来进行,与Arm便没有太大的关系了。
很显然,站在Arm的角度来说,这显然是一种对他们业务方式和“行业地位”的误解。或许正是出于这样的考量,就在今天,Arm方面在北京召开了新一届的技术日活动,详细介绍了他们如今的产品形态、设计,以及相关技术优势。
发布终端CSS,Arm的业务不仅只有“架构授权”
对于现如今的Arm来说,这家公司已经不仅仅是一家提供"独立的“CPU、GPU 产品的IP设计商,Arm已经转型为一家计算平台的提供商。在终端领域,从2021年开始,Arm就已经推出了名为”全面计算解决方案(TCS)“的参考平台设计方案。随着这个产品组合近年来的大获成功,Arm方面也在前不久刚刚宣布了面向消费电子设备的全新产品方案,也就是本文的主角——Arm终端计算子系统(下文将简称为Arm终端CSS)。
Arm终端CSS具体包含哪些内容?简单来说,它可以视为“IP+制程+软件优化”这一整套组合。
在IP方面,Arm终端CSS首先就有最新一代的Arm v9.2 CPU集群,其中包括Cortex-X925超大核、Cortex-A725性能核,以及新版的Cortex-A520能效核设计。
其次,它还包含最新版本的Arm CoreLink互联系统,以及其上所集成的系统级缓存和系统内存管理单元。
最后,Arm终端CSS还包含基于Arm第五代GPU架构而设计的新GPU系列。而根据不同的核心规模,它又可以被细分为Immortalis-G925、Mali-G725和Mali-625这三条产品线。
制程方面,Arm终端CSS包含了Arm与“领先代工厂伙伴”合作的3nm工艺的CPU和GPU物理实现。这既意味着新的产品在设计时就已经考虑到了3nm工艺的影响,可以充分发挥3nm的潜力,同时也代表着相关代工厂们已经针对这一代Arm的新产品做好了准备。
而在软件层面,Arm也推出了针对Android设备的CSS参考软件堆栈,除此之外还有能够助力软件开发者充分利用Arm CPU性能的Arm Kleidi软件库,让他们顺利打造新的AI体验。
不只架构换代,新组合还有多的官方优化
不难发现,Arm终端CSS绝对不是单独的CPU或GPU“架构授权”。那么这套方案的好处又到底是什么呢?
按照官方的说法,Arm终端CSS是从平台面出发,以解决AI日新月异的计算需求。它的一大好处就是它具备非常高的性能。比如,它在Geekbench 6中的单核性能,就可以比去年的Arm TCS23平台提升多达36%。
在一些更接近现实用例的测试场景中,Arm终端CSS的头部流行应用平均启动时间比去年的旧平台加快了33%,网页浏览速度加快了60%。而在包含了光追和可变速率着色的七项图形基准测试当中,其峰值性能平均增长也达到了30%。
需要注意的是,这些实测性能的增长并不完全源自单纯的CPU架构换代。事实上,通过Arm内部参考配置来看,终端CSS采用了 2+4+2的CPU集群组合,同时还有比前代大了一倍的系统缓存。而这种核心组合以及缓存的调整,实际上就相当于是Arm对于“新产品该如何发挥最大性能”的成熟研发结果,对比于过往从单一CPU的角度切入,这就是从平台面思考所获得的显著成果。
不仅如此,在看到Arm终端CSS与前代TCS的AI性能对比时,既要注意到它在多个大模型项目中都有着接近50%的性能增长,但同时也要看到,这种增长并非完全源自NPU(或者说DSP)的换代,而是因为Arm终端CSS还利用了新架构CPU和/或GPU的AI计算能力。因此新平台能够在执行AI计算时,更好地同时调用多个不同的计算部件。而这背后就涉及到Arm新的互联系统以及新的软件堆栈,这同样也是光从单一CPU切入所做不到的事情。
在今天的沟通中,Arm方面不止一次的强调,终端CSS可以有效地加快消费市场的SoC生产、换代速度。很显然,考虑到它包含了CPU核心、缓存的“官方建议配置组合”,以及相对成熟的软件优化,甚至是与代工厂之间的制程适配,这也就意味着对于SoC厂商来说,如果直接“选用”Arm的这套成熟方案,就可以节约大量的研发和适配时间,甚至完全有可能带来比一些使用“魔改”CPU搭配芯片厂商自研GPU或其他部件的方案,具备更高的性能和能效比。
Arm终端CSS并不死板,或获将造福更为广泛的市场
当然,考虑到Arm终端CSS的“打包”特性,不免会让有些朋友感到担忧,它是否会导致市面上的Arm SoC在一定程度失去多样性?
针对这个问题,其实大家要先明白一件事,那就是Arm终端CSS并不是固定的一种设计。实际上,Arm终端CSS具有相当高的可扩展性,它的很多细节都可以根据最终的需求进行微调。比如,它最多其实可以支持到14个CPU核心、而不是常见的8核,同时其“2+4+2”的CPU组合方式也并非绝对,厂商完全可以根据自身的需求去推出9核、10核CPU,或是集成了更多超大核和大核的方案。
其次根据不同的使用场景,Arm终端CSS的“内涵”也会有所不同。举例而言,由于目前的Arm GPU不支持Direct X,所以如果要将其用于Windows PC,那么此时的Arm终端CSS就可以不包括GPU这个部件,而是仅提供CPU与总线、缓存部分,再搭配其他“外挂”GPU方案。但如果是用于Linux PC(比如Chrome Book),那么这时候就依然可以采用包含GPU的Arm终端CSS方案,以发挥出来自官方的异构计算和能效优化效果。
况且就算是目前版本下“完整”的Arm终端CSS,也远非是一颗完全的SoC设计,比如它并不包含NPU、DSP、DPU、VPU等等周边计算模组,也不带有基带、蓝牙、WiFi和电源管理部件。
值得注意的是,Arm其实是有自己的NPU、DPU、VPU等产品线,所以当Arm终端CSS不带有这些“组件”时,很明显便是在为终端厂商的差异化在做考量。
综合以上信息不难发现,当SoC厂商选择了Arm终端CSS的时候,便可以自由调整CPU核心组合、修改缓存大小、替换GPU、配合自研或外购的ISP、NPU,以及其他外围部件,去形成一套完整的SoC方案。除了不能使用自研CPU架构之外,Arm似乎就没有做出更多的限制。
况且大家要明白,对于市面上几乎所有的SoC厂商来说,就算他们有自研的CPU、GPU方案,很多时候这些方案也会受限于成本因素,不太可能完全覆盖从最顶级的旗舰到入门级的完整市场。对于一些重视交付速度的主流产品线,或者是一些既要有新技术、又要控制成本的细分市场来说,Arm终端CSS的潜在竞争力甚至可能比它在旗舰领域的表现还要更好。
那么这些意味着什么?说得更直白一点,依托于Arm终端CSS,未来我们不仅会看到一些设计大胆、堆料“恐怖”的旗舰SoC方案。它更是有希望加快中高端、中端SoC的换代速度,从而解决大家经常诟病的“旗舰年年更新、但中端机却原地踏步”的市场现状。