Arm于Tech Day 2024活动中详细说明Cortex-X925、Cortex-A725、Cortex-A520等处理器以及Immortalis-G925绘图处理器的硬件架构改进,我们先从处理器部分切入。

Arm于2024年Computex台北国际计算机展发布了终端产品运算符系统(Compute Subsystem for Client,以下简称CSS 24),包含新架构的Cortex-X925、Cortex-A725处理器与Immortalis-G925绘图处理器,将既有Cortex-A520升级支持3nm节点制程,并推出可以弹性配置多种处理器、绘图处理器的DSU-120动态分享单元,显著改善性能与电力效率表现,并提供更大的核心搭配弹性。

Cortex-X925属于“超大核”的产品线,根据Arm提供的数据,与2023年的旗舰智能手机(Premium Android)相比,在Geekbench SC单核心测试有36%的性能提升,而在Phi-3大型语言模型的首组字词生成时间(Time to First Token)则提升46%。

Arm没有在产品命名时依照惯例,继续2023年推出的Cortex-X4将此代产品命名为Cortex-X5,而是考虑到性能的巨幅增长,而将产品命名为Cortex-X925,也正好标齐绘图处理器“Immortalis-G925”的名字。

Cortex-X925的设计目标在于保持绝佳电力效率的前提下,尽可能提升性能表现,尤其针对AI应用进行性能强化。于是它首先增加了解码与矢量单元的宽度,取得50%的TOPS运算性能增益,并提供最高容量达3MB的L2缓存内存选择,降低运算延迟与提高分枝预测准确度。在硬件制造部分,导入支持多家合作伙伴芯片代工服务的3nm制程节点,通过更先进的制程技术提高电力效率,并改善PPA因素(Performance、Power、Area,指芯片的效性能、功耗、面积)。

通过这些改善措施Cortex-X925能在消耗更少电力的情况下输出与前代产品相同的性能,也可以在提高电力预算的同时提升更多性能增益,在加速App与程序启动速度、增加AI应用程序响应速度、提升网页浏览与游戏性能、延长续航力等方面都能带来正面帮助。

根据Arm官方提供的数据,Cortex-X925在多款现实应用的App中能带来平均30%的性能增益,在整体处理器集群的AI性能有172%的提升,而对于量化的用户体验指标分数也有30%的改善

Arm终端业务部智能手机市场高级总监Steve Raphael在Tech Day活动开场介绍了CSS 24的产品规划。

Arm终端业务部产品管理总监Steve Hopper则详细介绍了CSS 24的特色与架构。

Arm终端业务部高级产品经理Manish Pandey针对处理器部分进行分析说明。

CSS 24承袭2023年的全面运算解决方案(Total Compute Solution),从目前公布的路线图可以看到明年将会迎来CSS 25。

CSS 24带来Cortex-X925、Cortex-A725、Immortalis-G925、DSU-120等新IP产品。

CSS 24将能带来超过30%的运算与绘图性能提升,AI推论性能可以提升59%。

CSS 24具有多个可以满足旗舰级移动设备需要求的特点,包含最大化真实运算负载性能、加速生成式AI、提高系统电力效率等。

Arm通过FPGA模拟TCS 23与CSS 24平台进行性能测试,后者采“2+4+2”核心处理器搭配14核心Immortalis-G925绘图处理器。

与TSC23相比,CSS 24平台在图像性能、App启动速度、网页浏览等性能分别有30%、33%、60%的性能提升。

在5款热门游戏的性能表现方面,CSS 24能在消耗相同电力的前提下提升37%性能,或是在FPS同样达到120帧时节省30%电力。

AI性能部分使用CSS 24的Cortex-X925处理器搭配Kleidi AI函数库进行推论运算,在Llama 3 8B、Phi-3 3.8B等大型语言模型的首组字词生成速度(Time to First Token,TTFT)则分别提升42%、46%。

以整个处理器集群为单位进行分析,峰值性能与2023年的旗舰级Android智能手机比有36%提升,Cortex-A725的电力效率比Cortex-A720提升35%,更新后的Cortex-A520电力消耗则降低15%。

整体而言CSS 24在多项性能指标平均性能增益达到30%。

CSS 24的整体处理器集群与TCS 23相比AI推论部分有172%性能提升,用户体验指标也提高30%,在App与程序启动速度、AI应用程序响应速度、网页浏览与游戏性能、电池续航力等方面都有所提升。

单看Cortex-X925处理器核心,它在Geekbench SC单核心性能较2023年的旗舰级Android智能手机比有36%提升,Phi-3大型语言模型的首组字词生成速度较Cortex-X4提升46%。

Cortex-X925在IPC、时脉、系统与软件优化等改进之下,可以获得36%性能增益。

除了性能测试有所进步之外,在多种实际使用场景具有更快的响应速度能提升用户体验。

Cortex-X925能在消耗较低电力的前提下输出相同性能,也能消耗更多电力换取更凸出的峰值性能。

CSS 24也包含新架构Cortex-A725处理器,其设计目标为满足日益复杂的AI与游戏运算需求,每个核心最多可以配置1MB L2缓存内存,所有核心最多可以共享16MB L3缓存内存,达到提升乱序处理的效率,进而提升整体性能输出。在制程方面,同样能支持3nm制程节点,进一步改善PPA因素。

根据Arm提供的数据,Cortex-A725与前代Cortex-A720相比,在性能与电力效率分别有35%、25%的提升,而在L3缓存内存的流量部分则有20%改善,对于执行大型语言模型的性能有着关键帮助。

虽然Cortex-A520处理器的架构并没有改变,但在CSS 24也将它升级支持3nm制程节点,除了同样能够发挥改善PPA因素的效果,带来15%的电力效率提升。

由于目前Arm尚未推出让CSS 24支持小芯片(Chiplet)设计,所以将Cortex-A520升级支持3nm的另一大意义,在于能够让它与其他CSS 24相关IP被安置于同一芯片。而Arm终端业务部高级产品经理Manish Pandey也在访谈中提到,Arm将持续关注小芯片技术的发展,并认为是高端智能手机的前景所在。

Cortex-A725处理器支持3nm制程节点,每个核心最多可以配置1MB L2缓存内存,所有核心最多可以共享16MB L3缓存内存。

与Cortex-A720相比,Cortex-A725在性能与电力效率分别有35%、25%的提升,而在L3缓存内存的流量部分则有20%改善。

Cortex-A520同样支持3nm制程节点,能够带来15%的电力效率提升。

DSU是DynamIQ Shared Unit(动态分享单元)的缩写,其功能概念可以参考下方视频说明,它打破了传统处理器核心组合的限制,让集群中的处理器核心可以自由配置,各核心也能各自动态调节运行时脉,大幅提高设计弹性与运行时的电力效率。

DSU-120最多可以容纳14组处理器核心,开发者可以在设计SoC时依照需求自由选择配置。CSS 24的升级也为DSU-120带来更强大的电力管理功能并降低漏电问题,同时能够减少DSU单元的占用面积并对传输信道进行优化,降低50%典型工作负载的耗电量,并降低60%缓存失误的耗电量。

DSU-120也导入全新的L3 Quick Nap功能,它让L3缓存内存与Arm POP内存一样具有称为Quick Nap的轻度睡眠功能,可以让L3缓存内存的区块(Slice)在闲置一段时间之后自动进入Quick Nap电力状态,而访问其他区块时不需要唤醒Quick Nap中的区块。

当访问Quick Nap中的区块时,系统会送出唤醒指令,然而唤醒指令能够与访问指令同步进行,也就是说关闭与打开L3缓存内存区块的过程不会造成性能虚耗,就可以发挥省电的效果。

虽然这是先前较旧DSU的介绍视频,但也能得知DSU的概念与功能。

DSU-120最多支持14组处理器核心,开发者能依产品定位调整配置。

3nm制程节点对于改善PPA参数有所帮助,能够降低50%典型工作负载的耗电量,并降低60%缓存失误的耗电量。

DSU-120提供多种不同的电力模式,可以关闭闲置核心、区块以降低漏电,达到提高电池续航力的效果。

另一方面DSU-120也提供L3 Quick Nap功能,能够在不影响性能表现的前提下,节省L3缓存内存的电力消耗。

DSU-120让不同的处理器核心能够各展所长。例如Cortex-X925适合在App启动、网页浏览等需要更高性能但持续时间很短的应用场景,也与Cortex-A725都一样适合应用于AI与游戏。省电的Cortex-A520则适合负责轻度媒体播放与闲置场景。

与目前已出货的笔记本相比,Arm架构解决方案能够带来25%单线程性能增益,也可以通过纳入更多核心提升多线程性能。

在Cortex-A725搭配Cortex-A520的组合下,能在与Cortex-A78搭配Cortex-A55占用相同芯片尺寸的情况下带来13%性能增益,或是在提升些许尺寸的“完全体组态”下带来21%性能增益。。

Cortex-A725的Scale-Out扩展能力也相当理想,增加核心数量可以带来接近线性性能提升。

整体而言,CSS 24能够为智能手机与个人计算机带来终极的性能与用户体验。

CSS 24在DSU-120提供的高度设计弹性下,能够满足旗舰智能手机、个人计算机、一般智能手机、穿戴设备的使用需求。

CSS 24除了能能应用于移动设备,也很适合用来打造个人计算机、AIPC,但你有注意到为什么在个人计算机的组合范例中没有看到绘图处理器吗?我们将在下篇文章继续分析。