Arm最新推出的Lumex CSS平台具有4种不同型号的C1系列处理器可供选择,搭配C1-DSU动态分享单元最高能够组成最高14组实体核心处理器的SoC。
Arm终端业务部产品管理总监Ronan Naugton于Arm Unlock大会介绍了最新发布采用Armv9.3架构的C1-Ultra、C1-Premium、C1-Pro、C1-Nano等4款C1系列处理器(CPU)核心。
C1-Ultra与C1-Premium为接替先前Cortex-X925的型号,定位为“超大核”的角色。前者的设计目标为追求极致性能,而后者则在降低些许性能的代价下,大幅缩小35%芯片尺寸,达到更理想的价格、性能、功耗平衡。
C1-Pro则为Cortex-A725的后续型号,属于“大核”的定位,设计目标为提供持性的高效率运行,作为以电池驱动设备的主力运算核心。C1-Nano则属于“小核”是填补Cortex-A520的空间,具有最小的尺寸以及更高的电力效率,适合负则后台执行的程序,或是应用于穿戴式设备。
上述4种CPU核心型号都支持SME2(Scalable Matrix Extension 2,第二代可扩展矩阵延伸指令集),能够大幅提升矩阵运算性能,进而提高AI运算的性能,让更多AI应用程序能够于CPU执行。
虽然CPU的AI运算性能不如使用绘图处理器(GPU)或神经处理器(NPU),但是有着更高的开发弹性,而且各种设备都会具有CPU且碎片化的状况较为轻微,因此对于AI应用程序、App的兼容性比较高,其高度可程序化的优点,也让它能够支持更结省计算资源的4Bit甚至2Bit数据类型AI模型。
相对之下,有些设备可能缺少GPU或NPU,或是即便具有GPU、NPU,但因由不同厂商提供而导致软件不兼容,造成无法激活加速AI运算的窘境。
另一方面,由于在智能手机执行的AI应用程序通常搭配参数量比较低的小型模型,因此使用CPU进行运算比较不会遇到不堪负荷的状况,且在CPU执行可以省下将数据搬迁到GPU或NPU的性能虚耗,节省保贵的带宽与电力,并且还能降低些许延迟。衡量各种利弊得失后,使用在智能手机通过CPU执行AI应用程序也不失为权宜之计。
需要注意的是,接替Cortex-A320的C1-Pico虽然也是采用“C1”命名,但它仅采用Armv9.2架构,因此并不属于Lumex CSS产品系列的成员。
Arm终端业务部产品管理总监Ronan Naugton于Arm Unlock大会说明Lumex CSS平台的4款C1系列CPU核心。
4款新CPU中,由C1-Ultra与C1-Premium接替先前Cortex-X925的型号,而C1-Pro与C1-Nano则分别接替Cortex-A725与Cortex-A520。
C1-Ultra单线程性能领先前代Cortex-X925达25%,C1-Premium能在提供相对优秀的极致性能下缩小芯片占用面积。C1-Pro较前代产品提高16%游戏性能,C1-Nano则较前代产品节省26%电力。
C1 CPU集群较前代产品性能平均提升15%,且平均节省12%电力。
不同运算单元的特性对照。CPU具有最佳的应用弹性,但性能表现较为平庸。GPU具有高度并行计算的特性,在应用弹性与性能的表现趋于平衡。NPU因为硬件架构专为矩阵运算设计,因此应用弹性最低,但运算性能与效率都最好。
在CPU执行AI应用程序最大的优点就是具有最佳兼容性,对开发者来说也更加友善。
在SME2的协助下,CPU能在维持相同弹性的前提下提高AI运算性能,并改善电力效率。在CPU进行AI运算的额外好处是可以避免数据转移造成的性能虚耗以保持低延迟,并具有高度可程序化的优势。
C1系列CPU打开SME2之后,可以在相同的AI运算负载下提高12%运算性能,并节省28%电力效耗。
SME2指令集改良1代的设计,能够支持更多不同数据类型,具有更高的数据吞吐量与执行效率。
根据Arm提供的数据,SME2能将语音识别的延迟降低4.7倍、提升LLM编码速度4.7倍、提高语音生成速度2.8倍。
在C1-Pro打开SME2之后,AI运算性能可以较关闭SME2时平均提升约3.7倍。
Ronan Naugton也在会中提出许多C1系列CPU的性能数据,笔者将相关演示文稿整理于下。
先看到旗舰级产品C1-Ultra,其GeekBench 6.3的测试成绩较Cortex-X925提升25%,在相同性能下则能节省28%功耗。
C1-Permium则定位为次旗舰产品,它的芯片面积比C1-Ultra小35%,但可带来35%优于C1-Pro的单核心性能,能为智能手机等产品带来更理想的性价比。
C1-Pro的特点在兼具电力效率与持续性能输出。与Cortex-A725相比,在相同时脉下性能最多可以提高16%并节省12%功耗。
C1-Pro在GeekBench 6.3测试中,性能较Cortex-A725提升11%,相同性能则节省26%功耗。
C1-Pro具有出色PPA(Performance、Power、Area,性能、功耗、面积)特性,在占用相同芯片面积的情况下,性能最高可较Cortex-A78提升19%。
新的C1-Nano“小核”则适合应用于各种价位带的产品。其电力效率较Cortex-A520提升26%,在增加2%芯片面积的前提下能够提高约5.5%的性能。改量的预测、预取管线能改善读取性能瓶颈负载10%以上性能表现。
以前后代平台的角度比较。4组C1-Pro加4组C1-Nano在相同时脉、缓存内存容量的前提下,运算密度比4组Cotrex-A725加4组Cotrex-A520高出1倍。也就是说占用芯片面积时可以提供2倍性能。
C1-DSU(DynamIQ Shared Unit,动态分享单元)较前代产品节省11%电力消耗,能够在单一SoC上以任意组态配置最多14个C1系列CPU核心,满足不同设备的使用需求。
举例来说,穿戴式设备可以使用2组C1-Nano组态,而旗舰级智能手机则可使用2组C1-Ultra加上6组C1-Pro。
C1系列CPU在性能与电力效率上皆有长足进步,在AI部分更是有最高5倍性能、3倍电力效率的提升。