Arm的Lumex CSS是为旗舰级智能手机与个人计算机设计的运算符系统,其中包含支持SEM2指令集以大幅提升AI运算性能的C1系列处理器,以及带来2倍光线关注性能的Mali G1系列绘图处理器。
Arm推出全新Lumex CSS(Compute Subsystem,运算符系统)包含全新C1系列处理器(CPU)与Mali G1系列绘图处理器(GPU),为旗舰级智能手机及次世代个人计算机提供更进步的PPA特性(Performance、Power、Area,指性能更强、更省电、尺寸更小),带来更强悍的运算、绘图、AI等不同种类运算性能,让移动设备也享有台式机等级的游戏、即时翻译、智能助理等丰富用户体验。
Lumex CSS的一大特色就是具有完整的运算单元、IP配套,以及弹性搭配空间,协助芯片设计厂商缩短开发周期、加速产品上市进程,并可根据不同产品需求配置不同数量、规模的处理器核心与显示处理器,协助生态系伙伴能够更快速推出多样化具有AI功能的设备推向市场
Lumex CSS平台的另一重点是搭载SME2(Scalable Matrix Extension 2,第二代可扩展矩阵延伸指令集),大大幅提升处理器进行AI运算的性能。能让不具有NPU的设备也能通过CPU执行AI功能应用程序,并搭配KleidiAI函数库简化程序开发工作,同时照顾用户与开发者的需求。
Arm资深副总裁暨终端产品业务部总经理Chris Bergey在Arm Unlock上海场发布为旗舰级智能手机与个人计算机设计的全新Lumex CSS运算符系统。它具有支持SME2指令集的全新C1系列处理器。
Lumex CSS搭配的Mali G1系列绘图处理器具有更强的绘图与AI性能,并导入第2代光线关注运算单元,能够提供2倍于前代旗舰产品的光线关注性能。
C1系列处理器采用Armv9.3架构,支持能够强化矩阵运算能力的SME2指令集,大幅提高AI运算性能。
SME2能将语音识别的延迟降低4.7倍、提升LLM编码速度4.7倍、提高语音生成速度2.8倍。
Lumex CSS也支持KleidiAI函数库,协助开发者在应用程序快速导入SME2。
全新Lumex CSS平台包含采用Armv9.3架构的C1-Ultra、C1-Premium、C1-Pro、C1-Nano等4款C1系列CPU,以及Mali G1-Ultra、Mali G1-Premium、Mali G1-Pro等3款G1系列GPU。
C1-Ultra的单线程性能较前代产品相比提升幅度达25%,并且能够通过SME2指令集大幅提升矩阵运算能力,提供2-6TOPS的AI运算性能,足以执行简易计算机视觉、语音识别等AI功能。虽然其AI运算性能低于GPU或NPU(神经处理器),但因运算过程不需将数据由CPU转移至其他运算单元,因此有低延迟、节省传输带宽等优点。
在GPU部分,全新旗舰款Mali G1-Ultra搭载第2代光线关注运算单元(Ray Tracing Unit v2,RTUv2),光线关注性能相较其前代产品提升2倍,而在各类游戏以及性能测试中,整体绘图性能也较前代提升20%,至于AI运算部分,也有20%的性能提升,能在提供更佳游戏体验同时,提升整体AI性能。
Lumex CSS也包含最新的C1-DSU(DynamIQ Shared Unit,动态分享单元),能够自由搭配最高14个C1系列处理器核心,例如设计“2超大核+2大核+4小核”或是“2小核”等配置,满足上至旗舰级智能手机、下至穿戴式设备等差异化产品的设计需求。
另一方面,Lumex CSS也带来改进进的系统互联、内存管理单元,在提供更强大性能输出的同时,节省系统的电力消耗。更多详细内容笔者将在后续系列文章逐一解析。
Lumex CSS平台中最高端的C1-Ultra CPU单线程性能较前代Cotrex-X925提升25%,Mali G1-Ultra GPU的性能也较前代Immortalis-G925提升20%。
Armv9.3架构支持SME2指令集,能够强化矩阵运算能力,进而提升AI运算性能。
在KleidiAI函数库的协助下,开发者不需额外撰写程序就能在C1系列CPU激活SME2指令集功能,带来3-6倍AI运算性能提升,达到接近甚至超越GPU的性能表现。
Lumex CSS也带来C1-DSU动态分享单元、SI L1系统互联、MMU L1内存管理等新的平台功能。
Chris Bergey预估到了2030年,SME与SME2指令集将为超过10亿台设备提供总量达到100亿TOPS的AI运算性能。
Arm表示Lumex CSS为针对消费运算市场推出的最先进平台,更是打开新时代智能AI体验的基础。无论是OEM厂商还是开发者,Lumex均可提供所需工具,协助其在关键设备端的应用场景实现兼具个性化、隐私保障与高性能的AI体验。