
Google即将推出的Ironwood TPU v7,已经成为业界首款足以挑战英伟达(NVIDIA)Blackwell GPU的专用定制化芯片(ASIC)。这项重大事件吸引了业界对Google TPU设计流程及其合作伙伴的密切关注,特别是与国内IC设计大厂联发科的合作。其中,联发科也正将其在此次合作中获得的经验,转化为其手机移动处理器的实质效率提升,预计将从即将推出的天玑(Dimensity) 9600移动处理器开始,使得市场也特别期待。
挑战英伟达的Ironwood TPU v7的卓越性能与架构业界对Google Ironwood TPU v7的热烈关注,源自于其在AI工作执行上的高性能和低成本优势。Google的这款新TPU在推论(inferencing)任务方面极具竞争力,特别是在产业正从大型基础AI训练模型转向推论任务的重要性日益增加之际。事实上,TPU v7 Ironwood在提供与英伟达最新GPU几乎不相上下的性能的同时,但却还拥有更低的总体拥有成本(TCO)。

TPU v7 Ironwood采用先进的双芯片(dual-chiplet)设计。每个芯片包含以下关键组成部分,这些设计均针对AI运算进行了优化:
1.TensorCore:采用脉动数组(systolic array)架构,用于高效的矩阵乘法运算。矩阵乘法构成了AI工作执行的基础,包括神经网络的训练与推论。该设计通过大幅减少对高带宽内存(HBM)的内存读写次数,来实现高效率。
2.矢量处理单元(VPU):处理AI模型所需的通用、元素级操作,例如启动函数(如ReLU)和常规化(normalizations)。
3.矩阵乘法单元(MXU):专门处理矩阵乘法运算。
4.两个SparseCores:用于高效处理需要不规则、数据依赖性内存访问的用例。这包括处理被称为嵌入的超大数学结构,嵌入是将大型分类特征值(如词汇表)转化为较小、密集矢量表示的关键AI步骤。
在内存与互联方面,TPU搭配96 GB的高带宽内存(HBM)。双芯片间通过芯片到芯片(D2D)互联技术连接,其速度比线型芯片间互联(ICI)链路快6倍。基本的芯片配置被称为立方体(cube),这些芯片通过ICI连接,为每个芯片提供1.2 TB/s的双向ICI带宽。多个立方体进一步通过光学电路开关(OCS)网络连接,组成一个巨大的超级Pod,该超级Pod由9,216个芯片和144个立方体组成。
联发科的角色:I/O模块设计与40亿美元潜在收益联发科在设计Google TPU v7 Ironwood中扮演了至关重要的角色。根据2025年3月流出的报告,Google委托联发科设计Ironwood的输入/输出(I/O)模块,以便于处理器与周边设备之间的通信。值得注意的是,这一合作模式代表着Google近年策略的转变。在过去几年,Google设计下一代TPU的整体架构通常是与博通(Broadcom)紧密合作完成的。联发科这次参与设计I/O模块,显示其技术实力受到了Google的认可。
而根据外资瑞银(UBS)最近的报告预估显示,联发科有望通过这次与Google在下一代TPU上的合作,获得高达40亿美元的收益。
联发科经验传承为Dimensity 9600性能醍醐灌顶尽管ASIC(例如Ironwood TPU)与Dimensity 9600这样的移动应用处理器(AP)在设计目标上本质有所不同,联发科仍能将其在TPU v7 Ironwood计划中学到的经验,转化为其移动芯片的数项精进的技术,从而显著提升Dimensity 9600的效率。

这些改进主要集中在电源管理和功耗控制策略上,包括更高效的功率闸控(Power Gating)策略。联发科将能制定更高效的功率闸控策略,让AP在不使用特定I/O区块时,能更积极地将其关闭。另外,改进电压调节(Voltage Scaling)。通过改进电压调节,允许AP消耗最有效率的电压量,进而优化芯片的功耗指标。最后是时脉闸控(Clock-Gating)调整。联发科通过调整现有的时脉闸控策略,以改善下一代芯片的电池续航力,并争取更积极的功耗预算。
这些效率上的微调对于联发科的行动AP产品至关重要,特别是因为联发科已在其行动AP架构中取消了效率核心(efficiency cores)。此外,联发科据报也在开发自己的AI芯片,届时其在TPU方面的经验将具有更高的直接相关性。
(首图来源:科技新报摄)











