随着生成式AI与大语言模型热潮来袭,数据中心对高性能计算(HPC)的需求激增,推升AI服务器朝向高密度、高功耗的架构发展,对散热的需求也远超过现有气冷的极限。然而,下一个阶段的液冷散热,将面临哪些技术瓶颈?
由于NVIDIA GB200使得热设计功耗(TDP)拉升到2,700瓦特,已超过气冷解热极限750瓦特,若要突破解热极限,光用风扇气体降温已经不够,需要用液体来降温。
研调机构TrendForce调查指出,随着NVIDIA Blackwell新平台开始出货以及全球ESG意识提升,加上CSP加速部署AI服务器,将带动散热方案从气冷转向液冷形式。同时,美系外资大摩也预估,NVIDIA在数据中心的GPU散热系统需求到2027年时,将创造价值48亿美元商机,谁可以让AI服务器有效率降温,将成为AI供应链比拼重点。
目前散热模块分为“气冷散热”和“液冷散热”两种,其中气冷散热就是用空气作为媒介,通过热界面材料、均热片(VC)或热导管等中间材料,由散热片或风扇与空气对流进行散热,然而风扇带来的震动跟噪音,也会对数据中心带来负面影响。
至于“液冷散热”(Liquid cooling)技术,常分为“直接液冷”(Direct Liquid Cooling,简称DLC),主要有“直接芯片液冷”(Direct-to-Chip Cooling,即D2C)以及下一代的“浸没式液冷”(immersion cooling)等方式。
“直接芯片液冷”是将冷却液直接发送到服务器内部热源,通过冷板直接安装到处理器上(冷却液在其中流动),再将热量从设备中传导出去,以达到高效冷却的效果。当热能传导到冷却液后,冷却液会沿着管线流出服务器,通过冷却液分配单元 (CDU)进行冷却,最终流回服务器内再循环。
若热交换机安装在服务器机柜内,把热能排放到空气中,称为“液对气”(Liquid to Air)方案,可部署于传统气冷机房,也是现有数据中心在气冷散热的物理极限下,所应对的对策;若是将冷却液发送到服务器机房的液体冷却管线,通过设施的冷却管路与散热机制统一排热,则是“液对液”(Liquid to Liquid)方案,散热性能更佳,但需要专为液冷服务器所设计的特殊机房。
其中,最受瞩目的浸没式液冷(Immersion cooling)散热技术,又可分为“单相浸没式液冷”与“两相浸没式液冷”。业界人士透露,单相和双相的差异在于是否出现“相变”(Phase transition),即液态变气态、或气态变固态等,而在液冷解决方案,主要都是液态变气态的循环。
浸没式冷却是通过将服务器直接浸泡在不导电的液体中,将零部件产生的热能传导给流体,不需要散热鳍片、导热铜管或风扇等冷却零件,温度上升的液体会通过循环冷却方式,再回流继续吸收热能,有助于提升数据中心的能源效率。
单相浸没式液冷散热通过热交换机进行冷热水交换,没有涉及相变化。(Source:弓海企业)
“单相浸没式液冷”(Single-Phase)是将服务器及其他IT设备浸没至导热的介电液体槽中,流体不会改变其形态,始终保持为液态。通过冷却液分配设备(Coolant Distribution Unit,简称CDU)推动液体槽内的流体循环,进一步将导热液抽送到水箱外的热交换机,将热量传递到第二级冷却回路,例如建筑物冷水循环系统、或外部的空气。
两相浸没式液冷散热通过蒸发、凝结等相变化进行冷却。(Source:弓海企业)
“两相浸没式液冷”(Two-Phase)则是将服务器浸没至不导电的冷却液中,通过冷却液与发热零件直接接触,带走设备的热能;同时由于液体低温蒸发的过程,将热从液体池内转移到池外空间,再通过冷凝管等热交换设备,使蒸汽再次冷却凝结流回水槽中。
业界人士透露,虽然浸没式液冷的散热效率更好,但是面临一些问题待克服,如浸泡的液体大多是不可燃、不导电的油,过去主要是3M供货,但因这种油内置氟化合物,可能对环境造成污染,并对生态系统造成损害,目前3M已停产,还有部分中国厂会供货,其他厂商仍在思考解决方案。
“两相浸没式液冷”直接以L10进行浸泡(黄框处),采用此解决方案需重新设计机架和机柜。(Source:弓海企业)
一般来说,服务器的代工制造分成不同阶段,根据上图标意图可知,浸没式液冷所浸泡的服务器(黄框处)并非过去熟知的L11阶段(即多台服务器集成与机架),而是将该系统在L10阶段时就直接浸泡,因此其L11阶段直接是浸没式版本。
服务器代工制程阶段。(Source:Medium)
业界人士指出,另一大问题是机架集成问题,当数据中心要采用浸没式散热解决方案时,必须重新设计机架和机柜,无法无痛更换机柜,势必将付出时间与成本。因此,客户采用仍需要时间,也造成推广上的阻力。
除了冷却液的问题,浸没式散热的机柜体积很大,重量超过一吨以上,机房还要够大足以容纳浸没槽,并且楼地板承重量还要达标才行,后续还有电子零部件能否长时间浸泡在冷却液、后续维修与成本等,也都是未来值得留意的状况。
虽然目前中国阿里巴巴和中东地区的数据中心已尝试采用浸没式散热,大都还是小规模的试验为主,预期目前仍以液对气(L2A)方式为主。
以冷却效率来说,浸没式冷却仍比气冷要好。(Source:技嘉)
根据MarketsandMarkets市场研究报告,全球散热解决方案的市场规模预计到2028年将达到193亿美元,年复合增长率(CAGR)约9.7%。其中,液冷散热市场产值将达124亿美元、CAGR高达25.8%。
TrendForce也预期,随着GB200机柜方案于2025年正式放量出货,有望带动整体AI芯片的液冷散热渗透率,从2024年的11%提升至2025年的24%。此外,随着全球政府及监管机构对于ESG意识逐渐提升下,将加速带动散热方案由气冷转液冷形式发展,预期液冷方案渗透率逐年攀升,促使电源供应厂商、散热企业及系统集成厂等竞相投入AI液冷市场,形成新的产业竞合态势。
(首图来源:科技新报)