工程师兼YouTuber Jeff Geerling利用Apple提供的四部M3 Ultra Mac Studio,通过macOS 26.2新功能RDMA over Thunderbolt 5打造AI集群。AI集群统内存总量达1.5TB,成本约40,000美元,Jeff证实只要通过低延迟方式连接多部Apple计算机,即可大幅提升大型AI模型性能。

Jeff这次从Apple借来了两部Mac Studio配备32核CPU、512GB统一内存同8TB存储,另两部则用256GB统一内存同4TB存储。每部内置电源供应,方便机架布线管理。Jeff Geerling用DeskPi TL1迷你机架容纳四机,机架侧面开放设计令背面电源掣易于操作。

M3 Ultra Mac Studio在Geekbench 6多核测试中胜过Dell Pro Max with GB10同Framework Desktop,倍精度FP64更达1TFLOPS以上,闲置功耗低于10W。

AI推论方面,单机跑Llama 3.2 3B达每秒154.6个token,大型Llama 3.1 70B维持每秒14.1个token,两个测试性能都远超对手。

在尝试运行DeepSeek R1 671B超巨大模型时,其他两个系统都未能正常运行,而Mac Studio集群由于搭载1.5TB统一内存,所以能够轻松应对。

RDMA over Thunderbolt架构在这个AI集群中取得明显优势。在激活RDMA后,内存访问延迟由TCP的300微秒降至50微秒以下,利用Thunderbolt连接,四机集群就像单一巨型内存。使用exo系统测试Qwen3 235B,四机达每秒31.9个token,比llama.cpp TCP快超过倍;DeepSeek V3.1更达每秒32.5个token。

虽然RDMA表现出色,但在高负荷时偶现系统崩溃,Jeff Geerling用Ansible工具快速重启集群。现在这项技术仍处发展阶段,期待日后Apple可进一步强化Thunderbolt 5支持。

系统稳定性仍然是exo系统面对的问题

而且比对三个平台的价格,这次由Mac Studio组成的AI运算集群平均每部需要9,499美元,相比起其他两个平台价钱高一截,也是值得留意的地方。

数据源:Jeff Geerling Blog