高性能计算(High Performance Computing,HPC)向来是解决复杂科学问题的重要方法,也带动各界长期投入相关技术研究。为鼓励学生对超级计算领域进行深入学习,欧洲ISC、美国SCC、亚洲ASC等三大超级计算机大赛,每年都吸引众多学生团队与会,彼此之间的竞争非常激烈。在2024 ISC欧洲超级计算机大赛中,清华大学周志远教授带领的学生团队,以技嘉服务器打造一套超级计算机系统,最终获得亚军肯定。
清华大学信息工程系教授周志远说,长期以来,我们一直希望让学生通过参加比赛方式,接触不同领域的高性能计算、AI等题目挑战,进而提升学习的广度,而非仅限于书本中学习,达到培育高速运算人才的目的。本次竞赛团队不仅由信息工程系的学生所组成,更有来自理学院、工学院及艺术学院跨领域专长的学生,能从更多样角度解析问题与解决,也成为我们获奖的关键。我们很感谢技嘉与技钢科技提供2024 ISC欧洲超级计算机大赛所需的超级计算机设备与经费赞助,让与会学生能在世界舞台上与其他国家团队较劲,展现台湾在高速运算领域的软硬件实力。
深入了解实际需求,助学生规划超级计算机架构周志远教授的研究领域涵盖分布式系统、云计算计算、系统资源管理、高效计算与存储系统,鉴于全球对高性能计算非常重视,在开设分布式系统设计、基础高性能计算集群计算机实务、高端高性能计算集群计算机实务等课程之外,也带领清华大学的大型分布式系统架构实验室,期盼从多样角度出发培育跨领域的HPC人才。
周志远指出,早期高性能计算着重在架构设计、资源调配,乃至于AI模型训练。近年由于AI发展快速、大语言模型参数量越来越大,早已超过一般研究单位的负荷能力,现阶段则着重在AI模型推论等部分。国际间的超级计算机竞赛方向与规范大致相同,2024 ISC欧洲超级计算机大赛重点在于限制比赛计算机的用电量,最高不能超过6000W,团队必须根据比赛题目找出CPU、GPU之间的最佳组合。
2024 ISC欧洲超级计算机大赛题目涵盖分子电场模拟、流体力学、气象模型等,在为期3天赛程中,竞赛团队需使用自己配置的超级计算机系统完成数个科学应用程序计算。技钢科技工程师团队与学生团队进行讨论之后,最终根据需求提供技嘉R183-S90机架式服务器,以及预先安装10张NVIDIA H100 Tensor Core GPU的技嘉G493-SB1服务器;与CPU与GPU性能最直接相关的内存与硬盘部分,技嘉采用MICRON的DDR5 RDIMM 4800GHz与7450 PRO系列NVMe固态硬盘;在跨截点沟通的上,选择了BROADCOM的P1200G作为指定高速网卡;网络交换机则采用Ufispace的S9300-32D 32x400G switch。
G493-SB1服务器的显著特色在于其可支持多达10张GPU卡,其中8张GPU卡可通过NVIDIA NVLINK™ 技术分成四组进行沟通,数据传输速度显著高于传统PCIe。相比其他比赛队伍仅依赖PCIe界面,这项技术优势对提升竞赛表现产生正面作用。此外,技钢科技提供的全面技术支持,尤其是在赛前准备阶段,充分满足了队伍的需求,成为此次比赛中取得优异成绩的关键因素之一。
在本次比赛担任学生教练的牟展佑认为,当GPU运算能力集中在在单一节点时,可减少数据交换的时间,缩短应用程序的计算时间,在HPL Benchmark项目的成绩很不错技嘉服务器解决方案非常多样,针对比赛题目能预先应对比赛中各种突发事件与挑战做好准备。
本次比赛的流体力学模拟题中,团队借助NVIDIA NVLINK™ 技术和10张NVIDIA H100 Tensor Core GPU,运算速度显著提升。正式比赛的最终结果与先前模拟一致,对提升比赛成绩有显著帮助。

周志远教授带领清华大学的大型分布式系统架构实验室培育跨领域的HPC人才。(Source:科技新报)
技嘉服务器内置管理工具,助学生即时掌握设备运行状况应对2024 ISC欧洲超级计算机大赛的题目范畴,清大分别使用3台技嘉R183-S90机架式服务器,以及预先安装10张NVIDIA H100 Tensor Core GPU的技嘉G493-SB1服务器。其中,技嘉G493-SB1是款专为AI、深度学习及高性能计算设计的高性能GPU协同运算服务器,支持两颗第五代Intel®Xeon®可扩展处理器,最多可安装10张双插槽GPU卡,能提供绝佳的AI运算能力。具备32道内存插槽,每信道两个内存插槽,也就是所谓的2DPC,并可容纳12个2.5英寸/3.5英寸的Gen5 NVMe/SATA/SAS-4硬盘。这款产品采用先进的散热和电源解决方案,可确保服务器运算过程中的稳定性,能够满足数据分析、科学模拟等复杂运算需求。
至于技嘉R183-S90服务器则专为数据中心及企业应用设计,支持第五代Intel®Xeon®可扩展处理器,同样内置多达32个2DPC的内存插槽,在内存容量和速度表现十分抢眼,适用于各种运算工作,如数据分析、云计算及虚拟化等应用。前述两款服务器均内置功能完善的管理工具,让管理人员可即时监控服务器的运行状态。
技嘉服务器管理工具支持标准IPMI通信界面,清大团队自行撰写工具与其串联后,即能掌握CPU、GPU的温度与运行状况。由于2024 ISC欧洲超级计算机大赛规定整体耗电量不能超过6000W,团队更进一步控制散热风扇转速,进而达到CPU、GPU芯片温度与电力耗费的平衡,同时成为团队能取得好成绩的重要关键之一。
HPC过程无法进行硬件调整,应对突发状况成为一大挑战。比赛最后一天,某应用程序无法执行,团队迅速分析发现外购件故障导致CPU性能受限,通过修改运算流程,成功解决问题。此外,团队在测试软件版本时,意外发现Intel版本的性能超越了原先预期的GCC版本,进一步提升了运算速度。这些宝贵经验不仅强化了团队的应变能力,也为未来教学提供了实际范例。
最后,能与世界首屈一举的对手交流也是竞赛中的一大收获。通过与其他队伍的互动与知识交换,参赛者能突破自身思维限制,优化系统参数,进一步提升HPC领域的技术与能力。

周志远教授带领学生团队使用技嘉服务器参与2024 ISC欧洲超级计算机大赛。(Source:科技新报)
助清华大学打造HPC实验室,对全球展现台湾技术能量在2024 ISC欧洲超级计算机大赛中全力支持清华大学学生团队的技嘉与技钢科技,让全球看到台湾在高性能计算的软硬件实力,预计将与周志远老师携手合作,创建高性能计算实验室。技嘉与技钢科技将进一步提供与真实比赛环境相仿的各种设备,如服务器、交换机等等,满足团队的平时练习需求,以便能在比赛时能获得更好的成绩。
周志远指出,技嘉服务器因其卓越品质,已成为全球各地实验室的首选,并在国际竞赛中展示了台湾的技术实力。周志远更强调,这不仅能让更多学子参与高性能计算的研究,也将培育出具备跨产业应用能力的人才。清华大学硕士生郭品毅指出,长期参与高性能计算的研究让他对GPU资源共享和跨品牌集成产生浓厚兴趣,并期望未来的研究能在此领域取得更佳成果,为技术发展带来新突破。
(首图来源:科技新报;首图图说:清华周志远教授(左四)与学生团队(左至右分别为郭品毅、林展毅、魏士勋、翁君牧、牟展佑、俞昊天与白宸安)夺得2024 ISC欧洲超级计算机大赛亚军)