
英特尔IT近期发布白皮书,披露自家数据中心转型策略及成果,英特尔整合全球数据中心数量,从152个减少至53个数据中心,并通过5个策略优化数据中心运营,并达到节能、控制成本的目的,从2010年至2024年共计节省约114.1亿美元。
英特尔IT产业合作总监暨区域发言人邱天意表示,回顾英特尔全球数据中心发展策略,2000年以前,可以说是“有需要就建的数据中心战国时代”,一方面是数据中心大举扩张,另方面则是大型主机式微,从2006年开始,英特尔创建数据中心团队,对于数据中心管理开始有中心发展战略,追求标准化设计、成本控制,并启动全球数据中心的整合行动。
从2006年到2010年,英特尔不断调整优化数据中心的运营效率,如同其他企业一样,推动虚拟化提高资源的利用率,构建企业私有云,同时也汰旧换服务器等设备,以导入更具能源效率的机器,随着数据不断增加的存储系统也不断优化调整,追求IT可持续发展。2010年到2023年之间随着业务聚焦重点转移,不断调整优化数据中心的资源使用及能源效率。
“从2010年到2024年,英特尔IT总共节省约114亿美元的成本”,邱天意说。
英特尔如何做到这件事?
英特尔现在在全球15个地点、53座数据中心,总电量为133MW,包含46.4万台服务器,高达1043PB的存储系统,接近90万个网络端口,其数据中心PUE值最低达到1.06。
在数据中心管理上,他们在2006年先将全球数据中心划分为“DOME”四种不同领域,这四种领域的数据中心各有不同的工作负载需求。(下图演示文稿来源:Intel)

其中“D”代表Design/HPC,为英特尔芯片设计、量产前的工作负载,这部分的运算工作负载占英特尔96%的服务器;而“OE”则代表一般办公室或企业运营的Office&Enterprise,这类运算负载为典型的IT运算,要求较高的SLA,但仅占3%服务器;“M”代表Manufacturing Fab/ATM,主要为支持工厂自动化的工作负载,大多位于工厂附近或周边,仅占1%服务器。
3战略目标优化数据中心、降低服务的单位成本
英特尔IT分享数据中心的3个核心战略目标,第一个战略是采用最佳可实践模型。
邱天意表示,最佳可实践模型指在没有预算、人员限制下,所能够构建的最佳数据中心,以最佳数据中心为目标,比较和现有数据中心间的落差,目标为缩短两者间的差距。这么做的好处是让英特尔IT能掌握改进方向,评估各种ROI来运用革新性方法逐步改善。
第二个战略是拟定KPI目标。英特尔IT订立3个KPI目标,首先是订立适当够用的SLA服务品质,而非追求最高的SLA,其次是降低每个服务的单位成本,每年目标是减少10%,最后是所有的资源使用率要提升到80%以上。这3个KPI目标彼此相互影响,需找出兼顾3个KPI的平衡点。
第三个战略是订出优化的范围,从TCO角度来看数据中心,除了运算、存储、网络,还有人员薪资、数据中心设施、操作系统授权及管理,共6个构面来看数据中心的TCO成本,由IT与财务部门共同拟定服务单位成本(Cost per Service Unit)的计算方式,并进行调整改善。
英特尔结合6个构面的数据中心TCO成本,再除以特定的DOME领域的服务单位数量,来计算出服务单位成本,例如在“Design”芯片设计领域计算每个EDA-MIPS的单位成本,而在“Office & Enterprise”以OS授权数量计算成本。
“利用服务单位成本才能衡量每年是否达到每年降低10%成本的目标”,邱天意说。结合DOME及服务单位成本的概念,查看每个领域类型的数据中心的成本结构组合,以2024年的芯片设计领域数据中心为例,成本占比较大的是“设施”(36.8%)、“服务器群”(35.5%),可以从成本占比较大的方面着手,结合每年成本的变化,查看如何进一步改进。
5策略提升资源使用率、运行效率
英特尔IT也分享5个节省成本、提高效率的策略,包括服务器设计、采用分层式存储、提高网络效率、提升设施效率、改善运行效率。
在服务器方面,英特尔IT研发一种解构式服务器(Disaggregated Server)专利,他们在数据中心内采用刀片式服务器,提来密度,并将服务器内的CPU及DRAM独立出来,汰换服务器时只要更换CPU及DRAM,保留网卡、硬盘等其他组件,和传统汰换整台服务器的做法相比,可节省约44%成本。

“英特尔可能2年更新CPU,只更换CPU及DRAM,更换CPU就能达到最新的效果”,他说。由于只更换CPU及DRAM,保留其他仍能继续使用的服务器组件,除了节省约44%成本,也能缩减77%的汰换时间,以及相关的运输费用、电子废弃物处理成本。
英特尔从2016年左右开始导入解构式服务器设计于自家数据中心,目前在全球超过46.4万台服务器中,已有约39.5万台采用解构式设计。
在存储系统方面,采用分层式存储(Tiered Stoage),依照性能、容量、成本划分为4层式的分层式存储架构,兼顾SLA、资源的利用率,并根据内部需要评估后,相较于纵向(Scale-up)存储,英特尔IT认为横向(Scale-out)存储易于扩展容量资源,更适合英特尔,并通过加速存储系统的汰换,采用更具能源效率的设备,并通过重复数据删除、压缩等技术。
邱天意表示,运用重复数据删除、压缩等技术,曾经在一年成功缩减约220PB的数据量,通过上述种种方法优化资源使用率,我们将存储数据的使用率从46%提高到80%,未来的目标是提高至85%。
在网络方面,英特尔约从2010年开始导入GbE级的网络设备,现在GbE级使用比重,在过去15年比重提高到66%,未来目标为提高至80%。
另外,2016年英特尔测试导入40GbE,但是当时100GbE逐渐兴起,观察到逐渐成为主流,随后于2019年导入100GbE,到2024年100GbE网络端口已达到将近9.5万个,其中86%采用SDN,通过SDN来实现自动化部署网络。
在提升数据中心的设施效率上,英特尔在2003年全球拥有最多152个数据中心,到2025年已减少为52个数据中心,数据中心总空间面积也减少18%,尽管数据中心数量整合,但整体数据中心电量增加到133MW,数据中心数量减少,但是电量提升,意味着更密集、高效率的能源使用。
英特尔也设法降低数据中心PUE值,最低可达到PUE 1.06。邱天意指出,英特尔将总部附近一座老旧工厂改建为大型数据中心,该数据中心部署几十万台服务器,为了解决散热问题,内部采用闭循环蒸发冷却技术,由再生水、外部的冷却塔,经过热交换,将热水冷却后,再送到机房内的热信道,协助服务器散热。
邱天意表示,尽管采用传统的气冷方式,但是英特尔做了很多实验,测试提高机房内的作业温度,因此即使是机房内的冷信道,工作人员需要穿短袖,不像传统机房温度如同冷气房,人员需要穿着保暖的衣物才能作业。经过测试,提高机房内的作业温度的服务器故障率,并没有和调低温度机房的故障率相差太多。
英特尔数据中心内采用高密度的刀片式服务器,一个机柜能容纳约200台服务器,高密度、高效率服务器群;根据英特尔的统计,2012年到2024年,相较传统的数据中心,估计省下约19亿千瓦小时的电力。
在改善运营效率方面,英特尔在芯片制造最后过程Tapeout,这个阶段相当重要,且需要大量算力资源进行模拟,英特尔内部研发HPC方案支持Tapeout的运算需求,发展至今已进入第7代HPC,制程从早期45纳米发展至采用Intel 20A或18A制程。
邱天意指出,英特尔发展的历代HPC采用新技术,以提升运算能力,来支持Tapeout的运算需求,从2005年到2024年,计算处理量增加了631倍,Tapeout过程中因运算产生的影响也减少322倍,到2024年几乎没有受到运算的影响,Tapeout顺利进行代表能更快的投入芯片生产。
英特尔IT团队也从2010年问自己一个问题,除了不断改进自家数据中心资源使用率,优化数据中心运行效率,自行运维管理数据中心和云计算服务相比差别在哪?
他们从2010年开始比较相同算力资源条件下,自行运维管理数据中心的单位成本,和改用云计算服务的单位成本相差多少,根据英特尔IT的统计,英特尔自行运维管理数据中心的单位成本,如果将2010年定为基数(100%),2024年单位成本已降到4%,云计算服务在此期间单位成本也不断降低,从2010年的186%降到2024年的19%,明显云计算运维管理的单位成本降低许多,但英特尔自己运维管理数据中心单位成本降到4%,两者成本相差5倍。

尽管这几年下来,外部云计算服务越来越成熟,其使用单位成本显著下降,吸引越来越多企业选择上云,但邱天意表示,对于从事芯片设计的英特尔而言,从单位成本的比较来看,自行运维管理数据中心的单位成本仍低于云计算服务,自行运维仍有比较高的性价比,身为芯片设计企业也希望能内部管理资源,未来英特尔IT会持续优化调整,保持成本的竞争力。
优化数据中心资源,服务全球芯片设计团队
在芯片技术不断改进,市场竞争激烈下,邱天意也分享英特尔IT自行运维管理数据中心,如何支持全球芯片设计团队改进服务体验,他以过去汰换服务器为例,以往需要十几天才能完成部署,现在则只要1天就能完成部署,一方面归功于英特尔标准化服务器机架设计,在服务器送交之前,网络及供电、合作厂商都事先准备好,将部署自动化完成,对于一年有好几万台服务器部署上线的英特尔来说,愈快完成部署,就能让全球的芯片设计团队尽早使用。
此外,芯片设计师可能要通过WAN远程访问数据中心资源,可能影响用户体验,英特尔IT也针对远程WAN访问服务进行优化,例如通过改善TCP等措施,来提升4倍的数据传输率,改善远程访问数据中心资源的使用体验。











