人工智能迫使数据中心重新思考设计

WBOY
WBOY 转载
2023-09-23 09:25:01 937浏览

人工智能迫使数据中心重新思考设计

随着人工智能在企业中的大规模应用,其后果之一是其消耗了数据中心更大比例的工作负载。

人工智能不仅将加速对数据中心的需求,为投资创造新的动力,而且还将对数据中心的可持续性战略和要部署的基础设施的性质产生影响。

例如,Tirias Research预测,按照目前的情况,到2028年,生成式人工智能数据中心服务器基础设施加上运营成本将超过7600万美元,是Amazon AWS目前估计年度运营成本的两倍多,占全球云服务市场的三分之一。

硬件计算性能预计将提高400%,与Tirias估计的处理工作负载增加50倍相比,显得相形见绌

更高的密度

根据Schneider Electric的一份新白皮书,大型训练集群和小型边缘推理服务器的爆炸式增长,也将意味着向更高机架功率密度的转变。

白皮书称:“人工智能初创企业、企业、主机托管提供商和互联网巨头现在必须考虑这些密度对数据中心物理基础设施的设计和管理的影响。”

施耐德能源管理研究中心对人工智能对能源需求的影响进行了预测。根据估计,目前人工智能代表着4.3GW的电力需求,预计到2028年将以26%至36%的复合年增长率增长

这将导致总需求达到13.5GW至20GW,是数据中心整体电力需求增长的两到三倍。到2028年,人工智能工作负载将占数据中心总能源的20%

Schneider指出,虽然预计会比训练集群消耗更多的电量,但推理工作负载可以在各种机架密度下运行。

“另一方面,人工智能训练工作负载一直以非常高的密度运行,每个机架的功率在20-100 kW或更高。”

网络需求和成本是促使这些培训机架聚集在一起的原因。这些高功率密度的集群给数据中心的电源、冷却、机架和软件管理设计带来了根本性的挑战

动力系统的挑战

Schneider概述了四个可能产生影响的关键领域:电源、冷却、机架和软件管理

在电力方面,人工智能工作负载对开关设备和配电系统的动力系统提出了挑战。

目前使用的一些电压将被证明部署起来不切实际,而较小的配电块尺寸可能会浪费IT空间。较高的机架温度也会增加发生故障和危险的机会。 重写后的内容:目前使用的某些电压可能被证明在部署时不切实际,而较小的配电块尺寸可能会浪费IT空间。同时,较高的机架温度还会增加故障和危险发生的可能性

随着数据中心过渡到液体冷却,冷却将是至关重要的,也是需要进行重大改变的领域之一,半个多世纪以来,液体冷却一直用于专业高性能计算。

Schneider表示:“尽管在不久的将来,空气冷却仍将存在,但预测,从空气冷却到液体冷却的转变将成为具有人工智能集群的数据中心的首选或必要解决方案。” 改写为:据Schneider所说,尽管在不久的将来仍会有空气冷却,但预测表明,将从空气冷却转变为液体冷却将成为具备人工智能集群的数据中心的首选或必要解决方案

与空气冷却相比,液体冷却具有许多优点。首先,液体冷却可以提高处理器的可靠性和性能。其次,液体冷却可以节省空间并增加机架密度。此外,液体冷却中的水具有更大的热惯性,并且可以减少用水量

对于人工智能集群,服务器需要更深入,电力需求更大,冷却也更复杂。

为了满足需求,机架必须具备更高的密度和承重能力

数字孪生

最终,DCIM、BMS和电气设计工具等软件工具将成为管理人工智能集群的关键

通过适当配置和实施软件,可以实现数据中心的数字孪生,以便识别功率限制和冷却资源的性能,并为优化布局决策提供相关信息

在日益动态的环境中,容错空间越小,操作风险就会越高。因此,Schneider建议创建整个IT空间的数字孪生,包括机架中的设备和虚拟机。

通过数字化添加或移动IT负载,可以验证是否有足够的电力、冷却和地板承重能力来支持。这为决策提供了信息,以避免资源搁浅,并最大限度地减少可能导致停机的人为错误

以上就是人工智能迫使数据中心重新思考设计的详细内容,更多请关注php中文网其它相关文章!

声明:本文转载于:51CTO.COM,如有侵犯,请联系admin@php.cn删除