资讯公告
  • 你的位置:
  • 首页
  • >
  • 资讯公告
  • >
  • 服务器
  • >
  • 施耐德警告:数据中心尚未为人工智能做好准备
施耐德警告:数据中心尚未为人工智能做好准备
发布时间:2023-10-09 发布者:域风网



施耐德电气(Schneider Electric)警告说,人工智能对电力和冷却的需求已经超出了标准数据中心设计所能处理的范围,因此有必要进行新的设计。

对于施耐德这样一家生产数据中心用电和冷却系统的公司来说,这也许是意料之中的事。但这并不意味着施耐德的观点不正确。人工智能是一种不同于标准服务器端应用(如数据库)的工作负载,老办法已经行不通了。

施耐德的白皮书指出,人工智能需要充足的三样东西:电源、冷却和带宽。GPU 是最流行的人工智能处理器,也是最耗电的处理器。英特尔和 AMD CPU 的功耗约为 300 到 400 瓦,而 Nvidia 最新的 GPU 每个处理器的功耗为 700 瓦,而且通常以一次 8 个的集群方式交付。

这导致了更高的机架密度。过去,机架密度约为 10 千瓦至 20 千瓦是标准配置,通过空气冷却(散热片和风扇)即可轻松解决。但如果每个机架的功率超过 30 千瓦,风冷就不再是可行的冷却方式。此时,必须考虑液冷,而液冷的改造并不容易。

"本文作者写道:"人工智能初创企业、企业、主机托管提供商和互联网巨头现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。

施耐德预计,今年全球数据中心的累计总耗电量将达到 54GW,到 2028 年将达到 90GW。届时,人工智能处理将从今年占全部用电量的 8%,上升到 2028 年的 15%至 20%。

虽然电力和冷却一直是数据中心建设者最关心的问题,但另一个经常被忽视的考虑因素是网络吞吐量和连接性。对于人工智能训练而言,每个 GPU 都需要有自己的网络端口,而且吞吐量要非常高。

然而,GPU 的发展速度已经大大超过了网络端口。例如,使用 GPU 以 900 Gbps 的速度从内存处理数据,而使用 100 Gbps 的计算结构会降低 GPU 的速度,因为它必须等待网络处理所有数据。另外,InfiniBand 比传统铜线快得多,但价格也高出 10 倍。

避免热密度的一种方法是物理分散硬件。不要装满机架,物理上将它们分开,等等。但这样做会带来延迟,因为有许多 TB 级的数据需要移动,而延迟是性能的大敌。

建议和解决方案


施耐德提出了一些建议。首先是用 240/415V 系统取代 120/280V 配电系统,以减少高密度机架内的电路数量。施耐德还建议使用多个配电装置(PDU)来提供充足的电力。

另一项建议是将每个机架的空气冷却阈值设定为 20 千瓦。超过 20 千瓦后,施耐德建议使用液体冷却。鉴于空气冷却的最大功率为 30kW,我认为施耐德对空气冷却的限制有些保守。或者是想推销液冷硬件。

液冷有多种形式,但施耐德主张直接液冷。铜板与 CPU 的连接方式与风冷系统相同,但铜板上有两根管道:冷水从一根管道进入,吸收热量后从另一根管道流出,在此循环并冷却。

施耐德似乎并不喜欢浸入式冷却,因为用于浸入的辩证液体含有碳氟化合物,可能会造成污染。

施耐德还警告说,液体冷却普遍缺乏标准化,因此由对设备有经验的专家进行全面的基础设施评估非常重要。前提是首先要对设施进行改造。大多数使用液体冷却技术的数据中心都是在建造时而不是之后才增加基础设施的。

文章相关标签: 施耐德电气 数据中心
购物车
业务咨询:
售后服务: