施耐德电气(Schneider Electric)警告说,人工智能对电力和冷却的需求已经超出了标准数据中心设计所能处理的范围,因此有必要进行新的设计。
对于施耐德这样一家生产数据中心用电和冷却系统的公司来说,这也许是意料之中的事。但这并不意味着施耐德的观点不正确。人工智能是一种不同于标准服务器端应用(如数据库)的工作负载,老办法已经行不通了。
施耐德的白皮书指出,人工智能需要充足的三样东西:电源、冷却和带宽。GPU 是最流行的人工智能处理器,也是最耗电的处理器。英特尔和 AMD CPU 的功耗约为 300 到 400 瓦,而 Nvidia 最新的 GPU 每个处理器的功耗为 700 瓦,而且通常以一次 8 个的集群方式交付。
这导致了更高的机架密度。过去,机架密度约为 10 千瓦至 20 千瓦是标准配置,通过空气冷却(散热片和风扇)即可轻松解决。但如果每个机架的功率超过 30 千瓦,风冷就不再是可行的冷却方式。此时,必须考虑液冷,而液冷的改造并不容易。
"本文作者写道:"人工智能初创企业、企业、主机托管提供商和互联网巨头现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。
施耐德预计,今年全球数据中心的累计总耗电量将达到 54GW,到 2028 年将达到 90GW。届时,人工智能处理将从今年占全部用电量的 8%,上升到 2028 年的 15%至 20%。
虽然电力和冷却一直是数据中心建设者最关心的问题,但另一个经常被忽视的考虑因素是网络吞吐量和连接性。对于人工智能训练而言,每个 GPU 都需要有自己的网络端口,而且吞吐量要非常高。
然而,GPU 的发展速度已经大大超过了网络端口。例如,使用 GPU 以 900 Gbps 的速度从内存处理数据,而使用 100 Gbps 的计算结构会降低 GPU 的速度,因为它必须等待网络处理所有数据。另外,InfiniBand 比传统铜线快得多,但价格也高出 10 倍。
避免热密度的一种方法是物理分散硬件。不要装满机架,物理上将它们分开,等等。但这样做会带来延迟,因为有许多 TB 级的数据需要移动,而延迟是性能的大敌。
上一条: 第二届欧盟.eu域名日活动在比利时举行