除了对机架架构的贡献外,Nvidia 还扩大了对 OCP 标准的 Spectrum-X 网络支持。
在企业 IT 供应商竞争激烈的世界中,一些公司免费分享自己的设计可能会让人感到惊讶,但这正是开放计算项目(OCP)基金会的 50 多个投票成员和 300 多个社区成员及初创公司(包括主要的超大规模厂商和芯片制造商)正在做的事情。
在今天举行的2024 OCP全球峰会上,Nvidia宣布向该项目提供其Blackwell GB200 NVL72机电设计,包括机架架构、计算和交换托盘机械、液体冷却和热环境规范以及Nvidia NVLink电缆盒体积。
NVL72是一种液冷机架式设计,它连接了36个Nvidia Grace CPU和72个Blackwell GPU,通过NVSwitch和NVLink实现GPU之间的互联,使它们能够作为单个大规模GPU运行,并提供更快的大型语言模型(LLM)推理。
“Nvidia公司人工智能和数据中心GPU产品营销总监Shar Narasimhan解释说:"能够使用NVSwitch的关键因素之一是,我们必须让所有服务器和计算GPU靠得很近,这样才能将它们安装在一个机架上。“这让我们能够使用铜缆来连接 NVLink,而这反过来又让我们不仅降低了成本,还让我们能够使用比光纤少得多的电力。”
然而,要做到这一点,机架必须进行大量加固,以承受额外的重量,而且机架上垂直向下延伸的 NVLink 线缆必须容纳多达 5000 根铜缆。Nvidia 还为管道和电缆设计了快速断开和快速释放装置。电源容量升级到 120 千瓦和 1,400 安培,Narasimhan 说这是目前机架设计的两倍多。
Nvidia还宣布,其Spectrum-X以太网网络平台和新的ConnectX-8 SuperNIC将支持OCP的交换机抽象接口(SAI)和云开放网络软件(SONiC)标准。用于 OCP 3.0 的 ConnectX-8 SuperNIC 将于明年上市。
最后,Nvidia 重点介绍了以其贡献为基础并反过来为 OCP 做出贡献的合作伙伴,包括 Meta 的 Catalina AI 机架。
“Narasimhan说:"当一个参与者采用另一个参与者的开放式设计,进行修改,然后将其提交给整个生态系统时,我们都能从中受益并茁壮成长。
Narasimhan补充说,Vertiv将发布基于GB200 NVL72的高能效参考架构,用于大规模人工智能工厂。
“Narasimhan指出:"Vertiv通过提供这一参考架构,为人工智能工厂提供模块化设计,帮助所有其他参与者消除了设计风险。“他们现在已经将设计和建造的准备时间缩短了 50%。除此之外,他们还投入时间和精力优化布局,以提高冷却利用率,最大限度地减少用电量,最大限度地利用空间。通过采用这种特殊的设计,Vertiv 使冷却效率提高了 20%,空间使用率降低了 40%。