远程 AI 代理可直接托管在 Nvidia BlueField-3 SuperNIC 上,使 Arista 的 EOS 能够配置、监控和调试服务器上的网络问题。
Arista Networks 正在开发一种基于软件的代理,以帮助高效地将大型人工智能集群中的网络和服务器系统连接在一起。
作为开发工作的一部分,Arista 与 Nvidia 合作使用其 BlueField-3 SuperNIC,该网卡专门针对大规模 AI 工作负载,并承诺使用聚合以太网 (RoCE) 上的远程直接内存访问 (RDMA) 提供 400Gbps 带宽,以最大限度地提高 GPU 服务器之间的吞吐量。
AI 代理基于可扩展操作系统 (EOS),EOS 是 Arista 的旗舰网络操作系统,用于运行和管理其所有交换机和路由器,它将网络功能和连接的 GPU 集成到一个可管理的软件包中。
据 Arista 首席执行官 Jayshree Ullal 在博客中介绍,EOS AI 代理可在 Arista 交换机上运行,并可扩展到直接连接的网卡和服务器,从而在整个 AI 数据中心实现单点控制和可视性。"Ullal 表示:"这种远程 AI 代理直接托管在 Nvidia BlueField-3 SuperNIC 上,或在服务器上运行并从 SuperNIC 收集遥测数据,允许网络交换机上的 EOS 配置、监控和调试服务器上的网络问题,确保端到端的网络配置和 QoS 一致性。
"部署在人工智能网卡/服务器上的远程代理将交换机转变为人工智能网络的中心,以配置、监控和调试人工智能主机和 GPU 上的问题,"Ullal 说。Ullal 表示:"这样就可以实现单一、统一的控制点和可视性。利用远程代理,包括端到端流量调整在内的配置一致性可以作为一个单一的同质实体来确保。
Ullal 表示,通过对主机和网络行为的跟踪和报告,可以隔离网络中运行的 EOS 与主机上的远程代理之间的通信故障。"Ullal 表示:"这意味着 EOS 可以直接报告网络拓扑,集中拓扑发现,并在所有 Arista Etherlink 平台和合作伙伴中利用熟悉的 Arista EOS 配置和管理结构。
Arista 的 Etherlink 技术将支持一系列产品,包括 800G 系统和线路卡,并与超以太网联盟的规范兼容。
Ullal 表示,除了帮助客户解决协调大型人工智能集群中 GPU、网卡、交换机、光学和电缆等复杂组件网络的难题外,人工智能数据集的爆炸式增长也推动了对此类技术包的需求:
"随着用于人工智能训练的大型语言模型(LLM)规模的扩大,数据并行化变得不可避免。训练这些大型模型所需的 GPU 数量跟不上庞大的参数数量和数据集规模。人工智能并行化,无论是数据、模型还是流水线,都只有与 GPU 互连的网络一样有效。GPU 必须交换和计算全局梯度,以调整模型的权重。要做到这一点,人工智能拼图的各个组成部分必须作为一个单一的人工智能中心协同工作: GPU、网卡、互联配件(如光学器件/电缆)、存储系统,以及最重要的位于它们中心的网络"。
Ullal 表示,整个系统共同提升以获得最佳性能,而不是像以前的网络孤岛那样孤立无援。"人工智能中心通过消除孤岛来实现协调的性能调整、故障排除和操作,中央网络在创建和支持链接系统方面发挥着关键作用,从而大放异彩。"