针对人工智能工作负载的基础架构增强包括计算硬件更新、新的 Nvidia GPU 产品和存储优化。
谷歌在其年度Cloud Next大会上展示了其云基础设施的一系列更新,以更好地支持人工智能工作负载,帮助企业优化云支出。
更新包括更快的处理器、更大的虚拟机、更多的存储空间和新的管理工具。
首先: 谷歌已在其云中普遍提供了用于人工智能工作负载的专有加速器模块--张量处理单元(TPU)v5p的最新迭代版本。
该公司表示,单个 TPU v5p pod 包含 8960 个可协同运行的芯片,是 TPU v4 pod 的两倍多,并补充说,它还提供了两倍多的翻转次数和三倍多的每芯片高带宽内存。
TPU pods现在支持谷歌Kubernetes引擎(GKE)和GKE上的多主机服务:"GKE上的TPU多主机服务允许客户将部署在多个主机上的一组模型服务器作为一个逻辑单元进行管理,使用户能够集中管理和监控它们。
TPU 并不是唯一新增的硬件。根据与英伟达(Nvidia)扩大的合作关系,谷歌还将在其云中引入由英伟达H100 GPU驱动的A3 Mega虚拟机(VM)。
2023 年 5 月,谷歌首次在其云中推出了 A3 系列超级计算机虚拟机,旨在快速训练大型人工智能模型。
该公司表示,新的A3 Mega虚拟机将于下月全面上市,它提供的GPU到GPU网络带宽是原来A3的两倍,并补充说,它正计划在今年晚些时候的预览版中为A3虚拟机系列添加保密计算功能。该功能旨在保护人工智能工作负载中使用的数据的隐私性和完整性。
为了提高人工智能训练、微调和推理的性能,谷歌云对其存储产品进行了增强,包括缓存,使数据更接近计算实例,加快训练周期。
该公司表示,这些增强功能旨在最大限度地提高GPU和TPU的利用率,从而实现更高的能效和成本优化。
其中一项增强功能是在 Parallelstore(一种提供高性能的托管并行文件服务)中加入缓存功能。该公司表示,虽然这一增强功能仍处于预览阶段,但与原生 ML 框架数据加载器相比,其训练时间最多可提高 3.9 倍,训练吞吐量最多可提高 3.7 倍。
另一项改进是推出了 Hyperdisk ML 预览版,这是一种针对人工智能推理工作负载进行了优化的块存储服务。
"该公司表示:"与普通替代方案相比,它可将模型加载时间加快 12 倍,并通过只读、多连接和精简配置提高成本效率。
它可以让多达2500个实例访问同一个卷,每个卷的总吞吐量高达1.2 TiB/s,据谷歌公司称,这比微软Azure Ultra SSD或亚马逊EBS io2 BlockExpress的性能高出100多倍。
其他存储变化包括:Cloud Storage FUSE(谷歌云存储(GCS)基于文件的接口)和Filestore(针对需要低延迟、基于文件的数据访问的AI和ML模型进行了优化)的全面可用性。
"该公司表示:"Filestore 基于网络文件系统的方法允许集群内的所有 GPU 和 TPU 同时访问相同的数据,从而将训练时间最多缩短 56%。
为了帮助企业优化成本,谷歌云还为人工智能工作负载增加了一项资源管理和作业调度服务,名为 "动态工作负载调度器"(Dynamic Workload Scheduler)。
该公司表示,这将改善对人工智能计算能力的访问,并通过同时调度所需的所有加速器和保证持续时间,帮助企业优化人工智能工作负载的支出。
动态工作负载调度器提供两种模式--灵活启动模式,可通过优化经济性提高可获取性;日历模式,可预测作业开始时间和持续时间。
弹性启动模式用于根据资源可用性对需要尽快运行的人工智能任务进行排队,日历模式则提供对人工智能优化计算能力的短期预留访问。