谷歌的一份新白皮书详细介绍了该公司在其机器学习训练超级计算机中使用的光路开关,称安装了这些开关的TPU v4模型比一般使用的处理器具有更好的性能和更高的能源效率。
谷歌的张量处理单元--该公司人工智能超级计算系统的基本构件--本质上是ASIC,意味着它们的功能是在硬件层面上内置的,而不是许多人工智能训练系统中使用的通用CPU和GPU。白皮书详细介绍了通过光路交换将4000多个TPU互连起来,谷歌已经能够实现比以前的模型快10倍的速度,而消耗的能量却不到一半。
旨在实现人工智能性能和价格的突破
根据白皮书,关键在于光路切换(这里由谷歌自己设计的开关执行)的方式,使系统的互连拓扑结构发生动态变化。与其他HPC领域普遍使用的Infiniband这样的系统相比,谷歌说它的系统更便宜、更快,而且能效高得多。
"TPU v4的两个主要架构特征成本小,但优势大,"该文件说。"SparseCore[数据流处理器]将[深度学习]模型的嵌入速度提高了5倍-7倍,它提供了一个数据流海的架构,允许将嵌入放在TPU v4超级计算机的128 TiB物理内存的任何地方。"
根据IDC研究副总裁Peter Rutten的说法,谷歌论文中描述的效率在很大程度上是由于所使用的硬件的固有特性--设计良好的ASIC几乎根据定义比试图做同样事情的一般使用的处理器更适合其特定任务。
"他说:"ASIC的性能和能源效率都很高。"如果你把它们连接到可以动态配置网络拓扑结构的光路交换机上,你就会有一个非常快的系统。"
虽然白皮书中描述的系统目前只是供谷歌内部使用,但Rutten指出,所涉及的技术的经验教训可能对机器学习训练有广泛的适用性。
"我想说它的意义在于它为他们提供了一种最佳实践方案,"他说。"这是GPU的替代品,所以从这个意义上说,这绝对是一项有趣的工作。"
谷歌与英伟达的比较并不明确
虽然谷歌也将TPU v4的性能与使用Nvidia的A100 GPU的系统进行了比较,后者是常见的HPC组件,但Rutten指出,Nvidia后来发布了更快的H100处理器,这可能缩小了系统之间的任何性能差异。
"他说:"他们在把它与老一代的GPU进行比较。"但最终这并不重要,因为这是谷歌开发人工智能模型的内部流程,对他们来说很有效。"