Meta 的 Ye (Charlotte) Qi 在 QCon San Francisco 2024 上台发言,讨论了大规模运行 LLM 所面临的挑战。
据 InfoQ 报道,她在演讲中重点介绍了在现实世界的系统中管理大规模模型所需的条件,强调了模型的规模、复杂的硬件要求和苛刻的生产环境所带来的障碍。
她将当前的人工智能热潮比作 “人工智能淘金热”,在这场热潮中,每个人都在追逐创新,但却遇到了巨大的障碍。Qi 认为,有效部署 LLM 不仅仅是将它们安装到现有硬件上。而是要在控制成本的同时发挥每一点性能。她强调,这需要基础设施和模型开发团队之间的密切合作。
LLM面临的首要挑战之一是对资源的巨大需求--许多模型对于单个GPU来说实在是太大了。为了解决这个问题,Meta 采用了一些技术,比如利用张量和流水线并行技术将模型分割到多个 GPU 上。Qi 强调说,了解硬件限制至关重要,因为模型设计与可用资源不匹配会严重影响性能。
她的建议是?要有战略眼光。“她说:"不要只使用你的训练运行时或你最喜欢的框架。“找一个专门为推理服务的运行时,深入了解你的人工智能问题,选择正确的优化方案。”
对于依赖实时输出的应用程序来说,速度和响应速度是不可或缺的。Qi 重点介绍了连续批处理等技术,以保持系统平稳运行,还介绍了量化技术,它可以降低模型精度,从而更好地利用硬件。她指出,这些调整可以将性能提高一倍甚至两倍。
将 LLM 从实验室推向生产是真正棘手的地方。真实世界的条件带来了不可预测的工作负载,以及对速度和可靠性的严格要求。扩展不仅仅是增加更多 GPU,还需要仔细平衡成本、可靠性和性能。
Meta 通过分解部署、优先处理常用数据的缓存系统以及确保效率的请求调度等技术来解决这些问题。Qi 表示,一致散列(一种将相关请求路由到同一服务器的方法)对提高缓存性能大有裨益。
自动化对此类复杂系统的管理极为重要。Meta非常依赖于监控性能、优化资源使用和简化扩展决策的工具,Qi称,Meta的定制部署解决方案使公司的服务能够应对不断变化的需求,同时控制成本。
对 Qi 来说,扩展人工智能系统不仅仅是一项技术挑战,更是一种思维方式。她说,企业应该退一步,从大局出发,弄清楚什么才是真正重要的。客观的视角有助于企业专注于提供长期价值的工作,不断完善系统。
她传达的信息很明确:要想在 LLM 上取得成功,需要的不仅仅是模型和基础设施层面的专业技术知识--尽管在煤炭行业,这些要素至关重要。它还关乎战略、团队合作以及对现实世界影响的关注。
上一条: 微软在云人工智能领域超越亚马逊和谷歌
下一条: 没有了