微软公司发布了开放式小型语言模型(SLM)Phi-3 系列,称其为同类产品中能力最强、最具成本效益的产品。微软研究人员开发的创新训练方法使Phi-3模型在语言、编码和数学基准测试中的表现优于大型模型。
"微软生成式人工智能首席产品经理Sonali Yadav表示:"我们将开始看到的不是从大型模型到小型模型的转变,而是从单一的模型类别到模型组合的转变,在这种转变中,客户有能力决定什么是最适合其场景的模型。
第一个Phi-3模型Phi-3-mini拥有38亿个参数,现已在Azure人工智能模型目录、Hugging Face、Ollama中公开,并作为英伟达NIM微服务提供。尽管体积小巧,Phi-3-mini 的性能却超过了两倍于它的模型。其他 Phi-3 模型,如 Phi-3-small (7B 参数)和 Phi-3-medium (14B 参数)也将很快推出。
"微软人工智能副总裁路易斯-巴尔加斯(Luis Vargas)说:"有些客户可能只需要小型模型,有些则需要大型模型,还有很多客户希望以各种方式将两者结合起来。
SLM的关键优势在于其较小的尺寸,可以在设备上部署,在没有网络连接的情况下实现低延迟的人工智能体验。潜在的使用案例包括智能传感器、摄像头、农业设备等。将数据保存在设备上还能保护隐私。
大型语言模型(LLM)擅长在庞大的数据集上进行复杂的推理--通过理解科学文献中的相互作用,这种优势适合药物发现等应用。然而,SLM 为更简单的查询回答、总结、内容生成等提供了令人信服的替代方案。
"Iris.ai首席技术官兼联合创始人维克多-博特夫(Victor Botev)评论说:"微软正在开发具有更精心策划的数据和专业培训的工具,而不是追逐越来越大的模型。
Iris.ai 首席技术官兼联合创始人维克多-博特夫(Victor Botev)评论说:"这样就可以提高性能和推理能力,而无需为拥有数万亿参数的模型支付高昂的计算成本。实现这一承诺意味着为寻求人工智能解决方案的企业消除了巨大的采用障碍。
让微软的 SLM 实现质的飞跃的是一种创新的数据过滤和生成方法,其灵感来自睡前故事书。
"微软负责SLM研究的副总裁塞巴斯蒂安-布贝克(Sebastien Bubeck)问道:"为什么不寻找质量极高的数据,而只在原始网络数据上进行训练呢?
罗宁-埃尔丹(Ronen Eldan)每晚都会和女儿一起阅读,这激发了他的灵感,于是他创建了一个 "TinyStories "数据集,其中包含数百万个简单的叙述,这些叙述是通过向一个大型模型提示一个 4 岁儿童所认识的单词组合而创建的。值得注意的是,在 TinyStories 上训练的千万参数模型可以生成语法完美的流畅故事。
在这一早期成功的基础上,该团队采购了经过教育价值审核的高质量网络数据,创建了 "CodeTextbook "数据集。人类和大型人工智能模型对这些数据进行了一轮又一轮的提示、生成和过滤。
"Bubeck 说:"我们在制作这些合成数据时非常谨慎。"我们不会把我们生成的所有数据都拿走。
事实证明,高质量的训练数据具有变革性。"Bubeck解释说:"因为它是从类似教科书的材料中读取的......你让语言模型阅读和理解这些材料的任务变得更容易了。
尽管对数据进行了深思熟虑的整理,微软仍强调在Phi-3版本中应用了额外的安全实践,这与所有生成式人工智能模型的标准流程如出一辙。
"博文称:"与所有生成式人工智能模型的发布一样,微软的产品和负责任的人工智能团队在开发Phi-3模型的过程中采用了多层次的方法来管理和降低风险。
这包括通过进一步的培训实例来强化预期行为,通过红队评估来识别漏洞,以及为客户提供 Azure AI 工具来在 Phi-3 基础上构建值得信赖的应用程序。
上一条: Pryon:打造负责任的人工智能未来
下一条: 英国企业正在拥抱多云时代