资讯公告
  • 你的位置:
  • 首页
  • >
  • 资讯公告
  • >
  • 人工智能
  • >
  • Meta推出用于多模态处理、音乐生成等的五种人工智能模型
Meta推出用于多模态处理、音乐生成等的五种人工智能模型
发布时间:2024-06-20 发布者:域风网

Meta推出用于多模态处理、音乐生成等的五种人工智能模型


Meta 发布了五大新的人工智能模型和研究成果,包括可同时处理文本和图像的多模态系统、下一代语言模型、音乐生成、人工智能语音检测,以及提高人工智能系统多样性的努力。


这些发布来自 Meta 的基础人工智能研究(FAIR)团队,该团队十多年来一直致力于通过开放式研究与合作推动人工智能的发展。随着人工智能的快速创新,Meta 认为与全球社区的合作至关重要。


"Meta表示:"通过公开分享这项研究,我们希望激发迭代,并最终以负责任的方式帮助推动人工智能的发展。


变色龙 多模式文本和图像处理


此次发布的内容包括根据研究许可发布的 Meta "变色龙 "模型的关键组件。变色龙 "是一个多模态模型系列,可以同时理解和生成文本和图像--这与大多数大型语言模型不同,后者通常是单模态的。


"Meta 解释说:"正如人类可以同时处理文字和图像一样,变色龙也可以同时处理和生成图像和文字。"变色龙可以将文本和图像的任意组合作为输入,也可以输出文本和图像的任意组合。


从生成创意字幕到用文本和图像提示新场景,潜在的使用案例几乎是无限的。


多标记预测,加快语言模型训练


Meta 还在非商业研究许可下发布了使用 "多标记预测 "的代码自动补全预训练模型。传统的语言模型训练只预测下一个单词,效率低下。多标记模型可以同时预测多个未来单词,从而加快训练速度。


"虽然[单字]方法简单且可扩展,但效率也很低。它所需的文字量要比儿童学习相同程度的语言流利度所需的文字量多几个数量级,"Meta 说。


JASCO: 增强型文本到音乐模式


在创意方面,Meta 的 JASCO 可以根据文本生成音乐片段,同时通过接受和弦和节拍等输入,提供更多控制。


"Meta解释说:"现有的文本到音乐模型(如MusicGen)主要依靠文本输入来生成音乐,而我们的新模型JASCO能够接受和弦或节拍等各种输入,从而提高对生成的音乐输出的控制。


AudioSeal: 检测人工智能生成的语音


Meta 声称,AudioSeal 是首个用于检测人工智能生成语音的音频水印系统。它可以在较大的音频片段中精确定位人工智能生成的特定片段,比以往的方法快 485 倍。


"AudioSeal是以商业许可的方式发布的。Meta 说:"这只是我们为防止滥用人工智能生成工具而进行的几项负责任的研究之一。


提高文本到图像的多样性


另一项重要发布旨在提高文本到图像模型的多样性,因为这些模型通常会表现出地理和文化偏见。


Meta 开发了自动指标来评估潜在的地理差异,并开展了一项超过 65000 条注释的大型研究,以了解全球人们如何看待地理代表性。


"Meta说:"这使得人工智能生成的图像更具多样性和更好的代表性。相关代码和注释已经发布,以帮助提高生成模型的多样性。


Meta 表示,通过公开分享这些突破性的模型,它希望促进人工智能界的合作并推动创新。

购物车
业务咨询:
售后服务: