GPT-4o集成了文本、音频和视觉功能-域风网

GPT-4o集成了文本、音频和视觉功能

OpenAI 推出了新的旗舰机型 GPT-4o，该机型可无缝集成文本、音频和视觉输入和输出，有望提高机器交互的自然度。

GPT-4o的 "o "代表 "omni"（全方位），旨在满足更广泛的输入和输出模式。"它接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合作为输出，"OpenAI 宣布。

用户可以期待最快 232 毫秒的响应时间，反映人类对话速度，平均响应时间为 320 毫秒，令人印象深刻。

开创性的功能

GPT-4o 的推出标志着通过单一神经网络处理所有输入和输出的前代产品的飞跃。这种方法使模型能够保留关键信息和上下文，而这些信息和上下文在早期版本使用的独立模型管道中已经丢失。

在 GPT-4o 之前，"语音模式 "可以处理音频交互，GPT-3.5 的延迟时间为 2.8 秒，GPT-4 为 5.4 秒。以前的设置包括三个不同的模型：一个用于将音频转录为文本，另一个用于文本回复，第三个用于将文本转换回音频。这种分割会导致音调、多人讲话和背景噪音等细微差别的丢失。

作为一个集成解决方案，GPT-4o 在视觉和音频理解方面都有显著改进。它可以执行更复杂的任务，例如为歌曲和声、提供实时翻译，甚至生成带有笑声和歌声等表现元素的输出。其广泛的功能包括准备面试、即时翻译语言和生成客户服务回复。

Superintelligent 公司创始人兼首席执行官 Nathaniel Whittemore 评论说： "产品公告本来就比技术公告更容易引起争议，因为在你真正与产品互动之前，很难判断产品是否真的与众不同。尤其是当涉及到一种不同的人机交互模式时，对于它的实用性就更容易产生不同的看法。

"话虽如此，但没有公布 GPT-4.5 或 GPT-5 这一事实也让人们忽略了技术的进步，即这是一个原生的多模态模型。它不是一个添加了语音或图像的文本模型；它是一个多模态令牌输入、多模态令牌输出的模型。这开辟了大量的用例，而这些用例需要一些时间才能渗透到人们的意识中。

文章相关标签： GPT-4o 视觉功能 GPT 人工智能