谷歌首席执行官桑达尔-皮查伊(Sundar Pichai)宣布推出 “双子座 ”2.0 模型,该模型代表了谷歌彻底改变人工智能的下一步雄心。
在推出 Gemini 1.0 模型一年后,这一重大升级整合了增强的多模态功能、代理功能和创新的用户工具,旨在推动人工智能驱动技术的发展。
皮查伊在回顾谷歌26年来的使命时说:"如果说双子座1.0是为了组织和理解信息,那么双子座2.0则是为了让信息变得更加有用。
Gemini 1.0于2022年12月发布,是谷歌首个原生多模态人工智能模型。第一个迭代版本在理解和处理文本、视频、图像、音频和代码方面表现出色。它的 1.5 增强版因其对长文本的理解而受到开发者的广泛欢迎,并支持以生产力为重点的 NotebookLM 等应用。
现在,谷歌推出了 Gemini 2.0,旨在加快人工智能的发展,使其成为能够生成原生图像和音频、更好地进行推理和规划以及在现实世界中进行决策的通用助手。用皮查伊的话说,这项开发代表着 “代理时代 ”的到来。
“皮查伊解释说:"我们一直在投资开发更多的代理模型,这意味着它们可以更多地了解你周围的世界,提前多步思考,并在你的监督下代表你采取行动。
今天宣布的核心内容是试验性发布 Gemini 2.0 Flash,这是 Gemini 第二代的旗舰机型。它建立在前代产品的基础上,同时提供更快的响应时间和更先进的性能。
Gemini 2.0 Flash 支持多模态输入和输出,包括结合文本生成本地图像和生成可转向文本到语音的多语言音频。此外,用户还可受益于谷歌搜索等本地工具集成,甚至第三方用户自定义功能。
开发人员和企业可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 访问 Gemini 2.0 Flash,而更大尺寸的模型计划于 2024 年 1 月发布。
为了便于全球使用,Gemini 应用程序现在采用了 2.0 Flash 实验模型的聊天优化版本。早期用户可以在桌面和移动设备上体验这一升级版助手,移动应用也即将推出。
Gemini 2.0 还增强了谷歌搜索等产品的功能,使其能够处理复杂的查询,如高级数学问题、编码查询和多模态问题。
Gemini 2.0 的推出带来了引人注目的新工具,充分展示了它的能力。
其中一项功能 “深度研究”(Deep Research)可作为人工智能研究助手,通过将信息编译成综合报告来简化复杂主题的调查过程。另一项升级增强了搜索功能,支持 Gemini 的 AI Overviews 可以处理复杂的多步骤用户查询。
该模型使用谷歌第六代张量处理单元(TPU)进行训练,TPU被称为Trillium,皮查伊指出,“Gemini 2.0的训练和推理100%都是由Trillium驱动的”。
Trillium现在对外部开发者开放,使他们能够从支持谷歌自身进步的相同基础设施中获益。
与 Gemini 2.0 配套的还有一些实验性的 “代理 ”原型,旨在探索人类与人工智能协作的未来,其中包括
Astra 项目: 通用人工智能助手
Project Astra 在今年早些时候的 I/O 大会上首次亮相,它利用 Gemini 2.0 的多模态理解能力来改善现实世界中的人工智能交互。受信任的测试者已经在安卓系统上试用了该助手,他们提供的反馈意见有助于改进该助手的多语言对话、记忆保持以及与搜索、Lens 和地图等谷歌工具的集成。Astra 还展示了接近人类的对话延迟,目前正在进一步研究其在可穿戴技术(如人工智能眼镜原型)中的应用。
Mariner 项目 重新定义网络自动化
Project Mariner 是一个实验性的网页浏览助手,它利用 Gemini 2.0 的能力对文本、图像和浏览器中的表单等交互元素进行推理。在最初的测试中,它在完成端到端网络任务的 WebVoyager 基准测试中取得了 83.5% 的成功率。使用 Chrome 浏览器扩展的早期测试者正在帮助完善 Mariner 的功能,同时谷歌也在评估安全措施,以确保该技术保持用户友好和安全。
朱尔斯 开发人员的编码代理
Jules 是一款专为开发人员打造的人工智能助手,可直接集成到 GitHub 工作流中,解决编码难题。它可以自主提出解决方案、生成计划并执行基于代码的任务--所有这一切都在人类的监督下进行。
下一条: 施耐德电气分享高能效数据中心设计