资讯公告
  • 你的位置:
  • 首页
  • >
  • 资讯公告
  • >
  • 人工智能
  • >
  • Anthropic的Claude 3.5 Sonnet在大多数基准测试中都击败了GPT-4o
Anthropic的Claude 3.5 Sonnet在大多数基准测试中都击败了GPT-4o
发布时间:2024-06-24 发布者:域风网

Anthropic的Claude 3.5 Sonnet在大多数基准测试中都击败了GPT-4o


Anthropic 推出了 Claude 3.5 Sonnet,这是一款中级机型,在各种评估中表现优于竞争对手,甚至超过了 Anthropic 目前的顶级机型 Claude 3 Opus。


Claude 3.5 Sonnet 现在可在 Claude.ai 和 Claude iOS 应用程序上免费使用,Claude Pro 和 Team 计划用户可享受更高的费率限制。它还可通过 Anthropic API、亚马逊 Bedrock 和谷歌云的 Vertex AI 使用。该模型的价格为每百万个输入代币 3 美元,每百万个输出代币 15 美元,具有 20 万个代币上下文窗口。


Anthropic 声称,Claude 3.5 Sonnet "为研究生水平的推理(GPQA)、本科水平的知识(MMLU)和编码能力(HumanEval)设定了新的行业基准"。该模型在理解细微差别、幽默和复杂指令方面表现出更强的能力,同时擅长以自然的语调制作高质量的内容。


Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍,非常适合执行复杂的任务,如上下文相关的客户支持和多步骤工作流协调。在一次内部代理编码评估中,它解决了 64% 的问题,大大超过 Claude 3 Opus 的 38%。


该模型还展示了改进的视觉能力,在标准视觉基准上超过了 Claude 3 Opus。这一进步在需要视觉推理的任务中尤为明显,如解读图表。Claude 3.5 Sonnet 能从不完美的图像中准确地转录文本,这对于零售、物流和金融服务等行业来说是一项非常有价值的功能。


在推出模型的同时,Anthropic 还推出了 Claude.ai 上的 Artifacts,这是一项增强用户与人工智能互动的新功能。该功能允许用户实时查看、编辑和构建克劳德生成的内容,创造了一个更具协作性的工作环境。


尽管克劳德 3.5 Sonnet 在智能方面有了重大飞跃,但 Anthropic 仍坚持其对安全和隐私的承诺。该公司表示:"我们的模型经过了严格的测试,并接受了减少滥用的培训。


外部专家,包括英国人工智能安全研究所(UK AISI)和 Thorn 公司的儿童安全专家,都参与了模型安全机制的测试和完善工作。


Anthropic 强调其致力于保护用户隐私,并表示:"我们不会使用用户提交的数据来训练我们的生成模型,除非用户明确允许我们这样做。迄今为止,我们没有使用任何客户或用户提交的数据来训练我们的生成模型。


展望未来,Anthropic 计划在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus,以完善 Claude 3.5 模型系列。该公司还在开发新的模式和功能,以支持更多的业务用例,包括与企业应用的集成和记忆功能,以实现更个性化的用户体验。

文章相关标签: Anthropic Claude 3.5 基准测试 GPT-4o
购物车
业务咨询:
售后服务: