资讯公告
OpenAI通过新的红色团队增强人工智能安全
发布时间:2024-12-02 发布者:域风网

OpenAI通过新的红色团队增强人工智能安全


OpenAI 保障流程的一个关键部分是 “红队”--一种结构化方法,使用人类和人工智能参与者来探索新系统中的潜在风险和漏洞。


从历史上看,OpenAI 主要通过人工测试参与 “红队 ”工作,即由个人探查薄弱环节。2022 年初,OpenAI 在测试 DALL-E 2 图像生成模型时就采用了这一方法,邀请外部专家识别潜在风险。从那时起,OpenAI 不断扩展和完善其方法,将自动化和混合方法结合起来,以进行更全面的风险评估。


“OpenAI 表示:"我们乐观地认为,我们可以利用更强大的人工智能来扩大发现模型错误的规模。这种乐观源于这样一种想法,即自动化流程可以帮助评估模型,并通过在更大范围内识别模式和错误来训练模型,使其更加安全。


在最新的推进过程中,OpenAI 分享了两份关于红队的重要文件--一份详细介绍外部参与策略的白皮书和一份介绍自动红队新方法的研究报告。这些贡献旨在加强红队的过程和结果,最终实现更安全、更负责任的人工智能实施。


随着人工智能的不断发展,了解用户体验、识别滥用和误用等风险对于研究人员和开发人员来说至关重要。红队提供了评估这些风险的前瞻性方法,尤其是在辅以一系列独立外部专家的见解时。这种方法不仅有助于建立基准,还有利于随着时间的推移加强安全评估。


人文关怀


OpenAI 在其白皮书《OpenAI 的人工智能模型和系统外部红队方法》中分享了设计有效红队活动的四个基本步骤:


  • 红队的组成: 根据活动目标选择团队成员。这通常涉及具有不同视角的个人,如自然科学、网络安全和地区政治方面的专业知识,以确保评估涵盖必要的广度。
  • 获取模型版本: 明确红队人员将访问模型的哪些版本会影响结果。早期阶段的模型可能会揭示固有风险,而更成熟的版本则有助于发现计划安全缓解措施中的漏洞。
  • 指导和文件: 活动期间的有效互动有赖于清晰的指导、合适的界面和结构化的文档。这包括描述模型、现有保障措施、测试界面和记录结果的指南。
  • 数据综合与评估: 活动结束后,对数据进行评估,以确定实例是否符合现有政策或是否需要对行为进行新的修改。评估后的数据将为未来更新的可重复评估提供信息。


这种方法最近的一次应用涉及准备公开使用 OpenAI o1 系列模型--测试它们对潜在滥用的抵御能力,并评估它们在现实世界攻击计划、自然科学和人工智能研究等各个领域的应用。


自动红队


自动 “红队 ”旨在识别人工智能可能失败的情况,特别是与安全相关的问题。这种方法擅长大规模应用,能快速生成大量潜在错误的实例。然而,传统的自动化方法一直难以产生多样化的成功攻击策略。


OpenAI 的研究引入了 “利用自动生成的奖励和多步骤强化学习实现多样化和有效的红队”,这是一种在保持有效性的同时鼓励攻击策略更加多样化的方法。


这种方法包括利用人工智能生成不同的场景,如非法建议,并训练红队模型对这些场景进行严格评估。这一过程奖励多样性和有效性,促进更多样、更全面的安全评估。


尽管有其优点,但红色小组也有局限性。它捕捉的是特定时间点的风险,而这些风险可能会随着人工智能模型的发展而变化。此外,“红队 ”流程可能会无意中造成信息危害,可能会提醒恶意行为者注意尚未广为人知的漏洞。管理这些风险需要严格的协议和负责任的披露。


虽然 “红队 ”仍是风险发现和评估的关键,但 OpenAI 认识到,有必要在人工智能的理想行为和政策方面纳入更广泛的公众观点,以确保该技术符合社会价值观和期望。

文章相关标签: OpenAI 红色团队 人工智能安全
购物车
业务咨询:
售后服务: