OpenAI 保障流程的一个关键部分是 “红队”--一种结构化方法,使用人类和人工智能参与者来探索新系统中的潜在风险和漏洞。
从历史上看,OpenAI 主要通过人工测试参与 “红队 ”工作,即由个人探查薄弱环节。2022 年初,OpenAI 在测试 DALL-E 2 图像生成模型时就采用了这一方法,邀请外部专家识别潜在风险。从那时起,OpenAI 不断扩展和完善其方法,将自动化和混合方法结合起来,以进行更全面的风险评估。
“OpenAI 表示:"我们乐观地认为,我们可以利用更强大的人工智能来扩大发现模型错误的规模。这种乐观源于这样一种想法,即自动化流程可以帮助评估模型,并通过在更大范围内识别模式和错误来训练模型,使其更加安全。
在最新的推进过程中,OpenAI 分享了两份关于红队的重要文件--一份详细介绍外部参与策略的白皮书和一份介绍自动红队新方法的研究报告。这些贡献旨在加强红队的过程和结果,最终实现更安全、更负责任的人工智能实施。
随着人工智能的不断发展,了解用户体验、识别滥用和误用等风险对于研究人员和开发人员来说至关重要。红队提供了评估这些风险的前瞻性方法,尤其是在辅以一系列独立外部专家的见解时。这种方法不仅有助于建立基准,还有利于随着时间的推移加强安全评估。
OpenAI 在其白皮书《OpenAI 的人工智能模型和系统外部红队方法》中分享了设计有效红队活动的四个基本步骤:
这种方法最近的一次应用涉及准备公开使用 OpenAI o1 系列模型--测试它们对潜在滥用的抵御能力,并评估它们在现实世界攻击计划、自然科学和人工智能研究等各个领域的应用。
自动 “红队 ”旨在识别人工智能可能失败的情况,特别是与安全相关的问题。这种方法擅长大规模应用,能快速生成大量潜在错误的实例。然而,传统的自动化方法一直难以产生多样化的成功攻击策略。
OpenAI 的研究引入了 “利用自动生成的奖励和多步骤强化学习实现多样化和有效的红队”,这是一种在保持有效性的同时鼓励攻击策略更加多样化的方法。
这种方法包括利用人工智能生成不同的场景,如非法建议,并训练红队模型对这些场景进行严格评估。这一过程奖励多样性和有效性,促进更多样、更全面的安全评估。
尽管有其优点,但红色小组也有局限性。它捕捉的是特定时间点的风险,而这些风险可能会随着人工智能模型的发展而变化。此外,“红队 ”流程可能会无意中造成信息危害,可能会提醒恶意行为者注意尚未广为人知的漏洞。管理这些风险需要严格的协议和负责任的披露。
虽然 “红队 ”仍是风险发现和评估的关键,但 OpenAI 认识到,有必要在人工智能的理想行为和政策方面纳入更广泛的公众观点,以确保该技术符合社会价值观和期望。
上一条: 英国成立LASR以应对人工智能安全威胁
下一条: 安圭拉域名机构:.AI域名注册量激增4万