三位作家对人工智能初创公司Anthropic提起诉讼,指控该公司未经许可使用了他们受版权保护的作品来训练其克劳德语言模型。
安德烈亚-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)向加州一家法院提起诉讼,指控Anthropic “盗用 ”他们的书面材料来开发其人工智能系统。作者们声称,Anthropic 从非法网站下载了他们著作的盗版,用作训练数据。
诉讼称,Anthropic “通过窃取数十万本受版权保护的书籍,建立了数十亿美元的业务”。诉讼称,该公司 “无视版权保护”,“大规模窃取版权作品 ”来训练其克劳德模型。
Anthropic公司没有对这些指控发表实质性评论,只是表示 “知道 ”这一法律诉讼。在此案中,微软和 OpenAI 等其他人工智能公司也因使用受版权保护的材料开发大型语言模型而遭到类似起诉。这凸显了内容创作者与人工智能公司在知识产权方面日益紧张的关系。
根据诉状,Anthropic 使用了一个名为 “The Pile ”的数据集来训练 Claude。据称,这个数据集包括一个名为 “Books3 ”的盗版电子书集,其中包含近 20 万本从未经授权来源下载的书籍。
作者认为,Anthropic 公司知道自己在未经许可的情况下使用了受版权保护的作品。他们声称,该公司 “故意决定偷工减料,依靠偷来的材料来训练他们的模型”,而不是获得适当的许可。
诉讼称,Anthropic 的行为损害了作者的利益,剥夺了他们的图书销售和授权收入。诉讼称,该公司的人工智能模型现在与人类撰写的内容竞争,威胁到作家的生计。
Anthropic 将其 Claude 模型定位为 OpenAI 的 ChatGPT 和其他著名人工智能聊天机器人的竞争对手。该公司已融资数十亿美元,估值超过 180 亿美元。
批评者认为,人工智能公司使用作者和出版商的作品作为训练数据,应该给予他们补偿。谷歌等一些公司已经开始与新闻机构和其他内容提供商签订许可协议。
然而,人工智能开发者认为,使用受版权保护的材料进行机器学习属于版权法的 “合理使用 ”条款。他们认为,他们的模型并没有复制训练文本的原样。
这场辩论涉及版权如何适用于人工智能开发的复杂法律和伦理问题。法院可能需要确定人工智能训练是否构成版权侵权或转化性合理使用。
对于作者来说,这场诉讼代表了他们对自己的作品如何被用于人工智能开发进行控制的努力。他们认为,从人工智能中获利的公司应该对其作品使该技术成为可能的创作者进行补偿。
如果法院裁定公司必须为训练中使用的所有受版权保护的材料获得许可,那么此案可能会对人工智能产业产生重大影响。这可能会增加人工智能开发的成本和复杂性。
Anthropic 公司一直致力于开发 “安全、道德 ”的人工智能系统。该公司首席执行官称其 “专注于公共利益”。然而,作者们的诉讼对这一形象提出了质疑,指控 Anthropic 通过侵犯版权来建立自己的业务。
诉状要求Anthropic公司对涉嫌故意侵犯版权的行为进行法定赔偿,并发布禁令,禁止Anthropic公司在未经许可的情况下进一步使用作者的作品。
随着人工智能能力的增长,有关知识产权的争论可能会愈演愈烈。内容创作者认为他们的作品应该得到保护和补偿,而人工智能公司则要求获得广泛的数据集以改进其模型。
像Anthropic这样的案件的结果可能有助于塑造人工智能发展的法律和监管格局。它可能会影响公司收集训练数据的方式,以及广泛许可是否会成为常态。
就目前而言,这起诉讼增加了主要人工智能公司在使用受版权保护材料方面所面临的越来越多的法律挑战。随着法院努力解决这些问题,他们的裁决可能会对人工智能和内容创作的未来产生深远影响。
此案名为 Andrea Bartz 等人诉 Anthropic PBC 案,美国加利福尼亚州北区地方法院,诉讼编号:3:24-cv-05417。