为训练 AI 模型 Claude,Anthropic 耗资数百万美元购入并“销毁”巨量图书

为训练 AI 模型 Claude,Anthropic 耗资数百万美元购入并“销毁”巨量图书

人工智能 2025-06-27 15:06:07 1天前

IT酷哥 6 月 26 日消息,据外媒 Ars Technica 今日报道,当地时间周一公开的法庭文件披露,人工智能公司 Anthropic 曾斥资数百万美元,将实体图书拆解并扫描成数字文件,用于训练类似 ChatGPT 的 AI 助手 Claude。为了获取训练数据,公司将大量图书拆除装订、扫描进系统,随后直接丢弃原件。

判决书长达 32 页,披露了 Anthropic 在 2024 年 2 月雇佣 Tom Turvey 的经过。Turvey 曾负责 Google Books 项目的合作事务,公司委托他“获取全世界的图书”。这一战略性人事安排,显然是希望复制谷歌曾被法院认定为合理使用的图书数字化模式。

最终,法官 William Alsup 裁定,该扫描方式构成合理使用,理由是图书已由 Anthropic 合法购买、扫描后即刻销毁,且数字文件仅限内部使用,未向外传播。他认为这类转换相当于“节省空间”的数字化转化,具有合理使用中的“转化性”特征。如果公司一开始就遵守这一路径,或许已树立 AI 合理使用的首个判例,但早期的盗版行为削弱了其合法性。

核心原因其实很简单:AI 训练需要海量优质文本。为了构建大语言模型,研究人员需将亿万词语输入神经网络,反复训练模型,建立词语与概念之间的关系。

训练数据的质量直接影响模型输出的准确性。相比网络评论等杂乱信息,编辑过的书籍和文章能显著提升 AI 的语言能力。

AI 公司急需出版内容,但通常不愿耗费时间谈授权。美国的“首次销售原则”提供了法律空间:买下实体书之后,使用者可以自行处理。这就让购买图书成为一种合法的“绕道方案”。

和许多同行一样,Anthropic 最初选择了绕过版权的捷径。IT酷哥从法庭材料获悉,为了绕开冗长复杂的授权流程,CEO 阿莫代伊曾主张使用盗版电子书。但到了 2024 年,出于法律考虑,公司开始寻求更安全的替代方案。

收购二手书成为理想选择:不必谈授权,又能获得质量上乘的训练文本。为了加快数字化进程,Anthropic 采用“破坏式扫描”,大量购入图书,拆封、裁剪、整批扫描为机器可读的 PDF 文件,完成后纸本全部废弃。整个流程耗资数百万美元。

该公司的购买对象大多是零售渠道的普通旧书。但事实上,非破坏性扫描技术早已成熟。比如 Internet Archive 就开发出可保留原书的数字化手段。本月早些时候,OpenAI 和微软也宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍训练 AI,这些书籍在被数字化的同时依旧妥善保存。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 可识别 AI 生成的科学文本的新型检测工具问世,号称准确率超 99% 但遭质疑
  • 《自然》杂志拒绝刊登人工智能生成的图片和视频
  • 赛博礼拜?德国一教堂首次尝试用 ChatGPT 布道,300 多人排队一小时参与
  • 【IT之家评测室】讯飞星火认知大模型 V1.5 体验:真变成随身智能助理了
  • 长城汽车申请 SPACEGPT 等商标,有望成为首批在车机终端引入 AI 智能助理的吃螃蟹者
  • 马斯克称没人会真暂停开发 AI ,呼吁只是为提醒大家注意
  • 捷豹路虎宣布采用 AI 管控供应链,最大程度降低生产中断风险
  • 折腾十年,扎克伯格痛失 AI 好局
  • 普林斯顿大学推出 Infinigen AI 模型,可生成真实自然环境 3D 场景
  • LG 发布首个生成式 AI 商业化服务 Captioning AI:10 秒内为图片提供 5 句描述和 10 个关键词
  • 日本神户开始验证市政 AI 化效果:自动规划巡逻路线,减少犯罪发生
  • DeepMind 联合创始人提出新的图灵测试:让 AI 将 10 万美元变成 100 万美元
  • Opera 向桌面和安卓用户开放浏览器 AI“Aria”
  • 开源模型 PrivateGPT 上线,可本地搭建、避免信息外泄
  • 美国商务部宣布成立 AI 公共工作组,应对生成式人工智能潜在风险
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • 科大讯飞星火 AI 大模型出海东南亚,将在新加坡实施“1+4”战略
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • AI 图像编辑技术 DragGAN 开源,拖动鼠标即可将狮子 P 转头
  • 2023 全球 AI 指数排名公布:美中稳居前二,亚洲国家表现亮眼
  • 最新资讯

    热门资讯