哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

人工智能 2025-06-19 15:53:07 1天前

IT酷哥 6 月 16 日消息，在微软与OpenAI的支持下，哈佛大学法学院图书馆于上周正式开源其首个AI训练用开放数据集“Institutional Books 1.0”。该数据集据称收录了哈佛大学馆藏中98.3万本图书，涵盖245种语言，共包含2420亿个Token，IT酷哥附项目地址（https://huggingface.co/datasets/institutional/institutional-books-1.0）。

据介绍，相应数据集收录的书籍有40%为英语，书籍主要出版年代集中于19与20世纪，共计被划分为20项主题，除此之外，相应数据集还提供了每本书的完整元数据，涉及“作者、出版年份、语言、原始来源”等信息。

哈佛大学法学院图书馆表示，未来研究人员还将持续扩充数据内容，目前相应项目组成员已与波士顿公共图书馆展开合作，将把“数百万份”历史报纸以数字化形式添加至上述数据集中。

后续，哈佛大学法学院图书馆还计划开发一系列AI工具，以提升馆藏资料整理和开放的效率，推动“负责任的数据使用规范”。

哈佛大学数据法学院图书馆波士顿

相关阅读

OpenAI CEO 阿尔特曼与软银 CEO 孙正义会面，讨论共同开拓 AI 业务

普通人也能成为音频剪辑师，Meta 推出 AI 模型 Voicebox

宜家发布由 AI 设计的下一代沙发：轻便、扁平、模块化，采用 100% 可回收材料

软银 CEO 孙正义宣布策略调整：AI 革命正在爆发，公司将“转守为攻”

Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

2023 全球 AI 指数排名公布：美中稳居前二，亚洲国家表现亮眼

微软在 Bing 和 Edge 浏览器中拓展网购服务，帮用户选购心仪产品

微软英伟达参投，OpenAI 竞争对手 Inflection AI 获 13 亿美元融资

北京出台机器人产业新政，支持 AI 大模型与机器人融合发展

多家欧洲企业签署公开信，批评欧盟 AI 法案草案限制产业发展

ChatGPT 的 Bing 浏览功能让用户免费阅读付费内容，OpenAI 暂停测试

中国团队推出脑电图图像生成模型 DreamDiffusion，清华、腾讯参与研究

必应聊天将推出“#nosearch”功能：禁用网络搜索，直达精准答案

ChatGPT 又陷版权风波：两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练

下一代“世界最快”超级计算机 El Capitan 开始安装 AMD Instinct MI300 人工智能 GPU

小冰 CEO 李笛：马斯克呼吁停止研发 AI 大模型，可能是想给自己争取更多时间

魅族申请“魅 GPT”“FlymeGPT” 商标，有望布局手机 / 车机 AI 大模型

华为：盘古大模型不会开源，和 ChatGPT 不在一个轨道

腾讯多媒体实验室发布自研 AI 作曲框架 XMusic，不通音律也能帮你“自动作曲”

机器人首次在联合国答记者问：我们不会抢走工作、反抗人类