Anthropic 开源“思维追踪”工具，可视化揭秘 AI 内部逻辑

Anthropic 开源“思维追踪”工具，可视化揭秘 AI 内部逻辑

人工智能 2025-06-01 08:04:02 2天前

IT酷哥 5 月 30 日消息，Anthropic 昨日（5 月 29 日）发布博文，宣布推出“思维追踪”（Circuit Tracer）开源工具，以图形化方式，追踪并展示 AI 大语言模型的内部思维过程。

该工具通过构建“归因图”（Attribution Graph），帮助研究者可视化模型内部运作，并支持交互式探索。这一项目由 Anthropic Fellows 程序的参与者与专注 AI 解释性研究的 Decode Research 团队联合推动，旨在提升 AI 安全性。

Circuit Tracer 已在 GitHub 平台以开源库形式发布，研究者可通过由 Decode Research 运营的 Neuronpedia 平台，使用交互式前端查看“归因图”。

用户使用该工具，不仅能生成自定义的归因图，追踪支持模型的内部逻辑，还能对图形进行标注、分享，甚至通过调整特征值观察模型输出的变化，从而验证研究假设。

Anthropic 表示，当前对 AI 内部结构的理解远远落后于其功能进步。开源这些工具将助力更广泛的社区深入探究语言模型的内部运作，理解模型行为，并为工具的改进和扩展提供可能。

IT酷哥附上参考地址

Open-sourcing circuit tracing tools

GitHub 页面

gemma-2-2b Attribution Graph ｜ Neuronpedia

模型工具开源研究者特征值

相关阅读

英伟达领投，AI 初创公司 Cohere 完成 2.7 亿美元新一轮融资

微软 GitHub Copilot 编程助手被投诉：换口吻改写公共代码来躲版权

日本学校探索引入 AI 和无人机：提高安保效率，节省劳动力

消息称微软曾不听 OpenAI 警告，上线不成熟的必应聊天服务

讯飞星火 App 上线苹果 iOS 平台：搭载 V1.5 认知大模型，须获取内测资格后使用

网易云音乐和小冰联合推出 AI 歌手音乐创作软件，首发内置 12 名 AI 歌手

日本神户开始验证市政 AI 化效果：自动规划巡逻路线，减少犯罪发生

理想汽车负责人：我们在 ChatGPT 问世之前就已启动 AI 大语言模型训练

Snap 研发出新技术 SnapFusion，未来智能手机秒出 AI 生成图像

网友“欺骗”ChatGPT 生成 Win10、Win11 密钥，马斯克调侃：真适合做睡前读物

语音生成 AI 初创公司 ElevenLabs 发布合成语音检测工具，号称准确率超过 99%

AI 公司 Databricks 推出人工智能模型共享机制，可令开发者与公司实现“双赢”

AI 模型 Stable Diffusion 升级：正常生成五指、图像更逼真

Meta 和 OpenAI 公司 CEO 公开支持欧盟推行 AI 监管方案

Dropbox 网盘推出 AI 搜索工具 Dropbox Dash：聚合多办公平台，可视化管理工作任务

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B，号称训练成本仅为竞品零头

美国商务部宣布成立 AI 公共工作组，应对生成式人工智能潜在风险

英伟达赚翻了，甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务

科大讯飞星火 AI 大模型出海东南亚，将在新加坡实施“1+4”战略

中国联通发布鸿湖图文 AI 大模型 1.0，可实现以文生图、视频剪辑