Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

人工智能 2025-06-01 08:04:02 2天前

IT酷哥 5 月 30 日消息,Anthropic 昨日(5 月 29 日)发布博文,宣布推出“思维追踪”(Circuit Tracer)开源工具,以图形化方式,追踪并展示 AI 大语言模型的内部思维过程。

该工具通过构建“归因图”(Attribution Graph),帮助研究者可视化模型内部运作,并支持交互式探索。这一项目由 Anthropic Fellows 程序的参与者与专注 AI 解释性研究的 Decode Research 团队联合推动,旨在提升 AI 安全性。

Circuit Tracer 已在 GitHub 平台以开源库形式发布,研究者可通过由 Decode Research 运营的 Neuronpedia 平台,使用交互式前端查看“归因图”。

用户使用该工具,不仅能生成自定义的归因图,追踪支持模型的内部逻辑,还能对图形进行标注、分享,甚至通过调整特征值观察模型输出的变化,从而验证研究假设。

Anthropic 表示,当前对 AI 内部结构的理解远远落后于其功能进步。开源这些工具将助力更广泛的社区深入探究语言模型的内部运作,理解模型行为,并为工具的改进和扩展提供可能。

IT酷哥附上参考地址

Open-sourcing circuit tracing tools

GitHub 页面

gemma-2-2b Attribution Graph | Neuronpedia

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 英伟达领投,AI 初创公司 Cohere 完成 2.7 亿美元新一轮融资
  • 微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
  • 日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
  • 消息称微软曾不听 OpenAI 警告,上线不成熟的必应聊天服务
  • 讯飞星火 App 上线苹果 iOS 平台:搭载 V1.5 认知大模型,须获取内测资格后使用
  • 网易云音乐和小冰联合推出 AI 歌手音乐创作软件,首发内置 12 名 AI 歌手
  • 日本神户开始验证市政 AI 化效果:自动规划巡逻路线,减少犯罪发生
  • 理想汽车负责人:我们在 ChatGPT 问世之前就已启动 AI 大语言模型训练
  • Snap 研发出新技术 SnapFusion,未来智能手机秒出 AI 生成图像
  • 网友“欺骗”ChatGPT 生成 Win10、Win11 密钥,马斯克调侃:真适合做睡前读物
  • 语音生成 AI 初创公司 ElevenLabs 发布合成语音检测工具,号称准确率超过 99%
  • AI 公司 Databricks 推出人工智能模型共享机制,可令开发者与公司实现“双赢”
  • AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
  • Meta 和 OpenAI 公司 CEO 公开支持欧盟推行 AI 监管方案
  • Dropbox 网盘推出 AI 搜索工具 Dropbox Dash:聚合多办公平台,可视化管理工作任务
  • AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头
  • 美国商务部宣布成立 AI 公共工作组,应对生成式人工智能潜在风险
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • 科大讯飞星火 AI 大模型出海东南亚,将在新加坡实施“1+4”战略
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • 最新资讯

    热门资讯