月之暗面 Kimi-Researcher 深度研究模型开启内测:可生成易追溯的万字报告

月之暗面 Kimi-Researcher 深度研究模型开启内测:可生成易追溯的万字报告

人工智能 2025-06-24 08:11:05 1天前

IT酷哥 6 月 21 日消息,IT酷哥从月之暗面 Kimi 公众号获悉,Kimi 的第一个 Agent(智能体)Kimi-Researcher 于 20 日开启小范围灰度测试。

Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。其后,月之暗面也将逐步开源 Kimi-Researcher 基础预训练模型及强化学习后的模型。

对于每一个问题,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果:

澄清问题(clarification):理解问题时主动反问,构建更清晰的问题空间;

深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;

主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;

调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。

为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。

用户最终将收到 2 个交付成果。

一份信息详实、可溯源的深度研究报告

报告的平均长度在万字以上;

平均引用约 26 个高质量、可溯源的信源;

所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯。

一个可交互、可分享的动态可视化报告

结构化排版、思维导图,让趋势、异常等重要信息一眼可见;

无需阅读全文,也能迅速把握整体结构与核心结论;

支持在线生成链接并分享,方便展示。

官方宣布,在专为 AI 设计的高难度 benchmark“人类最后一次考试(Humanity's Last Exam,HLE)”中,Kimi-Researcher 在完全零结构、无流程设计的设置下,得分如下:

Pass@1 准确率:26.9%

Pass@4 准确率:40.17%

这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69% 的平均通过率,领先该榜中其他模型。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 360 智脑-视觉大模型发布,周鸿祎:多模态是大模型发展的必经之路
  • 全球最大资产管理公司 CEO:人工智能可能是一种抑制通货膨胀的技术
  • 腾讯宣布打造行业大模型精选商店,提供一站式服务
  • 快手旗下视频剪辑类产品“快影”内测多款 AIGC 创作功能,可一键生成文案等
  • 软银 CEO 孙正义称每天都会使用 ChatGPT,是生成式 AI 服务的“忠实用户”
  • 蚂蚁集团证实正研发语言和多模态大模型,定名“贞仪”
  • 软银 CEO 孙正义宣布策略调整:AI 革命正在爆发,公司将“转守为攻”
  • AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
  • 宏碁、惠普、华硕等品牌发力 AI 笔记本市场,明年将带动新一波换机潮
  • 美国商务部宣布成立 AI 公共工作组,应对生成式人工智能潜在风险
  • iOS 版 ChatGPT 集成必应搜索功能,仅限付费订阅者使用
  • 香港电台推出 AI 天气主播 Aida,表情、动作均由电脑合成
  • 为防止泄密,美国国会明确要求职员仅可使用付费版 ChatGPT
  • 英伟达联手 Snowflake:卖出更多芯片,帮助企业客户建立自己的 AI 模型
  • 调查发现 20% 的男性使用 ChatGPT 等 AI 工具“美化”约会资料,提高交流技巧
  • 微软英伟达参投,OpenAI 竞争对手 Inflection AI 获 13 亿美元融资
  • 微软必应聊天周报:改善体育相关话题、向 Skype 开放图片生成工具
  • 北京出台机器人产业新政,支持 AI 大模型与机器人融合发展
  • 方舟启航,火山引擎这波在“大气层”
  • 热度过去用户兴趣降低:数据显示 ChatGPT 流量在 6 月首次出现下降
  • 最新资讯

    热门资讯