谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

人工智能 2025-04-28 18:08:05 3天前

IT酷哥 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

IT酷哥援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • Gartner 报告预测:2026 年将有超 1 亿人与生成式 AI 一起工作
  • 民调显示超八成日本年轻人担心工作被生成式 AI 抢走
  • 百度与中国石化签署战略合作框架协议,将在 AI 等领域深化合作
  • Meta 首席 AI 科学家杨立昆:AI 智力连狗都不如,不应将其视作威胁
  • 折腾十年,扎克伯格痛失 AI 好局
  • AI 作画工具 Midjourney 迎来 5.2 版本更新,可生成相机“变焦效果”
  • 警用 AI 助手到来,美亚柏科发布国内首个公共安全大模型“天擎”
  • 微软推出生成式 AI 培训项目,免费提供在线课程和证书
  • 调查发现 20% 的男性使用 ChatGPT 等 AI 工具“美化”约会资料,提高交流技巧
  • Meta 将提高 AI 算法应用透明度,向用户提供详细说明和更多选择
  • ChatGPT 的 Bing 浏览功能让用户免费阅读付费内容,OpenAI 暂停测试
  • 联合国安理会将首次召开 AI 监管会议,讨论 AI 对全球和平与安全的潜在威胁
  • 日本计划在学校内限度使用 ChatGPT 等生成式 AI
  • 亚马逊 Kindle 自助出版功能被滥用,AI 生成的书籍泛滥
  • ChatGPT 又陷版权风波:两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练
  • Mozilla 的 AI Help 工具终遭官方停用:生成的技术信息真假参半
  • 遇版权纠纷可获全额补偿:Adobe 及 Shutterstock 宣布将为平台 AI 图片负责
  • 小冰 CEO 李笛:马斯克呼吁停止研发 AI 大模型,可能是想给自己争取更多时间
  • 华为云“盘古大模型 3.0”正式发布:为企业定制 AI 助手,最高可选 1000 亿参数
  • 图表显示必应聊天今年 3 月月活用户数量逼近 15 亿
  • 最新资讯

    热门资讯