
热文谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力
【导读】IT酷哥4月26日消息,科技媒体marktechpost昨日(4月25日)发布博文,报道称谷歌DeepMind团队推出QuestBench新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。现实挑战与信息获取需求大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使LLMs发展主动信息获取能力。IT酷哥援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为...