苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

人工智能 2025-06-02 08:01:04 3天前

IT酷哥 5 月 30 日消息,科技媒体 marktechpost 昨日(5 月 29 日)发布博文,报道称苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。

主流大语言模型在处理多步复杂问题时,常采用“先思考后回答”的长链式推理方式。然而,这种方法存在两大痛点:一是响应时间过长,难以满足实时交互需求;二是早期推理步骤出错可能导致最终答案偏差。

研究人员指出,与人类在对话中随时分享部分想法不同,模型往往等到推理全部完成才输出结果,导致效率不高。

苹果公司携手杜克大学,研发了交错推理技术,让模型在推理过程中交替进行内部思考和输出中间答案(sub-answer),从而提升速度与实用性。

交错推理基于强化学习(RL)框架,采用特殊的训练模板,包含 <think> 和 < answer > 标签,确保模型在达到关键推理节点时输出中间结果。

研究团队设计了基于规则的奖励机制,包括格式、最终准确率和条件性中间准确率,确保模型注重整体正确性。

测试中,交错推理在 Qwen2.5 模型(1.5B 和 7B 参数)上表现优异,响应速度提升超 80%,准确率提高高达 19.3%。

此外,该方法仅在问答(QA)和逻辑数据集上训练,却能在 MATH、GPQA、MMLU 等更具挑战性的基准测试中展现强大泛化能力。

研究还尝试了多种奖励策略,如全或无、部分积分和时间折扣奖励,其中条件性和时间折扣奖励效果最佳,显著优于传统方法。

IT酷哥附上参考地址

Interleaved Reasoning for Large Language Models via Reinforcement Learning

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 谷歌改进聊天机器人 Bard:数学运算能力提升 30%、支持表格导入到 Sheets
  • 微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
  • 360 发布 AI 数字人广场,可同孙悟空、爱因斯坦等古今中外人物角色对话
  • 腾讯自主研发机器狗 Max 升级,可模仿真狗“奔跑跳跃”完成避障动作
  • 美国心理学会:经常接触 AI 的员工更容易孤独,增加疾病风险
  • 行业首家,长虹电视 AI 大模型“长虹超脑”开启公测
  • 普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox
  • AI 朗读冲击有声读物市场,配音演员工作面临威胁
  • 长虹电视 AI 大模型“长虹超脑”发布:三大核心能力,可连续自然对话
  • 全球首个 AI 广播频道公司完成 1900 万美元融资,开发无障碍及游戏 NPC 技术
  • 美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
  • 微软推出生成式 AI 培训项目,免费提供在线课程和证书
  • 版权问题难解,OpenAI 被控非法使用图书数据训练 AI 系统
  • 微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
  • 中国电信公布 TeleChat 大模型,宣称将建立“百亿级 AI 服务商”
  • 方舟启航,火山引擎这波在“大气层”
  • 研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化
  • 配 2.2 万片英伟达 H100 GPU,Inflection AI 正开发超级计算机
  • ChatGPT 技术被滥用,绍兴警方侦破团伙制作虚假视频案
  • 匈牙利公司推出世界首款 AI 研发饮料,口味、包装均由 AI 完成
  • 最新资讯

    热门资讯