英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

人工智能 2025-06-08 08:03:05 1天前

IT酷哥 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景简介

推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。

强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。

然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。

此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。

ProRL 方法的突破与应用

英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。

他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

这是全球最佳的 1.5B 参数推理模型,在多项基准测试中超越基础模型 DeepSeek-R1-1.5B,甚至优于更大的 DeepSeek-R1-7B。

测试结果显示,该模型在数学领域平均提升 15.7%,编程任务 pass@1 准确率提升 14.4%,STEM 推理和指令遵循分别提升 25.9% 和 22.0%,逻辑谜题奖励值提升 54.8%,展现出强大的泛化能力。

IT酷哥附上参考地址

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

huggingface

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 市场人士:英伟达 AI GPU 需求量飙升,代工厂台积电已开足马力生产
  • 网友“调戏” ChatGPT 让其“抓狂”:要求重复输出某个字母,会生成各种奇怪回复
  • 谷歌搜索集成 AI 功能,被吐槽速度慢、回答冗长
  • 美国心理学会:经常接触 AI 的员工更容易孤独,增加疾病风险
  • 长城汽车申请 SPACEGPT 等商标,有望成为首批在车机终端引入 AI 智能助理的吃螃蟹者
  • OpenAI CTO 揭晓 ChatGPT 内幕,原本只是一个研究示范项目
  • 软银 CEO 孙正义称每天都会使用 ChatGPT,是生成式 AI 服务的“忠实用户”
  • 京东 AI 大模型官宣 7 月 13 日发布:新上任 CEO 许冉演讲,还有重磅合作
  • AI 入局世界网球温布顿锦标赛,可分析赢球概率及生成球评
  • 特斯拉人形机器人将于 7 月亮相上海 2023 世界人工智能大会
  • 微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
  • 刚合作就解约,Unity 剔除一家销售盗用资源的 AI 合作伙伴
  • 微软必应聊天周报:改善体育相关话题、向 Skype 开放图片生成工具
  • “世界上最像人的机器人”Ameca 接入 Stable Diffusion 和 GPT-3,现场完成作画
  • ChatGPT 的 Bing 浏览功能让用户免费阅读付费内容,OpenAI 暂停测试
  • 亚马逊 Kindle 自助出版功能被滥用,AI 生成的书籍泛滥
  • 格莱美 CEO 解释 AI 新规:愿意接纳新技术,包含 AI 要素作品也可获提名
  • WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载
  • 奔驰正在车辆生产中测试 ChatGPT,进行质量管理和流程优化等活动
  • 小冰 CEO 李笛:马斯克呼吁停止研发 AI 大模型,可能是想给自己争取更多时间
  • 最新资讯

    热门资讯