英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍

英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍

人工智能 2025-06-04 16:14:03 2天前

IT酷哥 6 月 3 日消息,科技媒体 marktechpost 昨日(6 月 2 日)发布博文,报道称英伟达联合麻省理工学院(MIT)、香港大学,合作推出 Fast-dLLM 框架,大幅提升扩散模型(Diffusion-based LLMs)的推理速度。

扩散模型被认为是传统自回归模型(Autoregressive Models)的有力竞争者,采用双向注意力机制(Bidirectional Attention Mechanisms),理论上能通过同步生成多个词元(Multi-token Generation)加速解码过程。

不过在实际应用中,扩散模型的推理速度往往无法媲美自回归模型,每次生成步骤都需要重复计算全部注意力状态,导致计算成本高昂。此外,多词元同步解码时,词元间的依赖关系易被破坏,生成质量下降,让其难以满足实际需求。

IT酷哥援引博文介绍,英伟达组建的联合团队为解决上述瓶颈,研发了 Fast-dLLM 框架。该框架引入两大创新:块状近似 KV 缓存机制和置信度感知并行解码策略。

KV 缓存通过将序列划分为块(Blocks),预计算并存储其他块的激活值(KV Activations),在后续解码中重复利用,显著减少计算冗余。其 DualCache 版本进一步缓存前后缀词元(Prefix and Suffix Tokens),利用相邻推理步骤的高相似性提升效率。

而置信度解码则根据设定的阈值(Confidence Threshold),选择性解码高置信度的词元,避免同步采样带来的依赖冲突,确保生成质量。

Fast-dLLM 在多项基准测试中展现了惊人表现。在 GSM8K 数据集上,生成长度为 1024 词元时,其 8-shot 配置下实现了 27.6 倍加速,准确率达 76.0%;在 MATH 基准测试中,加速倍数为 6.5 倍,准确率约为 39.3%;在 HumanEval 和 MBPP 测试中,分别实现了 3.2 倍和 7.8 倍加速,准确率维持在 54.3% 和基线水平附近。

整体来看,Fast-dLLM 在加速的同时,准确率仅下降 1-2 个百分点,证明其有效平衡速度与质量。这项研究通过解决推理效率和解码质量问题,让扩散模型在实际语言生成任务中具备了与自回归模型竞争的实力,为未来广泛应用奠定了基础。

IT酷哥附上参考地址

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding论文

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding项目界面

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 网易云音乐和小冰联合推出 AI 歌手音乐创作软件,首发内置 12 名 AI 歌手
  • 谷歌 AI 机器人培训者揭露黑幕:抱怨工资低、时间赶之后被开除
  • 行业首家,长虹电视 AI 大模型“长虹超脑”开启公测
  • 消息称东盟正起草 AI 监管法案:新加坡牵头,最快今年底完成
  • 格莱美修订规则:只有“人类创作者”才有资格获奖
  • 普林斯顿大学推出 Infinigen AI 模型,可生成真实自然环境 3D 场景
  • 腾讯首次披露行业大模型进展:不追求参数高,希望成本预算可控
  • 科学家利用 AI 识别热门歌曲,准确率高达 97%
  • Opera 向桌面和安卓用户开放浏览器 AI“Aria”
  • 日本起草针对学校的生成式 AI 使用指南,禁止学生用 ChatGPT 写作文
  • 美国商务部宣布成立 AI 公共工作组,应对生成式人工智能潜在风险
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • 微软用 AI 缩短癌症放疗时间:扫描速度提高 2.5 倍,准确率达 90%
  • 谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini,号称“比 GPT-4 强”
  • 混合 AI 时代将至,这是你从未有过的全新体验
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
  • 微软英伟达参投,OpenAI 竞争对手 Inflection AI 获 13 亿美元融资
  • “商汤如影 SenseAvatar” 数字人视频生成平台上线,支持定制形象、声音克隆、创作视频等功能
  • 中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”:无人工干预,性能堪比 486
  • 最新资讯

    热门资讯