DeepSeek R1 推理性能提升 3.8 倍，AMD 发布下一代开源软件栈技术 ROCm 7

DeepSeek R1 推理性能提升 3.8 倍，AMD 发布下一代开源软件栈技术 ROCm 7

人工智能 2025-06-16 20:44:11 8小时前

IT酷哥 6 月 13 日消息，在今日凌晨的AMD Advancing AI 2025 活动中，AMD 正式推出其下一代开源软件栈技术 ROCm 7，进一步加速 AI 与开发者生产力。

随着 ROCm 7 的发布，AMD 终于从其 ROCm 6 软件栈向前迈进，该软件栈在过去几年中 —— 尤其是在 AI 计算出现以来 —— 已经经历了多次更新。以下是 AMD 在 ROCm 7 中重点关注的一些功能：

最新算法与模型

用于扩展 AI 的高级功能

MI350 系列支持

集群管理

企业级功能

通过 ROCm，AMD 表示其正更加专注于其软件堆栈中日益增长的推理能力。ROCm 7 堆栈将包括增强型框架，如 vLLM v1、llm-d、SGLang，并专注于提供多种优化。即将到来的 ROCm 7 新内核和算法包括 GEMM 自动调优、MoE、Attention 和基于 Python 的内核编写。

AMD 已宣布对其 MI350 系列提供 FP6 和 FP4 支持，ROCm 7 也包含对这些高级数据类型的全面支持，如 FP8、FP6、FP4 和混合精度。

IT酷哥从发布会获悉，在性能方面，AMD 表示 ROCm 7 将推理作为重点，为 AI 工作负载带来了高达 3.5 倍的性能提升。

具体来看，相较于 ROCm 6，ROCm 7 的 Llama 3.1 70B 提升了 3.2 倍，Qwen2-72B 提升了 3.4 倍，DeepSeek R1 提升了 3.8 倍。

酷哥堆栈软件功能内核算法

相关阅读

Yseop 公司推出面向科学家的生成式 AI 助理 Yseop Copilot

中国电科发布生成式人工智能大模型“小可”，为党政企行业用户打造

套娃不可取：研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃

麦肯锡：到 2045 年左右，将有 50% 工作被 AI 接管

格莱美修订规则：只有“人类创作者”才有资格获奖

美国最大报业集团 Gannett 引入生成式人工智能，保留人类编辑的最终决定权

AI 朗读冲击有声读物市场，配音演员工作面临威胁

特斯拉创建 Tesla AI 推特账户，称下月开始生产 Dojo 超级计算机

宏碁、惠普、华硕等品牌发力 AI 笔记本市场，明年将带动新一波换机潮

日本起草针对学校的生成式 AI 使用指南，禁止学生用 ChatGPT 写作文

Dropbox 网盘推出 AI 搜索工具 Dropbox Dash：聚合多办公平台，可视化管理工作任务

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B，号称训练成本仅为竞品零头

中国联通发布鸿湖图文 AI 大模型 1.0，可实现以文生图、视频剪辑

Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

人工智能深度调查：用过 AI 工具的人并没想象的那么多

近 12 年由 AI 造成的事故暴涨 15 倍，Facebook、特斯拉、OpenAI 位居总量前三

中国电信公布 TeleChat 大模型，宣称将建立“百亿级 AI 服务商”

正版文心一言上架 App Store，百度此前起诉苹果“盗版 App 泛滥”

Pixela 推出 ChatGPT 翻译 App：支持中日英韩互译，限时免费上架 Google Play

MetaGPT AI 模型开源：可模拟软件公司开发过程，生成高质量代码