全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型

全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型

人工智能 2025-06-02 11:10:02 3天前

IT酷哥 5 月 30 日消息，华为今日推出参数规模高达 7180 亿的全新模型盘古 Ultra MoE，这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型。

据IT酷哥了解，盘古团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾平台上实现了超过 18TB 数据的长期稳定训练。

在训练方法上，华为团队首次披露在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习（RL）后训练框架的关键技术，使 RL 后训练进入超节点集群时代。

在 5 月初发布的预训练系统加速技术基础上，在不到一个月的时间内，华为团队又完成了一轮迭代升级，包括：适配昇腾硬件的自适应流水掩盖策略，进一步优化算子执行序，进一步降低 Host-Bound 以及提升 EP 通信的掩盖；自适应管理内存优化策略的开发；数据重排实现 DP 间 Attention 负载均衡；以及昇腾亲和的算子优化，这些技术实现万卡集群预训练 MFU 由 30% 大幅提升至 41%。

IT酷哥附技术报告：点此前往及项目文件预览：点此前往

相关阅读：

《英伟达含量为零：华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1，纯昇腾集群训练》

华为盘古集群算子点此

相关阅读

警惕“AI 换脸”新骗局，中国互联网协会给出防范建议

日本 NEC 社长：正独立开发生成式 AI，这是非常大的商机

微软将 GitHub Copilot 与 Visual Studio 深度整合，用户可反向调教 AI 代码助手

OpenAI CEO：目前开源不是最佳路径，不会很快有 GPT-5

360 智脑大模型应用发布会直播（视频）

赛博礼拜？德国一教堂首次尝试用 ChatGPT 布道，300 多人排队一小时参与

长城汽车申请 SPACEGPT 等商标，有望成为首批在车机终端引入 AI 智能助理的吃螃蟹者

使用自然语言，纽约大学团队利用聊天机器人 ChatGPT 从零设计出微处理器

AI 作画工具 Midjourney 迎来 5.2 版本更新，可生成相机“变焦效果”

中国联通发布鸿湖图文 AI 大模型 1.0，可实现以文生图、视频剪辑

微软推出 ZeRO++ 技术，可显著减少 AI 大模型训练时间和成本

2023 全球 AI 指数排名公布：美中稳居前二，亚洲国家表现亮眼

近 12 年由 AI 造成的事故暴涨 15 倍，Facebook、特斯拉、OpenAI 位居总量前三

微软英伟达参投，OpenAI 竞争对手 Inflection AI 获 13 亿美元融资

Meta 将提高 AI 算法应用透明度，向用户提供详细说明和更多选择

正版文心一言上架 App Store，百度此前起诉苹果“盗版 App 泛滥”

北京出台机器人产业新政，支持 AI 大模型与机器人融合发展

李开复创业大模型公司“零一万物”官网上线：致力于打造全新的 AI 2.0 平台

方舟启航，火山引擎这波在“大气层”

“世界上最像人的机器人”Ameca 接入 Stable Diffusion 和 GPT-3，现场完成作画