全流程昇腾平台训练,华为推出准万亿参数盘古 Ultra MoE 模型

全流程昇腾平台训练,华为推出准万亿参数盘古 Ultra MoE 模型

人工智能 2025-06-02 11:10:02 3天前

IT酷哥 5 月 30 日消息,华为今日推出参数规模高达 7180 亿的全新模型盘古 Ultra MoE,这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型。

据IT酷哥了解,盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构和 TinyInit 小初始化的方法,在昇腾平台上实现了超过 18TB 数据的长期稳定训练。

在训练方法上,华为团队首次披露在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术,使 RL 后训练进入超节点集群时代。

在 5 月初发布的预训练系统加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,进一步降低 Host-Bound 以及提升 EP 通信的掩盖;自适应管理内存优化策略的开发;数据重排实现 DP 间 Attention 负载均衡;以及昇腾亲和的算子优化,这些技术实现万卡集群预训练 MFU 由 30% 大幅提升至 41%。

IT酷哥附技术报告:点此前往及项目文件预览:点此前往

相关阅读:

《英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练》

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 警惕“AI 换脸”新骗局,中国互联网协会给出防范建议
  • 日本 NEC 社长:正独立开发生成式 AI,这是非常大的商机
  • 微软将 GitHub Copilot 与 Visual Studio 深度整合,用户可反向调教 AI 代码助手
  • OpenAI CEO:目前开源不是最佳路径,不会很快有 GPT-5
  • 360 智脑大模型应用发布会直播(视频)
  • 赛博礼拜?德国一教堂首次尝试用 ChatGPT 布道,300 多人排队一小时参与
  • 长城汽车申请 SPACEGPT 等商标,有望成为首批在车机终端引入 AI 智能助理的吃螃蟹者
  • 使用自然语言,纽约大学团队利用聊天机器人 ChatGPT 从零设计出微处理器
  • AI 作画工具 Midjourney 迎来 5.2 版本更新,可生成相机“变焦效果”
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • 微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
  • 2023 全球 AI 指数排名公布:美中稳居前二,亚洲国家表现亮眼
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 微软英伟达参投,OpenAI 竞争对手 Inflection AI 获 13 亿美元融资
  • Meta 将提高 AI 算法应用透明度,向用户提供详细说明和更多选择
  • 正版文心一言上架 App Store,百度此前起诉苹果“盗版 App 泛滥”
  • 北京出台机器人产业新政,支持 AI 大模型与机器人融合发展
  • 李开复创业大模型公司“零一万物”官网上线:致力于打造全新的 AI 2.0 平台
  • 方舟启航,火山引擎这波在“大气层”
  • “世界上最像人的机器人”Ameca 接入 Stable Diffusion 和 GPT-3,现场完成作画
  • 最新资讯

    热门资讯