微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本

微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本

人工智能 2023-06-30 22:06:03 1年以前

IT酷哥 6 月 27 日消息,微软研究人员日前推出了名为 ZeRO++ 的新技术,用于优化在训练大型 AI 模型时,容易遇到的数据传输成本和带宽限制的难题,可显著减少大模型训练时间和成本。

据悉,ZeRO++ 建立在现有的 ZeRO 传输技术基础上,并提供增强的通信策略,可提高训练效率,同时减少训练时间和成本。

▲ 图源 微软

为了减少参数通信量,ZeRO++ 可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始 Zero 传输技术更快更准确。为了能够尽量减少通信开销,ZeRO++ 通过在每台机器上保持完整的模型副本,以向 GPU 显存换取通信带宽。而在梯度通信方面,ZeRO++ 引入了一种名为 qgZ 的新的量化梯度通信方式,可以减少跨节点的流量和延迟。

▲ 图源 微软

这些改进的通信技术大大减少了通信量,微软研究人员表示,与 ZeRO 相比,ZeRO++ 减少了高达 4 倍的通信量,提高了训练吞吐量和效率。当在每个 GPU 上使用小批量大小时,在高带宽集群中,ZeRO++ 相比 ZeRO-3 的吞吐量提高了 28% 至 36%。在低带宽集群中,与 ZeRO-3 相比,ZeRO++ 实现了平均 2 倍的加速,使得大模型训练在更多种类的集群上更为可行。

IT酷哥注:IT酷哥注意到,例如 Turing-NLG、ChatGPT 和 GPT-4 这样的大型模型,其训练需要跨多个 GPU 设备占用大量显存和计算资源,而 ZeRO++ 引入了通信优化策略,以克服在低带宽集群上进行训练时原有 ZeRO 传输技术的带宽限制。目前微软已经放出了相关技术文档,研究人员可以利用 ZeRO++ 更有效地训练模型,在 AI 领域探索新的可能性。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 消息称字节跳动正内部测试 AI 对话类产品,代号“Grace”
  • 日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
  • AMD:Meta 正采用其云芯片支持新人工智能战略
  • 360 发布 AI 数字人广场,可同孙悟空、爱因斯坦等古今中外人物角色对话
  • 报告称 70% 程序员已使用各种 AI 工具编程
  • 美国最大报业集团 Gannett 引入生成式人工智能,保留人类编辑的最终决定权
  • 普林斯顿大学推出 Infinigen AI 模型,可生成真实自然环境 3D 场景
  • 软银 CEO 孙正义宣布策略调整:AI 革命正在爆发,公司将“转守为攻”
  • YouTube 测试 Aloud 人工智能配音功能,可将视频转述为不同语言
  • Stability AI 推出文字生成图片模型 SDXL 0.9,硬件要求下探至消费级 GPU 水平
  • AI 图像编辑技术 DragGAN 开源,拖动鼠标即可将狮子 P 转头
  • 外媒提议更新开源许可证:摆脱 80 年代束缚,应对当下人工智能时代
  • 日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
  • 刚合作就解约,Unity 剔除一家销售盗用资源的 AI 合作伙伴
  • 北京出台机器人产业新政,支持 AI 大模型与机器人融合发展
  • ChatGPT 又陷版权风波:两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练
  • MDN Web 文档项目引入生成式 AI 后遭到开发者广泛差评
  • 中国工程院院士高文:将打造 2000 亿参数自然语言大模型底座,性能对标 ChatGPT
  • 上半年全球风险投资额缩水近半,超 400 亿美元流向 AI 初创公司
  • 微软大中华区董事长侯阳:今后每一家公司的每一个应用程序都将由 AI 来驱动
  • 最新资讯

    热门资讯