解锁任意模态 AI 模型训练,字节跳动 Seed 开源 VeOmni 框架

解锁任意模态 AI 模型训练,字节跳动 Seed 开源 VeOmni 框架

人工智能 2025-08-16 15:13:05 11小时前

IT酷哥 8 月 14 日消息,字节跳动 Seed 团队今日发布并开源了全模态 PyTorch 原生训练框架 ——VeOmni。

近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的“全模态”(Omni-Modal)理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型,依然面临着系统性的工程挑战。

字节跳动介绍称,VeOmni 采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。

此前,使用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于 Infra 工程团队的经验积累。而使用 VeOmni 只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩 90% 以上。

实验结果表明,基于 VeOmni 框架,一个 300 亿参数的全模态 MoE 模型(支持文本、语音、图片、视频的理解和生成),在 128 张卡上训练吞吐量可超过 2800 tokens / sec / GPU,并能轻松扩展至 160K 超长上下文序列。

目前,VeOmni 的相关论文和代码仓库均已对外公开,GitHub Star 数超过 500。IT酷哥附开源地址:

arXiv:https://arxiv.org/pdf/2508.02317

GitHub:https://github.com/ByteDance-Seed/VeOmni

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 百度智能云:文心一言高性能模式推理性能已提升 50 倍
  • Meta 展示自研生成式 AI 工具,一句话搞定修图、聊天表情
  • 新华三发布私域大模型“百业灵犀”LinSeer,针对政企客户
  • 可按用户语气自动回复消息,在线会议软件 Zoom 推出基于生成式 AI 的新功能
  • 赛博手冢治虫:GPT-4 将参与漫画《怪医黑杰克》续作创作过程
  • 英特尔研究院发布全新 AI 扩散模型,可根据文本提示生成 360 度全景图
  • 日本起草针对学校的生成式 AI 使用指南,禁止学生用 ChatGPT 写作文
  • AI 图像编辑技术 DragGAN 开源,拖动鼠标即可将狮子 P 转头
  • 为防止泄密,美国国会明确要求职员仅可使用付费版 ChatGPT
  • 美国银行分析师:聊天机器人中 ChatGPT 占据最大优势,过半用户会为其付费服务买单
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
  • 中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”:无人工干预,性能堪比 486
  • 联合国将招募数十个机器人,协助完成 2030 可持续发展目标
  • 丁磊:当前网易的首要任务是用最快的速度探索 AI 大模型的创新应用
  • 格莱美 CEO 解释 AI 新规:愿意接纳新技术,包含 AI 要素作品也可获提名
  • 热度过去用户兴趣降低:数据显示 ChatGPT 流量在 6 月首次出现下降
  • 陈天桥再投 10 亿元支持 AI 脑科学,筹建睡眠梦境、抗衰老等前沿实验室
  • 华为宣布联合 26 家企业启动昇腾 AI 大模型联合创新,已建成业界首个万卡 AI 集群
  • 下一代“世界最快”超级计算机 El Capitan 开始安装 AMD Instinct MI300 人工智能 GPU
  • 最新资讯

    热门资讯