字节 Seed 开源统一多模态理解和生成模型 BAGEL

字节 Seed 开源统一多模态理解和生成模型 BAGEL

人工智能 2025-06-04 16:03:05 2天前

IT酷哥 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。

BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了与专业生成器如 SD3 竞争的文本到图像质量。

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。

▲混合输入-混合输出

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。

▲BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。

▲基于同一人物形象进行图像编辑

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。

▲BAGEL 实现多种风格迁移

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。

▲图片剪切-智能编辑-场景转换-风格转换组合功能

IT酷哥附 BAGEL 开源地址:

官网及体验入口:

https://seed.bytedance.com/bagel

GitHub 代码:

https://github.com/bytedance-seed/BAGEL

模型权重:

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

研究论文:

https://arxiv.org/pdf/2505.14683

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 王小川创立的百川智能发布中英文大模型:采用开源模式,可免费商用
  • 必应聊天周报:iOS 端引入小组件、为语音聊天扩展语言支持
  • 长城汽车申请 SPACEGPT 等商标,有望成为首批在车机终端引入 AI 智能助理的吃螃蟹者
  • 印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
  • 美国安全公司发现两款仿冒 ChatGPT 恶意应用,提醒用户暂无官方安卓客户端
  • 阿里、腾讯、字节、美团内部算法名单公开,网信办发布深度合成服务备案信息
  • DeepMind 联合创始人提出新的图灵测试:让 AI 将 10 万美元变成 100 万美元
  • 软银 CEO 孙正义宣布策略调整:AI 革命正在爆发,公司将“转守为攻”
  • 丰田推出生成式 AI 工具:输入文字指令可自动设计汽车外形,并符合工程学需求
  • 英特尔研究院发布全新 AI 扩散模型,可根据文本提示生成 360 度全景图
  • YouTube 测试 Aloud 人工智能配音功能,可将视频转述为不同语言
  • AI 作画工具 Midjourney 迎来 5.2 版本更新,可生成相机“变焦效果”
  • iOS 版 ChatGPT 集成必应搜索功能,仅限付费订阅者使用
  • 为防止泄密,美国国会明确要求职员仅可使用付费版 ChatGPT
  • 微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
  • 警用 AI 助手到来,美亚柏科发布国内首个公共安全大模型“天擎”
  • 调查发现 20% 的男性使用 ChatGPT 等 AI 工具“美化”约会资料,提高交流技巧
  • 微软英伟达参投,OpenAI 竞争对手 Inflection AI 获 13 亿美元融资
  • 正版文心一言上架 App Store,百度此前起诉苹果“盗版 App 泛滥”
  • 谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型
  • 最新资讯

    热门资讯