Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像

Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像

人工智能 2025-04-28 19:00:02 2天前

IT酷哥 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称 Meta AI 创新推出 Token-Shuffle,目标解决自回归(Autoregressive,AR)模型在生成高分辨率图像方面的扩展难题。

IT酷哥注:自回归模型是一种用于时间序列分析的统计方法,主要用于预测数据序列中的未来值。该模型的核心思想是当前的值与过去的值之间存在线性关系,因此可以用变量自身的历史数据来预测当前或未来的值。

在语言生成方面,自回归模型大放异彩,近年来也被广泛探索用于图像合成,然而在面对高分辨率图像时,AR 模型遭遇瓶颈。

不同于文本生成仅需少量 token,图像合成中高分辨率图片往往需要数千个 token,计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像,限制了其在精细图像生成中的应用。

尽管扩散模型(Diffusion Models)在高分辨率上表现强劲,但其复杂的采样过程和较慢的推理速度也存在局限。

Token-Shuffle 的核心机制与优势

Meta AI 推出的 Token-Shuffle 方法直击 token 效率问题。它通过识别多模态大语言模型(MLLMs)中视觉词汇的维度冗余,提出了一种创新策略:在 Transformer 处理前,将空间上相邻的视觉 token 沿通道维度合并,推理后再恢复原始空间结构。

这种 token 融合机制大幅降低了计算成本,在保持视觉质量的同时,让自回归模型能够高效处理最高 2048×2048 分辨率的图像。Token-Shuffle 无需改动 Transformer 架构,也无需额外预训练编码器,操作简单且兼容性强。

具体而言,Token-Shuffle 包含 token-shuffle 和 token-unshuffle 两个步骤。输入准备阶段,空间相邻 token 通过 MLP(多层感知机)压缩为单个 token,减少 token 数量。

以窗口大小 s 为例,token 数量可减少 s² 分之一,显著降低 Transformer 的计算量(FLOPs)。此外,该方法还引入了针对自回归生成的 classifier-free guidance(CFG)调度器,动态调整引导强度,优化文本-图像对齐效果。

实验成果与未来潜力

Token-Shuffle 在 GenAI-Bench 和 GenEval 两大基准测试中展现了强大实力。在 GenAI-Bench 上,基于 2.7B 参数的 LLaMA 模型,Token-Shuffle 在“困难”提示下取得 VQAScore 0.77,超越其他 AR 模型如 LlamaGen(+0.18)和扩散模型 LDM(+0.15)。

在 GenEval 中,其综合得分为 0.62,为 AR 模型树立了新标杆。用户评估也显示,尽管在逻辑一致性上略逊于扩散模型,但 Token-Shuffle 在文本对齐、图像质量上优于 LlamaGen 和 Lumina-mGPT。

IT酷哥附上参考地址

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 成都拟发布促进 AI 产业发展新政策,最高奖励 1000 万元
  • OpenAI CEO :OpenAI 还没有开始训练 GPT-5 大模型
  • AMD:Meta 正采用其云芯片支持新人工智能战略
  • 讯飞星火 App 上线苹果 iOS 平台:搭载 V1.5 认知大模型,须获取内测资格后使用
  • 王小川创立的百川智能发布中英文大模型:采用开源模式,可免费商用
  • 腾讯宣布打造行业大模型精选商店,提供一站式服务
  • 京东 AI 大模型官宣 7 月 13 日发布:新上任 CEO 许冉演讲,还有重磅合作
  • AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头
  • 复旦大学与阿里巴巴达成全面战略合作,共享 AI 大模型底层能力
  • 微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
  • 微软推出生成式 AI 培训项目,免费提供在线课程和证书
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
  • 刚合作就解约,Unity 剔除一家销售盗用资源的 AI 合作伙伴
  • 北京出台机器人产业新政,支持 AI 大模型与机器人融合发展
  • 李开复创业大模型公司“零一万物”官网上线:致力于打造全新的 AI 2.0 平台
  • 匈牙利公司推出世界首款 AI 研发饮料,口味、包装均由 AI 完成
  • 亚马逊 Kindle 自助出版功能被滥用,AI 生成的书籍泛滥
  • 奔驰正在车辆生产中测试 ChatGPT,进行质量管理和流程优化等活动
  • 遇版权纠纷可获全额补偿:Adobe 及 Shutterstock 宣布将为平台 AI 图片负责
  • 最新资讯

    热门资讯