昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

IT资讯 2025-07-31 18:10:10 1天前

随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾 AI 基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。

针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架 LIGER,实现了历史提示和视觉记忆机制,以及基于 DDIM 反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。

在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现 8 倍加速。

该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议 ICLR 2025,获得国际学术界的高度认可。项目构建的包含 569 个任务的评估数据集,为后续研究提供了重要基准。

未来,浙江大学鲲鹏昇腾科教创新卓越中心将依托昇腾 AI 基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 华为马海旭: 着眼未来, 共筑东数西算数字基础设施
  • 支付宝上线蚂蚁森林活力值活动,可兑换多种道具
  • 微星笔记本 618 大促至高直降 5000 元,泰坦 GP78 HX 爆款配置 10999 拿下
  • 天涯社区被列为经营异常,上亿股权被冻结
  • 猿辅导入局智能硬件推出“小猿学练机”:封闭式系统、电子手写笔,首发价 3899 元
  • 苹果曾考虑推出多彩 AirPods 耳机充电仓,被砍掉的初代原型机曝光
  • 索尼 PS Plus 六月会免游戏公布,《NBA 2K23》等三款
  • 内存占用少 50%、安装速度提高 3 倍,年底前 Win10、Win11 平台默认改用 Teams 2.0
  • 提现需数周,苹果版“余额宝”业务遭用户吐槽
  • 千锤百炼:浪潮信息 NVH 降噪黑科技 纳米级雕琢让性能翻倍
  • 东风本田 20 周年购车节:HR-V 现金补贴 1 万元,思域家族购置税减半
  • 全球首家!新华三率先通过“IPv6+Ready 2.0 & SRv6 Ready”认证
  • 奥田集成灶的质量真的值得信赖,不愧是老品牌
  • 中科院与腾讯申请的 AI 心理咨询专利获授权
  • 现场直击:金百泽科技布局成渝地区双城经济圈, 助力打造西南创新产业集群
  • 分析称苹果 Vision Pro 头显将为索尼和其他亚洲 VR / AR 供应商带来新机遇
  • 错失大涨后,公募基金和对冲基金快速增持英伟达股票
  • 科大讯飞:明日发布星火认知 AI 大模型 V1.5,同步上线配套 App
  • 敦煌网集团助力长三角跨境商家掘金红人经济新蓝海
  • 这个 618,入手一台画质可感知的好电视
  • 最新资讯

    热门资讯