百度发布自研视频生成模型 MuseSteamer：一张图即可生成电影级高清有声视频

百度发布自研视频生成模型 MuseSteamer：一张图即可生成电影级高清有声视频

人工智能 2025-07-04 15:07:05 8小时前

IT酷哥 7 月 2 日消息，百度商业研发团队发布自研视频生成模型“MuseSteamer”及创作平台“绘想”，MuseSteamer 是全球首个实现中文音视频一体化生成的视频模型。该技术可实现画面与音效、人声台词的协同创作，打破传统 AIGC 视频“先画面后配音”的割裂流程。

据悉，MuseSteamer 在权威榜单 VBench I2V 中以 89.38% 总分登顶全球第一，支持一张图生成 10 秒 1080p 电影级画质视频，人物微表情与运镜效果达专业影视水准。其核心能力源于亿级中文多模态数据清洗、精细化视频结构化描述语言，以及多目标强化学习等技术优化。

据IT酷哥了解，MuseSteamer 模型家族包含 Turbo、Lite、Pro 及全系列有声版，覆盖从普通创作者到专业影视机构的需求。其中 Turbo 版已上线绘想平台开启限时免费公测，其余版本将于 8 月陆续开放。平台同步启动“跨次元捏合”AI 视频创作大赛，用户通过单图输入可生成动态捏捏乐视频进行参赛。

视频模型化生中文平台

相关阅读

英伟达黄仁勋：生成式 AI 彻底改变电脑架构，显卡将远比 CPU 重要

欧盟官员将于 6 月会见 OpenAI CEO：讨论人工智能法规

Meta 首席 AI 科学家杨立昆：AI 智力连狗都不如，不应将其视作威胁

马斯克称没人会真暂停开发 AI ，呼吁只是为提醒大家注意

日本神户开始验证市政 AI 化效果：自动规划巡逻路线，减少犯罪发生

Meta 发布 Voicebox AI 模型：可生成音频回复信息，用于 NPC 对话等

丰田推出生成式 AI 工具：输入文字指令可自动设计汽车外形，并符合工程学需求

英特尔研究院发布全新 AI 扩散模型，可根据文本提示生成 360 度全景图

美图秀秀发布七款 AI 工具：修图一样修视频、打造电影级上镜脸

开源模型 PrivateGPT 上线，可本地搭建、避免信息外泄

英伟达赚翻了，甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务

外媒提议更新开源许可证：摆脱 80 年代束缚，应对当下人工智能时代

微软推出 ZeRO++ 技术，可显著减少 AI 大模型训练时间和成本

特斯拉人形机器人将于 7 月亮相上海 2023 世界人工智能大会

中国团队推出脑电图图像生成模型 DreamDiffusion，清华、腾讯参与研究

OpenAI 组建新团队，以解决控制超智能 AI 的核心技术挑战

精准度可提高 20%：英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对诈骗

科大讯飞：讯飞医疗基于星火大模型升级医疗诊后康复管理平台，出院患者满意度 98% 以上

腾讯多媒体实验室发布自研 AI 作曲框架 XMusic，不通音律也能帮你“自动作曲”

达观数据“曹植”大模型开放公测，支持多类型、复杂结构的长文本写作