阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

人工智能 2025-07-07 09:05:05 1天前

IT酷哥 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。

ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5%的人工抽样校验,层层把关以保障数据集的整体质量。

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。

IT酷哥附开源地址:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析
  • 全球最大资产管理公司 CEO:人工智能可能是一种抑制通货膨胀的技术
  • 美国最大报业集团 Gannett 引入生成式人工智能,保留人类编辑的最终决定权
  • 美国安全公司发现两款仿冒 ChatGPT 恶意应用,提醒用户暂无官方安卓客户端
  • 网友“欺骗”ChatGPT 生成 Win10、Win11 密钥,马斯克调侃:真适合做睡前读物
  • 阿里、腾讯、字节、美团内部算法名单公开,网信办发布深度合成服务备案信息
  • 长虹电视 AI 大模型“长虹超脑”发布:三大核心能力,可连续自然对话
  • 语音生成 AI 初创公司 ElevenLabs 发布合成语音检测工具,号称准确率超过 99%
  • 谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini,号称“比 GPT-4 强”
  • 英伟达联手 Snowflake:卖出更多芯片,帮助企业客户建立自己的 AI 模型
  • 混合 AI 时代将至,这是你从未有过的全新体验
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
  • 调查发现 20% 的男性使用 ChatGPT 等 AI 工具“美化”约会资料,提高交流技巧
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • Meta 将提高 AI 算法应用透明度,向用户提供详细说明和更多选择
  • 刚合作就解约,Unity 剔除一家销售盗用资源的 AI 合作伙伴
  • “商汤如影 SenseAvatar” 数字人视频生成平台上线,支持定制形象、声音克隆、创作视频等功能
  • 李开复创业大模型公司“零一万物”官网上线:致力于打造全新的 AI 2.0 平台
  • AI 作画工具 Midjourney 推出“pan”功能,可上下左右平移扩展图片外场景
  • 最新资讯

    热门资讯