微软发布 DragonV2.1 模型：AI 转录语音更自然，单词错误率平均下降 12.8%、支持合成超 100 种语言

微软发布 DragonV2.1 模型：AI 转录语音更自然，单词错误率平均下降 12.8%、支持合成超 100 种语言

人工智能 2025-08-02 10:06:02 10小时前

IT酷哥 7 月 31 日消息，科技媒体 NeoWin 今天（7 月 31 日）发布博文，报道称微软推出了 DragonV2.1Neural 零次学习（Zero-Shot Learning）模型，仅凭少量数据就能创建更加自然、表现力强的声音，并支持超过 100 种语言。

IT酷哥援引博文介绍，这是一种零次学习的文本到语音（TTS）模型，承诺提供更加自然和富有表现力的声音，并提高了发音的准确性以及增强了可控性。

新模型仅需几秒钟的语音样本即可合成超过 100 种语言的语音。相比之下，之前的 DragonV1 模型在处理专有名词时存在发音问题。DragonV2.1 模型可以应用于多种不同场景，包括定制聊天机器人声音和为视频内容跨多语言配音。

微软表示，DragonV2.1 提高发音准确性，与 DragonV1 相比，该模型单词错误率（WER）平均降低了 12.8%。

该模型还提升了声音的自然度，用户使用此模型时，可以利用 SSML 音素标签和自定义词典对发音和口音进行细致控制。为了帮助用户入门，微软构建了 Andrew、Ava 和 Brian 等多个声音档案，供用户测试。

模型发音声音微软语音

相关阅读

家乐福推出采用 GPT-4 模型的 Hopla 购物资讯机器人，可一键规划预算、设计食谱

支持普通话，桌面端 Bing Chat 新增语音聊天方式

讯飞星火大模型升级 V1.5 发布：开放式问答取得突破，多轮对话、逻辑和数学能力再升级

日本学校探索引入 AI 和无人机：提高安保效率，节省劳动力

套娃不可取：研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃

日本音乐作家团体联合会发表声明，要求政府立即组织 AI 监管讨论并邀请创作者参与

消息称东盟正起草 AI 监管法案：新加坡牵头，最快今年底完成

普林斯顿大学推出 Infinigen AI 模型，可生成真实自然环境 3D 场景

印象笔记开放旗下“印象 AI”，可一键生成思维导图、写文章等

长虹电视 AI 大模型“长虹超脑”发布：三大核心能力，可连续自然对话

京东 AI 大模型官宣 7 月 13 日发布：新上任 CEO 许冉演讲，还有重磅合作

AI 模型 Stable Diffusion 升级：正常生成五指、图像更逼真

日本起草针对学校的生成式 AI 使用指南，禁止学生用 ChatGPT 写作文

AI 图像编辑技术 DragGAN 开源，拖动鼠标即可将狮子 P 转头

英科智能推出 AI 设计的罕见病特效药，已在中美同时启动人体临床试验

英伟达联手 Snowflake：卖出更多芯片，帮助企业客户建立自己的 AI 模型

微软推出 ZeRO++ 技术，可显著减少 AI 大模型训练时间和成本

警用 AI 助手到来，美亚柏科发布国内首个公共安全大模型“天擎”

中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”：无人工干预，性能堪比 486

谷歌更新隐私政策规定，可使用互联网上的公开信息训练 AI 模型