微软发布 DragonV2.1 模型:AI 转录语音更自然,单词错误率平均下降 12.8%、支持合成超 100 种语言

微软发布 DragonV2.1 模型:AI 转录语音更自然,单词错误率平均下降 12.8%、支持合成超 100 种语言

人工智能 2025-08-02 10:06:02 10小时前

IT酷哥 7 月 31 日消息,科技媒体 NeoWin 今天(7 月 31 日)发布博文,报道称微软推出了 DragonV2.1Neural 零次学习(Zero-Shot Learning)模型,仅凭少量数据就能创建更加自然、表现力强的声音,并支持超过 100 种语言。

IT酷哥援引博文介绍,这是一种零次学习的文本到语音(TTS)模型,承诺提供更加自然和富有表现力的声音,并提高了发音的准确性以及增强了可控性。

新模型仅需几秒钟的语音样本即可合成超过 100 种语言的语音。相比之下,之前的 DragonV1 模型在处理专有名词时存在发音问题。DragonV2.1 模型可以应用于多种不同场景,包括定制聊天机器人声音和为视频内容跨多语言配音。

微软表示,DragonV2.1 提高发音准确性,与 DragonV1 相比,该模型单词错误率(WER)平均降低了 12.8%。

该模型还提升了声音的自然度,用户使用此模型时,可以利用 SSML 音素标签和自定义词典对发音和口音进行细致控制。为了帮助用户入门,微软构建了 Andrew、Ava 和 Brian 等多个声音档案,供用户测试。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 家乐福推出采用 GPT-4 模型的 Hopla 购物资讯机器人 ,可一键规划预算、设计食谱
  • 支持普通话,桌面端 Bing Chat 新增语音聊天方式
  • 讯飞星火大模型升级 V1.5 发布:开放式问答取得突破,多轮对话、逻辑和数学能力再升级
  • 日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
  • 套娃不可取:研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃
  • 日本音乐作家团体联合会发表声明,要求政府立即组织 AI 监管讨论并邀请创作者参与
  • 消息称东盟正起草 AI 监管法案:新加坡牵头,最快今年底完成
  • 普林斯顿大学推出 Infinigen AI 模型,可生成真实自然环境 3D 场景
  • 印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
  • 长虹电视 AI 大模型“长虹超脑”发布:三大核心能力,可连续自然对话
  • 京东 AI 大模型官宣 7 月 13 日发布:新上任 CEO 许冉演讲,还有重磅合作
  • AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
  • 日本起草针对学校的生成式 AI 使用指南,禁止学生用 ChatGPT 写作文
  • AI 图像编辑技术 DragGAN 开源,拖动鼠标即可将狮子 P 转头
  • 英科智能推出 AI 设计的罕见病特效药,已在中美同时启动人体临床试验
  • 英伟达联手 Snowflake:卖出更多芯片,帮助企业客户建立自己的 AI 模型
  • 微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
  • 警用 AI 助手到来,美亚柏科发布国内首个公共安全大模型“天擎”
  • 中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”:无人工干预,性能堪比 486
  • 谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型
  • 最新资讯

    热门资讯