小米声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

小米声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

人工智能 2025-08-06 08:12:06 3小时前

IT酷哥 8 月 4 日消息,小米自研声音理解大模型 MiDashengLM-7B 今日正式发布,并全量开源。

据小米官方介绍,MiDashengLM-7B 速度精度上实现双突破:单样本首 Token 延迟仅为同类模型 1/4、同显存下并发超 20 倍,在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA)。

MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。

2024 年,小米发布的 Xiaomi Dasheng 声音基座模型在国际上首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 环境声、语音、音乐三大领域建立领先优势并保持至今。

Xiaomi Dasheng 在小米的智能家居和汽车座舱等场景有超过 30 项落地应用。行业首发的车外唤醒防御、手机音箱全天候监控异常声音、“打个响指”环境音关联 IoT 控制能力,以及小米 YU7 上搭载的增强哨兵模式划车检测等,背后都有 Xiaomi Dasheng 作为核心算法的赋能。

MiDashengLM 的训练数据由 100% 的公开数据构成,模型以宽松的 Apache License 2.0 发布,同时支持学术和商业应用。

小米表示,不同于 Qwen2.5-Omni 等未公开训练数据细节的模型,MiDashengLM 完整公开了 77 个数据源的详细配比,技术报告中详细介绍了从音频编码器预训练到指令微调的全流程。

作为小米“人车家全生态”战略的关键技术,MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

基于 MiDashengLM 的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈,比如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又比如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上,小米已着手对该模型做计算效率的进一步升级,寻求终端设备上可离线部署,并完善基于用户自然语言提示的声音编辑等更全面的功能。

IT酷哥附 MiDashengLM 开源地址:

GitHub 主页:https://github.com/xiaomi-research/dasheng-lm

技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b

模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo: https://xiaomi-research.github.io/dasheng-lm

交互 Demo:https://huggingface.co/spaces/mispeech/MiDashengLM

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 库克称自己也在用 ChatGPT,苹果正密切关注其发展
  • 百度与中国石化签署战略合作框架协议,将在 AI 等领域深化合作
  • 格莱美修订规则:只有“人类创作者”才有资格获奖
  • 日本神户开始验证市政 AI 化效果:自动规划巡逻路线,减少犯罪发生
  • 宜家发布由 AI 设计的下一代沙发:轻便、扁平、模块化,采用 100% 可回收材料
  • 宏碁、惠普、华硕等品牌发力 AI 笔记本市场,明年将带动新一波换机潮
  • 科大讯飞星火 AI 大模型出海东南亚,将在新加坡实施“1+4”战略
  • 复旦大学与阿里巴巴达成全面战略合作,共享 AI 大模型底层能力
  • 英科智能推出 AI 设计的罕见病特效药,已在中美同时启动人体临床试验
  • 2023 全球 AI 指数排名公布:美中稳居前二,亚洲国家表现亮眼
  • “商汤如影 SenseAvatar” 数字人视频生成平台上线,支持定制形象、声音克隆、创作视频等功能
  • 中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”:无人工干预,性能堪比 486
  • 腾讯与西湖大学共同申请 AI 聊天机器人专利,可使问答语句更准确连贯
  • 首款搭载 ChatGPT 的自行车问世,让你骑行不再孤单
  • 学而思网校推出《人工智能第一课》,号称首个基于自研大模型的 AIGC 课程
  • ChatGPT 的 Bing 浏览功能让用户免费阅读付费内容,OpenAI 暂停测试
  • 中国团队推出脑电图图像生成模型 DreamDiffusion,清华、腾讯参与研究
  • 匈牙利公司推出世界首款 AI 研发饮料,口味、包装均由 AI 完成
  • 亚马逊 Kindle 自助出版功能被滥用,AI 生成的书籍泛滥
  • 联合国将招募数十个机器人,协助完成 2030 可持续发展目标
  • 最新资讯

    热门资讯