小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

人工智能 2025-06-02 10:07:02 3天前

IT酷哥 5 月 30 日消息,Xiaomi MiMo 官方公众号今日发文宣布,小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为 Agent 时代而来。

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用 7B 参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。

在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一。

其能够完成复杂图片推理和问答等任务,在长达 10 多步的 GUI 操作上,MiMo-VL-7B 也展示了不错的潜力,甚至能帮你加购小米 SU7 至心愿单。

其采用了高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL):

多阶段预训练:

收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。

混合在线强化学习:

混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。

MiMo-VL-7B 已开源 RL 前后两个模型,IT酷哥附开源链接:https://huggingface.co/XiaomiMiMo及相关技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

MiMo-VL-7B 支持 50 + 测评任务的框架也已经开源至 GitHub:https://github.com/XiaomiMiMo/lmms-eval

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 2023 世界人工智能大会 7 月举办,OpenAI、微软、谷歌等 AI 巨头齐聚上海
  • 谷歌与美国大型医疗公司合作,用生成式 AI 提高医生检索信息效率
  • 可按用户语气自动回复消息,在线会议软件 Zoom 推出基于生成式 AI 的新功能
  • 谷歌推出多项功能:识别皮肤病、模拟试穿衣服
  • Stack Overflow 发布 2023 年度报告:JavaScript 位列榜首,83% 的人用过 ChatGPT
  • 中科院自研新一代 AI 大模型“紫东太初 2.0”问世,支持视频、3D 等模态数据
  • 必应聊天周报:iOS 端引入小组件、为语音聊天扩展语言支持
  • 普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox
  • 科学家利用 AI 识别热门歌曲,准确率高达 97%
  • 软银 CEO 孙正义宣布策略调整:AI 革命正在爆发,公司将“转守为攻”
  • AI 入局世界网球温布顿锦标赛,可分析赢球概率及生成球评
  • 亚马逊投入 1 亿美元成立 AI 创新中心,助力 AWS 业务发展
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • 为防止泄密,美国国会明确要求职员仅可使用付费版 ChatGPT
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • 学而思网校推出《人工智能第一课》,号称首个基于自研大模型的 AIGC 课程
  • “世界上最像人的机器人”Ameca 接入 Stable Diffusion 和 GPT-3,现场完成作画
  • 研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化
  • 格莱美 CEO 解释 AI 新规:愿意接纳新技术,包含 AI 要素作品也可获提名
  • 最新资讯

    热门资讯