小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

人工智能 2025-06-02 10:07:02 3天前

IT酷哥 5 月 30 日消息，Xiaomi MiMo 官方公众号今日发文宣布，小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示，其在图片、视频、语言的通用问答和理解推理等多个任务上，大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B，并且在 GUI Grounding 任务上比肩专用模型，为 Agent 时代而来。

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时，在多模态推理任务上，仅用 7B 参数规模，在奥林匹克竞赛（OlympiadBench）和多个数学竞赛（MathVision、MathVerse）大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越闭源模型 GPT-4o。

在评估真实用户体验的内部大模型竞技场中，MiMo-VL-7B 超越 GPT-4o，成为开源模型第一。

其能够完成复杂图片推理和问答等任务，在长达 10 多步的 GUI 操作上，MiMo-VL-7B 也展示了不错的潜力，甚至能帮你加购小米 SU7 至心愿单。

其采用了高质量的预训练数据以及创新的混合在线强化学习算法（Mixed On-policy Reinforcement Learning, MORL）：

多阶段预训练：

收集、清洗、合成了高质量的预训练多模态数据，涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型，总计 2.4T tokens。通过分阶段调整不同类型数据的比例，强化长程多模态推理的能力。

混合在线强化学习：

混合文本推理、多模态感知 + 推理、RLHF 等反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升模型推理、感知性能和用户体验。

MiMo-VL-7B 已开源 RL 前后两个模型，IT酷哥附开源链接：https://huggingface.co/XiaomiMiMo及相关技术报告：https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

MiMo-VL-7B 支持 50 + 测评任务的框架也已经开源至 GitHub：https://github.com/XiaomiMiMo/lmms-eval

模型在线开源多模文本

小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

相关阅读

最新资讯

热门资讯