Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈

Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈

人工智能 2025-05-30 15:04:07 2天前

IT酷哥 5 月 29 日消息,科技媒体 marktechpost 昨日(5 月 28 日)发布博文,报道称 Meta 公司联合推出 Multi-SpatialMLLM 模型,整合深度感知、视觉对应和动态感知三大组件,突破单帧图像分析的局限。

多模态大语言模型(MLLMs)近年来在视觉任务处理上取得显著进展,但其作为独立数字实体的应用方式限制了实际影响力。

随着机器人和自动驾驶等领域的需求增长,MLLMs 需要具备复杂空间理解能力。然而,现有模型在基础空间推理任务中频频失误,例如无法准确区分左右。

过去的研究将问题归因于缺乏专门训练数据,并尝试通过单张图像的空间数据训练改进,但这种方法局限于静态视角分析,缺乏动态信息处理能力。

Meta 旗下的 FAIR 团队联合香港中文大学,为解决空间理解难题,推出 MultiSPA 数据集,涵盖超过 2700 万样本,涉及多样化的 3D 和 4D 场景。

该数据集结合了 Aria Digital Twin、Panoptic Studio 等高质量标注场景数据,并通过 GPT-4o 生成多样化任务模板。

研究还设计了五个训练任务,包括深度感知、相机移动感知和物体大小感知等,提升 Multi-SpatialMLLM 模型在多帧空间推理上的能力。

在 MultiSPA 基准测试中,Multi-SpatialMLLM 相比基础模型平均提升 36%,在定性任务上的准确率达到 80-90%,远超基础模型的 50%,甚至在预测相机移动向量等高难度任务上也取得 18% 的准确率。

在 BLINK 基准测试中,该模型准确率接近 90%,平均提升 26.4%,超越多个专有系统。此外,模型在标准视觉问答(VQA)测试中保持原有性能,显示出不依赖过度拟合空间推理任务的通用能力。

IT酷哥附上参考地址

Meta AI Introduces Multi-SpatialMLLM: A Multi-Frame Spatial Understanding with Multi-modal Large Language Models

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

项目页面

GitHub 页面

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 欧盟官员将于 6 月会见 OpenAI CEO:讨论人工智能法规
  • 可按用户语气自动回复消息,在线会议软件 Zoom 推出基于生成式 AI 的新功能
  • 监管机构出手,谷歌暂缓在欧盟推出聊天机器人 Bard
  • 笔神作文称学而思 AI 大模型盗窃其数据,后者回应称调用均与合同要求相符
  • 统信深度 deepin 宣布成立 AI SIG 社区:将 AI 引入操作系统,共同维护软件包
  • 谷歌推出多项功能:识别皮肤病、模拟试穿衣服
  • 中科院自研新一代 AI 大模型“紫东太初 2.0”问世,支持视频、3D 等模态数据
  • 折腾十年,扎克伯格痛失 AI 好局
  • AI 入局世界网球温布顿锦标赛,可分析赢球概率及生成球评
  • AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • AI 图像编辑技术 DragGAN 开源,拖动鼠标即可将狮子 P 转头
  • 香港电台推出 AI 天气主播 Aida,表情、动作均由电脑合成
  • 金融巨头瑞穗银行押注生成式 AI,开放 Azure OpenAI 给 4.5 万名员工使用
  • 微软推出生成式 AI 培训项目,免费提供在线课程和证书
  • 日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
  • 特斯拉人形机器人将于 7 月亮相上海 2023 世界人工智能大会
  • 微软必应聊天周报:改善体育相关话题、向 Skype 开放图片生成工具
  • 李开复创业大模型公司“零一万物”官网上线:致力于打造全新的 AI 2.0 平台
  • Pixela 推出 ChatGPT 翻译 App:支持中日英韩互译,限时免费上架 Google Play
  • 最新资讯

    热门资讯