从文本到空间:群核科技 SpatialLM 开创大模型理解物理世界新路径

从文本到空间:群核科技 SpatialLM 开创大模型理解物理世界新路径

IT资讯 2025-06-24 14:12:09 23小时前

近日, 空间理解模型 SpatialLM 发布首份技术报告, 该模型来自于空间智能公司群核科技。据悉, 该模型于今年 3 月正式开源, 并在开源后迅速与 DeepSeek-V3、Qwen2.5-Omni 一起登上全球最大的开源社区 HuggingFace 全球趋势榜前三。

图说: 来自杭州的三个大模型共同登榜 HuggingFace 全球趋势榜前三

作为一款将大语言模型扩展到 3D 空间理解任务中的模型,SpatialLM 能从 3D 点云输入生成结构化的空间场景描述, 这一过程突破了大语言模型对物理世界几何与空间关系的理解局限, 让机器具备空间认知与推理能力, 为具身智能等相关领域提供空间理解基础训练框架。

在开源后经过广泛的实际验证, 本次技术报告聚焦 SpatialLM 1.1 升级版本, 其不仅包含了详细的消融实验与训练配方, 还在点云编码方式、分辨率、用户指定识别类目等维度上实现优化。多项基准测试数据显示: 该模型在任务数据集微调后, 在空间布局识别、3D 物体检测任务中, 均达到了相比与最新专业模型持平或更优的效果。

图说:SpatialLM1.1 在户型、物体检测任务中与 SOTA 方法的跑分对比

本次报告重点围绕算法框架和训练数据两方面展开。在算法架构层面,SpatialLM 将大语言模型 (LLMs) 扩展到 3D 空间理解任务中, 特别在结构化室内建模领域实现了重要突破。这一技术路线打破了传统任务专属架构 (task-specific architecture) 的限制, 创新性地采用可编辑的文本形式表达场景结构。这一创新设计具有双重技术优势: 一方面发挥了群核科技强大数据集能力, 通过持续训练不断优化空间识别精度; 另一方面通过接入大语言模型, 系统可直接接收并理解自然语言指令, 使空间理解模型从简单任务执行工具转变为能够真正理解用户意图的智能系统, 从而推进了 LLMs 在空间理解和推理方向的能力边界。

图说:SpatialLM1.1 模型的网络结构

同时,SpatialLM 构建了一个全新的包含 3D 结构化信息的合成点云数据集, 打破了真实数据稀缺且难以标注的局限。该数据集包含超 1.2 万场景、5.4 万个房间的结构化室内点云数据, 其规模远超 ScanNet (仅包含 1,513 个场景) 等现有数据集。所有数据均源自真实项目的专业设计模型, 经严格筛选与解析后形成符合真实世界统计分布的虚拟环境, 相较程序化生成的 ProcTHOR 等数据集具有更高真实性。据了解, 三维可交互数据是群核科技在空间智能领域的重要优势, 该模型训练数据大多来自于群核空间智能平台 SpatialVerse。早在 2018 年, 群核科技就面向全球发布了名为 InteriorNet 的深度学习数据集, 其包含了共计约 1 亿 3 千万空间数据, 这是当时全球最大的室内场景认知深度学习数据集。

图说:SpatialLM1.1 数据集与目前开源数据的对比

据悉, 自 SpatialLM 空间理解模型开源以来, 在全球开发者社区持续引发讨论, 开发者普遍认为, 该模型标志着大语言模型从 "理解文字" 到 "认知空间" 的跨越, 推动 3D 空间理解落地应用, 为 AI 探索物理世界开辟了新路径。其中, 来自香港科技大学计算机科学与工程系谭平教授作为研究合作方指出:"SpatialLM 创新性地将大语言模型应用于 3D 空间理解, 在布局估计和物体检测等任务上取得了显著成果。这项突破对 AR / VR 和具身智能等领域的发展具有重要价值。"

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • “话数字增能,谈变革发展”龙岗区工业企业走进华为松山湖共研数字化转型
  • OpenAI CEO 威胁过度监管将退出欧盟,欧议员称立法者不该被“勒索”
  • 三星 Exynos 2300 芯片跑分曝光:1+4+4 核心设计
  • 华为制造军团携手车企探索研发领域数字化变革, 助企业提质增效 ——2023 车辆装备研发数字化转型论坛
  • 消息称特斯拉 CEO 马斯克的私人飞机已抵达北京首都国际机场
  • 颠覆传统!疾霆 Pro 固态硬盘正式上市
  • 美国能源部宣布拨款 4600 万美元研发核聚变,目标用于商业电网
  • 小米云服务开启 618 大促:包年 5.5 折优惠 39 元起
  • 消息称英伟达 CEO 黄仁勋或于下周二到访上海,此前曾称仍未决定是否访陆
  • 一个代码拼写错误,导致微软 Azure DevOps 服务在巴西停摆十小时
  • 消息称华为版 ChatGPT“盘古 Chat”7 月 7 日发布,面向 To B / G 政企端客户
  • 中国工程院院士邬贺铨:5G 用户数占移动总用户已经超过三成,预计 2024 年达到一半
  • 微软 6 月 12 日 Xbox 游戏发布会将全程实机、明确上市时间,还有《星空》细节
  • SK 计划在美国生产比特斯拉更快的 400kWh 电动汽车充电器
  • 苹果美国开启 2023 教育优惠返校季活动:购买 Mac、iPad 赠送最高 150 美元礼品卡
  • 华为发布自研分布式数据库 GaussDB,启动生态发展计划
  • 顶象发布《车企 App 安全研究白皮书》,剖析车企 App 两大风险
  • 京东 618 联合三星品牌带来超值爆款好物 全场至高立省 3300 元
  • 阿斯顿马丁首款电动汽车将于 2026 年发布
  • 2023 年越南国际电子产品展览会开幕,rock space 壳膜定制解决方案引发关注
  • 最新资讯

    热门资讯