从文本到空间:群核科技 SpatialLM 开创大模型理解物理世界新路径
近日, 空间理解模型 SpatialLM 发布首份技术报告, 该模型来自于空间智能公司群核科技。据悉, 该模型于今年 3 月正式开源, 并在开源后迅速与 DeepSeek-V3、Qwen2.5-Omni 一起登上全球最大的开源社区 HuggingFace 全球趋势榜前三。
图说: 来自杭州的三个大模型共同登榜 HuggingFace 全球趋势榜前三
作为一款将大语言模型扩展到 3D 空间理解任务中的模型,SpatialLM 能从 3D 点云输入生成结构化的空间场景描述, 这一过程突破了大语言模型对物理世界几何与空间关系的理解局限, 让机器具备空间认知与推理能力, 为具身智能等相关领域提供空间理解基础训练框架。
在开源后经过广泛的实际验证, 本次技术报告聚焦 SpatialLM 1.1 升级版本, 其不仅包含了详细的消融实验与训练配方, 还在点云编码方式、分辨率、用户指定识别类目等维度上实现优化。多项基准测试数据显示: 该模型在任务数据集微调后, 在空间布局识别、3D 物体检测任务中, 均达到了相比与最新专业模型持平或更优的效果。
图说:SpatialLM1.1 在户型、物体检测任务中与 SOTA 方法的跑分对比
本次报告重点围绕算法框架和训练数据两方面展开。在算法架构层面,SpatialLM 将大语言模型 (LLMs) 扩展到 3D 空间理解任务中, 特别在结构化室内建模领域实现了重要突破。这一技术路线打破了传统任务专属架构 (task-specific architecture) 的限制, 创新性地采用可编辑的文本形式表达场景结构。这一创新设计具有双重技术优势: 一方面发挥了群核科技强大数据集能力, 通过持续训练不断优化空间识别精度; 另一方面通过接入大语言模型, 系统可直接接收并理解自然语言指令, 使空间理解模型从简单任务执行工具转变为能够真正理解用户意图的智能系统, 从而推进了 LLMs 在空间理解和推理方向的能力边界。
图说:SpatialLM1.1 模型的网络结构
同时,SpatialLM 构建了一个全新的包含 3D 结构化信息的合成点云数据集, 打破了真实数据稀缺且难以标注的局限。该数据集包含超 1.2 万场景、5.4 万个房间的结构化室内点云数据, 其规模远超 ScanNet (仅包含 1,513 个场景) 等现有数据集。所有数据均源自真实项目的专业设计模型, 经严格筛选与解析后形成符合真实世界统计分布的虚拟环境, 相较程序化生成的 ProcTHOR 等数据集具有更高真实性。据了解, 三维可交互数据是群核科技在空间智能领域的重要优势, 该模型训练数据大多来自于群核空间智能平台 SpatialVerse。早在 2018 年, 群核科技就面向全球发布了名为 InteriorNet 的深度学习数据集, 其包含了共计约 1 亿 3 千万空间数据, 这是当时全球最大的室内场景认知深度学习数据集。
图说:SpatialLM1.1 数据集与目前开源数据的对比
据悉, 自 SpatialLM 空间理解模型开源以来, 在全球开发者社区持续引发讨论, 开发者普遍认为, 该模型标志着大语言模型从 "理解文字" 到 "认知空间" 的跨越, 推动 3D 空间理解落地应用, 为 AI 探索物理世界开辟了新路径。其中, 来自香港科技大学计算机科学与工程系谭平教授作为研究合作方指出:"SpatialLM 创新性地将大语言模型应用于 3D 空间理解, 在布局估计和物体检测等任务上取得了显著成果。这项突破对 AR / VR 和具身智能等领域的发展具有重要价值。"