卧槽刚看到了个模型震撼到了我——SpatialLM

可以标记空间中的物体，与yolo最大的不同是，它能识别多种物体，而且是在三维空间中标记。这对空间推理是个很大的进步。

更重要的是，这个模型只有1B大小！

官方有两个版本，基于llama的SpatialLM-Llama-1B和基于Qwen的SpatialLM-Qwen-0.5B。

官方介绍：SpatialLM 可以处理来自多种来源的点云，如单目视频序列、RGBD 图像和激光雷达传感器。这种多模态架构有效地弥合了非结构化 3D 几何数据与结构化 3D 表示之间的差距，提供了高级语义理解。它增强了空间推理能力，适用于具身机器人、自主导航和其他复杂的 3D 场景分析任务。