卧槽刚看到了个模型震撼到了我——SpatialLM

可以标记空间中的物体,与yolo最大的不同是,它能识别多种物体,而且是在三维空间中标记。这对空间推理是个很大的进步。

更重要的是,这个模型只有1B大小!

官方有两个版本,基于llama的SpatialLM-Llama-1B和基于Qwen的SpatialLM-Qwen-0.5B。

官方介绍:SpatialLM 可以处理来自多种来源的点云,如单目视频序列、RGBD 图像和激光雷达传感器。这种多模态架构有效地弥合了非结构化 3D 几何数据与结构化 3D 表示之间的差距,提供了高级语义理解。它增强了空间推理能力,适用于具身机器人、自主导航和其他复杂的 3D 场景分析任务。

模型地址:huggingface.co/manycore-research/SpatialLM-Llama-1B

3
message-square
0