一张图搞定结构化3D建模——PartCrafter

这是一个来自北大+字节跳动+卡耐基梅隆大学的联合项目

简单来说,这个项目实现了从单张RGB图像直接生成多个语义部件的结构化3D模型,彻底告别了传统"先分割再重建"的繁琐流程,提供:

  • 端到端生成:无需预分割输入,一步到位生成完整的部件化3D场景
  • 组合式潜在空间:每个3D部件用独立的潜在token集合表示,支持灵活编辑
  • 层次化注意力机制:同时处理部件内和部件间的信息流,保证全局一致性
  • 预训练模型复用:基于大规模3D网格扩散Transformer,继承强大的生成能力

最酷的是能"透视"不可见结构——即使输入图像中某些部件被遮挡,PartCrafter也能自动推断并生成完整的3D几何!而且同一个模型既能处理单个物体,也能搞定复杂的多物体场景重建。

技术上超越了现有的两阶段方法,不仅生成质量更高,计算效率也大幅提升。项目还精心构建了大规模部件级标注数据集,整合了Objaverse、ShapeNet、ABO等知名3D资源。 实验证明PartCrafter在结构化3D生成任务上达到SOTA效果,甚至在物体重建保真度上超越了其底层的3D生成模型——这说明理解物体的组合结构确实能提升3D生成的整体质量!

项目主页:github.com/wgsxm/PartCrafter 论文地址:arxiv.org/html/2506.05573

目前模型还没放出,还得等等

1
message-square
0