3D LLM的pipeline总结

pipeline整理：

大部分论文的pipeline：Encoder → Projector → LLM
1. Encoder：对point clouds提取特征
2. Projector：使用projector将特征投影到LLM所需的point token
3. LLM：使用LLM预测token
Encoder → LLM
1. An Embodied Generalist Agent in 3D World
Building object set → LLM
1. ConceptGraphs

Point Encoder的variants

将2D image feature反投影到3D point clouds上，获得3D point clouds的feature
Object-level encoder: I2P-MAE
Object-level encoder: Recon++
Object-level encoder: Point-BERT
Object-level encoder: Ulip2 and Uni3D
Object-level encoder: Vanilla transformer structurally equivalent to ViT + 2D model初始化
Scene-level encoder: EPCL
Scene-level encoder: Masked transformer encoder
Scene-level encoder: PointNet++加上spatial transformer
Scene-level encoder: Multi-view transformer + Fusion transformer