目的:

3D点级别的开放词汇理解,将3D点链接到2D掩码

方法:

image-20240803202002174

3D一致性的实例特征学习:

与之前的 方法类似,为每一个3D高斯点添加一个低维特征f \in R^6来表示其属性

坚持下列原则:同一对象的高斯渲染特征应该接近,不同对象的特征应彼此原理,所以采用二值的SAM掩码而不是高维的SAM特征

在任意训练视图下,遵循高斯点的投影过程,将f渲染为特征图M \in R^{6 \times H \times W}

对于第i个SAM掩码B_i \in {0,1}^{1 \times H \times W},可以得到掩码内的平均特征

image-20240803204023707

设计掩码内平滑损失:

image-20240803204054866

设计掩码间平均特征距离损失:

image-20240803204414047

两级码本离散化:

为了增加实例特征的区分性,通过离散化保证同一实例的高斯点具有相同的特征(不是相似)

离散化码本:

对于n个高斯点的实例特征F \in R^{n \times 6},随机选择k = 64个特征从F中初始化量化码本C \in R^{k \times 6}

1.对于每个实例特征,在码本C中寻找最近的量化特征,并将量化索引j存储在I \in R^{n \times 1}

2.特征图渲染和损失计算的前向过程中,c_j代替f_i进行计算

3.反向传播阶段,量化特征的梯度被复制到实例特征\frac{\partial L_p}{\partial f_i} = \frac{\partial L_p}{\partial c_j}

4.基于索引I和F来更新C

最后将连续实例特征转化为量化特征和索引{C, I},然而存在问题:两个对象可能不会拥有相同的视点,无法通过对比损失优化来确保特征不同,其次k=64不足以区分所有对象,而简单的增加k无法带来显著提升

两级码本:

采用两级,粗细结合的码本离散化来解决上述问题

image-20240803211836134

高斯点的位置参与粗略级别的码本构建,并不参与优化,从而保留预训练高斯模型的几何模型

image-20240803211931507

伪特征损失:

利用实例学习阶段学习的实例特征来做监督

image-20240803212555221

Mp是实例特征渲染出来的结果,Mc是量化特征渲染出的结果

实例级别的2D-3D关联:

前述工作基本解决了3D对象的分割问题,但是没有嵌入语言特征,前述工作有通过将CLIP获取的图像特征压缩到低维以训练3D高斯语义场,或者利用相机的内外惨技术获取3D与2D像素的关联,将图像特征映射到3D点,不过需要深度信息进行遮挡

首先,渲染单实例特征图M_i \in R^{6 \times H \times W},其中i的范围是1到k1*k2,然后我们选择特征填充的掩码B_j \in {0, 1}^{1 \times H \times W}。通过计算获得掩码填充的实例特征图P

image-20240803215006579

通过计算实例特征图与掩码填充后实例特征图的分数,选择具有最高分数的掩码的特征和三维实例相关联

总结:

1.离散化特征,有助于增加实例特征的区分度

2.3D和2D特征相关联,通过计算实例特征图和掩码作用后的实例特征图之间的分数来建立联系