目的:

3D点级别的开放词汇理解，将3D点链接到2D掩码

方法：

与之前的方法类似，为每一个3D高斯点添加一个低维特征 $f \in R^6$ 来表示其属性

坚持下列原则：同一对象的高斯渲染特征应该接近，不同对象的特征应彼此原理，所以采用二值的SAM掩码而不是高维的SAM特征

在任意训练视图下，遵循高斯点的投影过程，将f渲染为特征图 $M \in R^{6 \times H \times W}$

对于第i个SAM掩码 $B_i \in {0,1}^{1 \times H \times W}$ ，可以得到掩码内的平均特征

设计掩码内平滑损失：

设计掩码间平均特征距离损失：

为了增加实例特征的区分性，通过离散化保证同一实例的高斯点具有相同的特征(不是相似)

对于n个高斯点的实例特征 $F \in R^{n \times 6}$ ，随机选择k = 64个特征从F中初始化量化码本 $C \in R^{k \times 6}$

1.对于每个实例特征，在码本C中寻找最近的量化特征，并将量化索引j存储在 $I \in R^{n \times 1}$ 中

2.特征图渲染和损失计算的前向过程中， $c_j$ 代替 $f_i$ 进行计算

3.反向传播阶段，量化特征的梯度被复制到实例特征 $\frac{\partial L_p}{\partial f_i} = \frac{\partial L_p}{\partial c_j}$

4.基于索引I和F来更新C

最后将连续实例特征转化为量化特征和索引{C, I}，然而存在问题：两个对象可能不会拥有相同的视点，无法通过对比损失优化来确保特征不同，其次k=64不足以区分所有对象，而简单的增加k无法带来显著提升

采用两级，粗细结合的码本离散化来解决上述问题

高斯点的位置参与粗略级别的码本构建，并不参与优化，从而保留预训练高斯模型的几何模型

利用实例学习阶段学习的实例特征来做监督

Mp是实例特征渲染出来的结果，Mc是量化特征渲染出的结果

前述工作基本解决了3D对象的分割问题，但是没有嵌入语言特征，前述工作有通过将CLIP获取的图像特征压缩到低维以训练3D高斯语义场，或者利用相机的内外惨技术获取3D与2D像素的关联，将图像特征映射到3D点，不过需要深度信息进行遮挡

首先，渲染单实例特征图 $M_i \in R^{6 \times H \times W}$ ，其中i的范围是1到k1*k2，然后我们选择特征填充的掩码 $B_j \in {0, 1}^{1 \times H \times W}$ 。通过计算获得掩码填充的实例特征图P

通过计算实例特征图与掩码填充后实例特征图的分数，选择具有最高分数的掩码的特征和三维实例相关联

1.离散化特征，有助于增加实例特征的区分度

2.3D和2D特征相关联，通过计算实例特征图和掩码作用后的实例特征图之间的分数来建立联系