目的:

零样本分割任务

方法:

image-20240730212822826

大语言模型具有强大的零样本和少样本泛化能力,可以泛化到训练期间未见过的任务和数据分布

在计算机视觉中,问题可以被分为以下三个:

  • 什么任务可以实现零样本泛化?
  • 对应的模型架构是什么?
  • 什么数据可以支持这个任务和模型?

任务:

通过提示技术在新的数据集和任务上进行零样本和少样本学习,即通过分割提示返回一个有效的分割掩膜

将提示的概念从NLP转化为分割任务,分割任务的前提可以是一组前景,背景的电,大致的框,掩膜,自由形式的文本,或者任何提示信息,要求返回一个有效的分割掩膜

预训练:

为了在任意提示下都能返回一个有效的掩膜,设计为每个训练样本模拟一系列提示,并将模型的掩膜预测与GT对比,目标是为任何提示返回一个有效掩膜

零样本:

可以通过设计合适的提示来将预训练模型解决下游任务

模型:

image-20240731202010075

SAM由三个组件组成:图像编码器、灵活的提示编码器和快速的掩膜解码器

图像编码器:

采用MAE与训练的ViT,图像编码器对每张图像使用一次

具体细节见下

image-20240731202734603

提示编码器:

考虑两种形式的提示:稀疏的点,框,文本和密集的掩膜,通过位置编码和每种提示嵌入的学习综合来表示点和框,通过CLIP的文本编码器来嵌入文本,通过卷积来嵌入密集提示的掩膜,与图像嵌入按元素求和

具体细节读论文

image-20240731202830156

image-20240731202843735

掩膜解码器:

通过变形的Transformer解码器,使用自注意力和交叉注意力更新所有嵌入,最后对图像嵌入进行上采样,用MLP映射到线性分类器

image-20240731202900122

总结:

1.设计预训练模型,可以通过设计提示来适应不同的下游任务

2.该预训练模型的目的是无论什么提示输入,都返回一个合理的掩码表示

3.多提示采用不同的特征提取器,利用注意力进行特征融合