目的：

零样本分割任务

方法：

大语言模型具有强大的零样本和少样本泛化能力，可以泛化到训练期间未见过的任务和数据分布

在计算机视觉中，问题可以被分为以下三个：

通过提示技术在新的数据集和任务上进行零样本和少样本学习，即通过分割提示返回一个有效的分割掩膜

将提示的概念从NLP转化为分割任务，分割任务的前提可以是一组前景，背景的电，大致的框，掩膜，自由形式的文本，或者任何提示信息，要求返回一个有效的分割掩膜

为了在任意提示下都能返回一个有效的掩膜，设计为每个训练样本模拟一系列提示，并将模型的掩膜预测与GT对比，目标是为任何提示返回一个有效掩膜

可以通过设计合适的提示来将预训练模型解决下游任务

SAM由三个组件组成：图像编码器、灵活的提示编码器和快速的掩膜解码器

采用MAE与训练的ViT，图像编码器对每张图像使用一次

具体细节见下

考虑两种形式的提示：稀疏的点，框，文本和密集的掩膜，通过位置编码和每种提示嵌入的学习综合来表示点和框，通过CLIP的文本编码器来嵌入文本，通过卷积来嵌入密集提示的掩膜，与图像嵌入按元素求和

具体细节读论文

通过变形的Transformer解码器，使用自注意力和交叉注意力更新所有嵌入，最后对图像嵌入进行上采样，用MLP映射到线性分类器

1.设计预训练模型，可以通过设计提示来适应不同的下游任务

2.该预训练模型的目的是无论什么提示输入，都返回一个合理的掩码表示

3.多提示采用不同的特征提取器，利用注意力进行特征融合