目的：

时间和空间维度的分离处理

方法：

时间异常和空间异常，蓝线时间，绿线空间

时间异常：双分支结构，基于CLIP，分别从IMAGE和LABEL两个角度进行分析

视频帧先通过锁定的CLIP IMAGE ENCODER生成帧特征

运动先验感知的空间注意力，将视频帧切分为patch，每个patch通过CLIP获取块特征，并采用空间注意力机制，Xpatch的size是T,H,W,D

其中Mo是每一帧的差异图，通过计算当前帧和相邻帧的L2范数得到，size是T,H,W，对于每一帧则是H,W

在Mo中选出top -k，作为每一帧运动幅度最大的k个空间特征Xmo，size是T，K，D，用Mo的值指导加权合成

Xas的维度是T,D，把他和视频帧特征进行元素加

这些特征包含了瞬间的空间特征，但是缺乏了全局时间上下文，设计了一个多层Transformer的结构

采用相对距离来计算帧之间的相似度，通过SOFTMAX加权融合，最后通过FFN

这里出来后的特征考虑了时间的上下文相关性，SIZE是T,D

后续类似，双分支提示学习，C分支提供帧级别置信度分类，A分支提供对齐

注意此处这俩分支无联动

C分支提供帧级别的是否异常分类，即对于T,D输入，输出是T,1，最后通过top-k的平均值作为此视频是否异常的概率，并于GT做二元交叉熵损失

A分支提供文本和图像的相似性矩阵

M的size是T, (1+C)，视频特征维度是T, D Prompt维度是(1+C),D

选择每一行的top-k值作为这一类与整个视频的相似度，组成最后视频级的相似度向量S，维度是1+C

最后是对比损失，优化prompt，相似类别嵌入靠近

空间异常：

空间异常定位，先对异常帧做滑动窗口生成patch，输入到CLIP中获取token嵌入

文本查询生成，分为正常和异常，最后将文本通过clip的text encoder

正常的描述比较困难，因此采用描述背景文本，选择了常见的室内室外物品

“a picture of sky, a picture of ground, a picture of road, a picture of grass, a picture of building, a picture of wall, a picture of tree, a picture of floor tile, a picture of desk, a picture of cabinet, a picture of chair, a picture of door, a picture of blank”。

异常描述的生成：对于异常描述，除了原始的异常类别描述外，我们还使用 LLMs 和模板 “Provide phrases similar to [abnormal category]” 来获取增强描述。例如，[abnormal category] 可以设置为 “people knockout someone”（打斗类），”people lying on the ground”（车祸类），”someone ignite fire”（纵火类），”people shooting someone”（枪击类）。这些增强提示与原始文本类别一同作为最终的异常提示，用于空间异常定位。

将空间补丁特征xp和文本查询特征qt，采用相似度来检索

总结：

时间上设计特征差异性来强化局部特征，全局上下文采用相对距离作为相似度做注意力

空间上采用LLM设计prompt计算相似度热图

Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts

目的：

方法：

时间异常和空间异常，蓝线时间，绿线空间

时间异常：双分支结构，基于CLIP，分别从IMAGE和LABEL两个角度进行分析

注意此处这俩分支无联动

空间异常：

总结：

近期文章