目的:

时间和空间维度的分离处理

方法:

时间异常和空间异常,蓝线时间,绿线空间

image-20241210154439754

时间异常:双分支结构,基于CLIP,分别从IMAGE和LABEL两个角度进行分析

视频帧先通过锁定的CLIP IMAGE ENCODER生成帧特征

运动先验感知的空间注意力,将视频帧切分为patch,每个patch通过CLIP获取块特征,并采用空间注意力机制,Xpatch的size是T,H,W,D

image-20241210151541734

其中Mo是每一帧的差异图,通过计算当前帧和相邻帧的L2范数得到,size是T,H,W,对于每一帧则是H,W

在Mo中选出top -k,作为每一帧运动幅度最大的k个空间特征Xmo,size是T,K,D,用Mo的值指导加权合成

image-20241210152155577

Xas的维度是T,D,把他和视频帧特征进行元素加

这些特征包含了瞬间的空间特征,但是缺乏了全局时间上下文,设计了一个多层Transformer的结构

采用相对距离来计算帧之间的相似度,通过SOFTMAX加权融合,最后通过FFN

image-20241210152908665

这里出来后的特征考虑了时间的上下文相关性,SIZE是T,D

后续类似,双分支提示学习,C分支提供帧级别置信度分类,A分支提供对齐

注意此处这俩分支无联动

C分支提供帧级别的是否异常分类,即对于T,D输入,输出是T,1,最后通过top-k的平均值作为此视频是否异常的概率,并于GT做二元交叉熵损失

image-20241210153644566

A分支提供文本和图像的相似性矩阵

image-20241210153716480

M的size是T, (1+C),视频特征维度是T, D Prompt维度是(1+C),D

选择每一行的top-k值作为这一类与整个视频的相似度,组成最后视频级的相似度向量S,维度是1+C

image-20241210154256290

最后是对比损失,优化prompt,相似类别嵌入靠近

image-20241210154400956

空间异常:

空间异常定位,先对异常帧做滑动窗口生成patch,输入到CLIP中获取token嵌入

文本查询生成,分为正常和异常,最后将文本通过clip的text encoder

正常的描述比较困难,因此采用描述背景文本,选择了常见的室内室外物品

“a picture of sky, a picture of ground, a picture of road, a picture of grass, a picture of building, a picture of wall, a picture of tree, a picture of floor tile, a picture of desk, a picture of cabinet, a picture of chair, a picture of door, a picture of blank”。

异常描述的生成: 对于异常描述,除了原始的异常类别描述外,我们还使用 LLMs 和模板 “Provide phrases similar to [abnormal category]” 来获取增强描述。例如,[abnormal category] 可以设置为 “people knockout someone”(打斗类),”people lying on the ground”(车祸类),”someone ignite fire”(纵火类),”people shooting someone”(枪击类)。这些增强提示与原始文本类别一同作为最终的异常提示,用于空间异常定位。

将空间补丁特征xp和文本查询特征qt,采用相似度来检索

image-20241210155116960

总结:

时间上设计特征差异性来强化局部特征,全局上下文采用相对距离作为相似度做注意力

空间上采用LLM设计prompt计算相似度热图