本文最后更新于：2023年7月28日下午

论文笔记 Towards Video Anomaly Retrieval from Video Anomaly Detection：New Benchmarks and Model

论文链接：Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model (arxiv.org)

代码链接：待开源？

中国西北工业大学的Arxiv预印期刊论文（2023.7.24），提出了Video Anomaly Retrieval这个新任务，旨在进行文本-视频检索和音频-视频检索，对应两个数据集UCFCrime-AR和XDViolence-AR，并提出了一个ALAN模型作为baseline。

Video Anomaly Retrieval（VAR）任务

如上图所示，VAR任务使用一个文本或者音频对视频进行检索，乍一看与Video Retrieval（VR）任务没什么区别，但VAR的特点在于被检索的视频①长度可能非常长 ②可能包含需要关注的异常事件。

传统视频检索任务使用DiDeMo、MSR-VTT等数据集，视频已经切分成小片段，文本和视频内容设计范围比较广。对于长视频则视频检索模型一般没办法，会有另外的Video Moment Retrieval任务，这个任务则是检索出长视频中符合文本描述的一段。而VAR的粒度不及Video Moment Retrieval，但是检索对象却是长视频。

同时，VAR更关注异常情况的检索，比如撞车、爆炸、斗殴等，但是也能支持普通文本的检索，这一点论文没有强调。

下图是更详细的不同任务的对比。

VAR Benchmarks

作者构建了UCFCrime-AR和XDViolence-AR两个Benchmark，UCF-Crime和XD-Violence都是VAD中常用的数据集，前者有1900个视频和video级别的标注，后者有4700+视频和对应video级别的标注。

UCFCrime-AR是一个文本-视频的检索数据集，作者找了8个人标记了UCF-Crime的视频的中英文caption。XDViolence-AR是一个音频-视频的检索数据集，作者就是用了其音频来作为query。

ALAN模型

作者提出了Anomaly-Led Alignment Network（ALAN）来进行VAR的任务，其整体架构如下：

视频包含RGB和光流两个模态，分别用I3D-RGB和I3D-Flow提取，音频则使用VGGish提取，文本使用BERT提取。

视频和音频的处理逻辑类似，作者提出了Anomaly-Led Sampling（AS）和Fixed-Frame Sampling（FS）两种采样方法，前者通过一个VAD模型来找到视频异常的片段，并提升在其中采样关键帧的概率，后者就是普通的等间隔采样。帧会添加[CLS]、位置编码、区分模态的编码，然后通过Transformer进行模态融合或者进一步的编码，最后得到[CLS]的特征以及平均池化所有token的全局特征。

文本对应的也会得到[CLS]的特征以及平均池化所有token的全局特征。

这里两种都算全局特征，只是通过不同的方式得到，AS的具体采样方法见下图Algorithm 1.

VAD模型是3层时序卷积层，最后使用Sigmoid得到每一帧的分数。

训练loss分为三部分：①模态对齐 ②VAD ③掩码语言建模

模态对齐

最小化之前得到的全局特征之间的余弦相似度，会通过网络预测不同模态相似度的权重来进行融合，文本和音频额外使用GEU来得到“两种模态”的特征。两种global的特征通过超参数融合。batch内使用双向max-margin ranking loss。

视频有RGB和Flow的全局特征，在计算模态对齐的视频需要文本和音频也有对应的两个全局特征，但是没有，所以通过GEU来一生二，得到两种特征。
VAD

弱监督的训练方法，模型预测帧级别的异常分数，取top-k作为视频级别异常分数，然后使用视频级别的标签进行优化。
掩码语言建模

通过Spacy分析句子中的动词短语和名词短语，mask掉，然后重构。

整体来说，ALAN的模型包含了一个BERT、一个Prompting Decoder、多个Self-Attention和Cross-Attention、多个GEU、两个VAD模型。论文没有给出参数量，但是感觉还是挺多的（论文说BERT的参数不冻结）。论文最后说一个pair的检索时间是0.008s，在UCF和XD的测试上一次检索都只用2.7s和5.6s，这个效率也太高了吧，我觉得得打个问号，这个肯定是没有包含VGGish和I3D的。