本文最后更新于：2024年9月5日晚上

Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning

论文链接：ICCV 2021 Open Access Repository (thecvf.com)

代码链接：tianyu0207/RTFM

ICCV2021的一篇经典论文，提出了RTFM的WSVAD训练方法，并提供了一定的数学证明。

研究动机

传统的top-k MIL损失函数使用一个二元分类器，得到每一个片段（snippet）的分数，选择top-k作为视频级别的分数，并与视频级别的标签计算交叉熵损失。

作者认为这种方式有以下四个问题：

top-k分数不一定表示了异常片段
正常视频中的top-k分数可能比较容易拟合
如果视频有多个异常片段，检测到多个片段的机会更小
使用弱监督训练来的分类分数不一定能够区分开正常和异常

总之为了解决上述问题，RTFM假设正常片段的magnitude（特征的L2范数，后面简称mag）比异常片段的mag更小。

方法

RTFM损失函数

RTFM首先提出了下面这个RTFM-enabled MIL classifier training：

\min _{\theta, \phi} \sum_{i, j=1}^{|\mathcal{D}|} \ell_s \left( s_\theta\left(\mathbf{F}_i\right), s_\theta\left(\mathbf{F}_j\right), y_i, y_j\right) +\ell_f\left(f_\phi\left(s_\theta\left(\mathbf{F}_i\right)\right), y_i\right)

其中， $s_\theta$ 是特征提取器， $f_\phi$ 是二元分类器， $\mathbf{F}$ 是提取的I3D特征， $y$ 是视频级别的标签。

loss由原本的MIL损失 $\ell_f$ 和新的RTFM损失 $\ell_s$ 组成。

RTFM损失本质上如下图所示，红色和蓝色表示正例和负例，越右则mag越大，RTFM选择top-k（k=3）的特征，取mag平均值作为视频的分数，并让正包和负包之间的分数差距拉大。

对于k的选择，作者从理论上进行了分析，如下面的Theorem 3.1和Figure1所示。 $\mu$ 是异常视频中的异常snippet个数，当k取值接近 $\mu$ 时，正负样本的可分离性更高，假如k取特别大，那么基本分不开。

作者天花乱坠般在3.1中写了许多，但基本和他引用的CVPR15的Multiple Instance Learning for Soft Bags via Top Instances的推理过程是一样的，只不过这里是更简化的版本。

这个分析并没有证明“异常mag大，正常mag小”这件事，只是证明用top-k的片段表示视频级别分数时，k和实际的异常片段数量越接近越好。