本文最后更新于：2024年3月25日下午

论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization

中国科学技术大学的一篇CVPR2023，针对弱监督时序动作定位任务（W-TAL），将原本的Segment-based MIL替换为Proposal-based MIL，解决了训练和测试不一致的问题。具体包括一个周围对比特征提取模块来已知short proposal，还有一个proposal完整性评估模块来抑制低质量proposal，以及一个实例级别的排序一致性损失。

代码链接：RenHuan1999/CVPR2023_P-MIL: The official implementation of ‘Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization’ (CVPR 2023) (github.com)

动机

传统WTAL任务使用基于Segment的MIL框架，会计算class-agnostic的概率表示每个segment的行为分数，同时还会计算Class Activation Sequence（CAS），训练阶段通过聚合CAS和行为分数可以得到视频级别的标签，测试阶段则通过对行为分数进行阈值过滤来得到candidate proposal，proposal内的CAS聚合得到分类分数。

这种SMIL有以下缺点：

训练和测试的目标不一致，训练时是seg级别的分类任务，测试则需要proposal级别的分数。
由于SMIL只选择部分segment，导致上下文信息不足。

作者基于此提出了Proposal-based MIL（PMIL），其包含两个阶段，第一阶段使用SMIL的方法得到一些candidate proposal；第二阶段这些proposal进行分类和聚合得到视频级别的分数，从而进行监督学习。所以，

方法

Candidate Proposal Generation

首先使用一个预训练好的SMIL模型，根据其生成的序列分数，利用阈值来得到action proposal和background proposal。具体来说，就是高于 $\theta_{act}$ 的成为action，低于 $\theta_{bkg}$ 的成为background。这些一起组合成 $P$

Proposal Feature Extraction

$P$ 中的proposal会导致incomplete的问题，所以作者提出了Surrounding Contrastive Feature Extraction（SCFE）的方法。

具体来说，就是将proposal扩展，形成left、inner、right三部分（和AutoLoc很像），这些部分通过RoIAlign的方式+max pooling得到对应的特征 $X^l,X^n,X^r$ 。之后，根据下面这个公式得到对比性的特征：

X=FC(Cat(X^n-X^l,X^n,X^n-X^r))

就是中间的减去两边的，然后拼在一起过全连接。

使用这个特征，通过Cls Branch和Attention Branch得到行为分数 $A$ 和CAS $S_{base}$ ，然后两者相乘得到 $S_{supp}$ 。聚合top-k的 $S_{base}$ 和 $S_{supp}$ 得到视频级别的预测结果。

Proposal Completeness Evaluation

SMIL得到的proposal可能有over-complete的问题，所以需要进一步的refinement。

首先，对于 $A$ ，选择其top-80%的分数，作为高置信度的proposal $Q$ 。然后使用NMS进一步过滤，得到的proposal作为pseudo instance $G$ 。 $G$ 中的proposal被认为是高置信度的伪标签。

然后，对 $P$ 和 $G$ 计算互相之间的IoU，得到 $M \times N$ 的矩阵，然后为每一个 $P$ 中的proposal分配一个 $G$ 的proposal，并以它们之间的IoU作为这个proposal的completeness score $q$ 。

最后，通过全连对每个 $P$ 中的proposal的completeness进行预测，得到 $\hat{q}$ 。 $q$ 和 $\hat{q}$ 之间计算MSE作为损失 $\mathcal{L}_{comp}$ 。

Instance-level Rank Consistency

这个模块保持两个模态预测的一致性。具体来说，对于 $A$ ，通过 $mean(A)$ 的阈值得到高置信度的 $R$ proposals，对于两个模态的预测，可以通过KL散度来保持一致性。

论文笔记

ActionFormer TAL

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

论文笔记 MLP-Mixer：An all-MLP Architecture for Vision 上一篇

论文笔记 ActionFormer：Localizing Moments of Actions with Transformers 下一篇