论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization

本文最后更新于:2024年3月25日 下午

论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization

中国科学技术大学的一篇CVPR2023,针对弱监督时序动作定位任务(W-TAL),将原本的Segment-based MIL替换为Proposal-based MIL,解决了训练和测试不一致的问题。具体包括一个周围对比特征提取模块来已知short proposal,还有一个proposal完整性评估模块来抑制低质量proposal,以及一个实例级别的排序一致性损失。

代码链接:RenHuan1999/CVPR2023_P-MIL: The official implementation of ‘Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization’ (CVPR 2023) (github.com)

动机

传统WTAL任务使用基于Segment的MIL框架,会计算class-agnostic的概率表示每个segment的行为分数,同时还会计算Class Activation Sequence(CAS),训练阶段通过聚合CAS和行为分数可以得到视频级别的标签,测试阶段则通过对行为分数进行阈值过滤来得到candidate proposal,proposal内的CAS聚合得到分类分数。

这种SMIL有以下缺点:

  1. 训练和测试的目标不一致,训练时是seg级别的分类任务,测试则需要proposal级别的分数。
  2. 由于SMIL只选择部分segment,导致上下文信息不足。

作者基于此提出了Proposal-based MIL(PMIL),其包含两个阶段,第一阶段使用SMIL的方法得到一些candidate proposal;第二阶段这些proposal进行分类和聚合得到视频级别的分数,从而进行监督学习。所以,

方法

Candidate Proposal Generation

首先使用一个预训练好的SMIL模型,根据其生成的序列分数,利用阈值来得到action proposal和background proposal。具体来说,就是高于θact\theta_{act}的成为action,低于θbkg\theta_{bkg}的成为background。这些一起组合成PP

Proposal Feature Extraction

PP中的proposal会导致incomplete的问题,所以作者提出了Surrounding Contrastive Feature Extraction(SCFE)的方法。

具体来说,就是将proposal扩展,形成leftinnerright三部分(和AutoLoc很像),这些部分通过RoIAlign的方式+max pooling得到对应的特征Xl,Xn,XrX^l,X^n,X^r。之后,根据下面这个公式得到对比性的特征:

X=FC(Cat(XnXl,Xn,XnXr))X=FC(Cat(X^n-X^l,X^n,X^n-X^r))

就是中间的减去两边的,然后拼在一起过全连接。

使用这个特征,通过Cls Branch和Attention Branch得到行为分数AA和CAS SbaseS_{base},然后两者相乘得到SsuppS_{supp}。聚合top-k的SbaseS_{base}SsuppS_{supp}得到视频级别的预测结果。

Proposal Completeness Evaluation

SMIL得到的proposal可能有over-complete的问题,所以需要进一步的refinement。

首先,对于AA,选择其top-80%的分数,作为高置信度的proposal QQ。然后使用NMS进一步过滤,得到的proposal作为pseudo instance GGGG中的proposal被认为是高置信度的伪标签

然后,对PPGG计算互相之间的IoU,得到M×NM \times N的矩阵,然后为每一个PP中的proposal分配一个GG的proposal,并以它们之间的IoU作为这个proposal的completeness score qq

最后,通过全连对每个PP中的proposal的completeness进行预测,得到q^\hat{q}qqq^\hat{q}之间计算MSE作为损失Lcomp\mathcal{L}_{comp}

Instance-level Rank Consistency

这个模块保持两个模态预测的一致性。具体来说,对于AA,通过mean(A)mean(A)的阈值得到高置信度的RR proposals,对于两个模态的预测,可以通过KL散度来保持一致性。