论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization
本文最后更新于:2024年3月25日 下午
论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization
中国科学技术大学的一篇CVPR2023,针对弱监督时序动作定位任务(W-TAL),将原本的Segment-based MIL替换为Proposal-based MIL,解决了训练和测试不一致的问题。具体包括一个周围对比特征提取模块来已知short proposal,还有一个proposal完整性评估模块来抑制低质量proposal,以及一个实例级别的排序一致性损失。
动机
传统WTAL任务使用基于Segment的MIL框架,会计算class-agnostic的概率表示每个segment的行为分数,同时还会计算Class Activation Sequence(CAS),训练阶段通过聚合CAS和行为分数可以得到视频级别的标签,测试阶段则通过对行为分数进行阈值过滤来得到candidate proposal,proposal内的CAS聚合得到分类分数。
这种SMIL有以下缺点:
- 训练和测试的目标不一致,训练时是seg级别的分类任务,测试则需要proposal级别的分数。
- 由于SMIL只选择部分segment,导致上下文信息不足。
作者基于此提出了Proposal-based MIL(PMIL),其包含两个阶段,第一阶段使用SMIL的方法得到一些candidate proposal;第二阶段这些proposal进行分类和聚合得到视频级别的分数,从而进行监督学习。所以,
方法
Candidate Proposal Generation
首先使用一个预训练好的SMIL模型,根据其生成的序列分数,利用阈值来得到action proposal和background proposal。具体来说,就是高于的成为action,低于的成为background。这些一起组合成
Proposal Feature Extraction
中的proposal会导致incomplete的问题,所以作者提出了Surrounding Contrastive Feature Extraction(SCFE)的方法。
具体来说,就是将proposal扩展,形成left
、inner
、right
三部分(和AutoLoc很像),这些部分通过RoIAlign的方式+max pooling得到对应的特征。之后,根据下面这个公式得到对比性的特征:
就是中间的减去两边的,然后拼在一起过全连接。
使用这个特征,通过Cls Branch和Attention Branch得到行为分数和CAS ,然后两者相乘得到。聚合top-k的和得到视频级别的预测结果。
Proposal Completeness Evaluation
SMIL得到的proposal可能有over-complete的问题,所以需要进一步的refinement。
首先,对于,选择其top-80%的分数,作为高置信度的proposal 。然后使用NMS进一步过滤,得到的proposal作为pseudo instance 。中的proposal被认为是高置信度的伪标签。
然后,对和计算互相之间的IoU,得到的矩阵,然后为每一个中的proposal分配一个的proposal,并以它们之间的IoU作为这个proposal的completeness score 。
最后,通过全连对每个中的proposal的completeness进行预测,得到。和之间计算MSE作为损失。
Instance-level Rank Consistency
这个模块保持两个模态预测的一致性。具体来说,对于,通过的阈值得到高置信度的 proposals,对于两个模态的预测,可以通过KL散度来保持一致性。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!