论文笔记 两篇关于Audio-Visual定位的论文

本文最后更新于:2023年3月27日 晚上

论文笔记 两篇关于Audio-Visual定位的论文

Audio-Visual Event Localization in Unconstrained Videos

论文链接:ECCV 2018 Open Access Repository (thecvf.com)

代码链接:YapengTian/AVE-ECCV18: Audio-Visual Event Localization in Unconstrained Videos, ECCV 2018 (github.com)

ECCV2018的论文,这篇文章提出了Audio-Visual Event Localization的任务,作者定义一个Audio-Visual Event就是同时会出现在视觉和音频中的事件,并以此收集了一个AVE数据集来进行三种任务:监督视听事件定位、弱监督视听事件定位、跨模态定位。作者提出了一个双模态残差网络(DMRN)学习这些任务。

AVE数据集

作者从AudioSet中选出了一个子集,包含4143个视频和28种事件,拥有视听事件的秒级标注,每个事件至少2s。

监督视听事件定位

一秒的视频与音频为一个segment,对应了一个C类(包含28种事件和1个背景类)的分类标签。视频和音频通过CNN之后进行audio-guided visual attention来生成上下文向量vtattv_t^{att}。这个向量是t时刻所有的token的加权,权重是两边走MLP后加在一起再过个Linear后softmax,以前常见的套路。

之后两个单独的LSTM编码,再之后通过一个简单的残差相加来预测。

弱监督视听事件定位

作为一个MIL问题,训练阶段预测每个segment的概率,然后所有时刻的概率相加再softmax,卡阈值选。

跨模态定位

上面的方法可以衡量视觉和音频特征的距离,用一个滑动窗口来定位。

实验结果

事实上,这个学习地还不错,通过attention map的可视化还能定位到更细粒度。

Self-Supervised Learning of Audio-Visual Objects from Video

论文链接:https://arxiv.org/pdf/2008.04237

代码链接:afourast/avobjects: Implementation for ECCV20 paper “Self-Supervised Learning of audio-visual objects from video” (github.com)

项目主页:Self-Supervised Learning of Audio-Visual Objects from Video (ox.ac.uk)

ECCV2020的论文,该文章主要是通过自监督的方式来找到视频中的视听目标,即音频和视频中发音的对象。本文在4个下游任务上进行试验:多说话人声源分离、定位追踪说话人、同步视音频、正在说话人识别(不是弄这个方向的,任务名简单翻译)。

首先Audio Encoder和Video Encoder各自编码,视频侧会得到像素级别的attention map,音频也会得到每一帧对应的attention map。于是进行点乘得到SavS_{av},音频作为query,视频作为key。

之后运用预先提取好的光流来累积预测信心,第一帧的attention map最重要,会加到后面通过光流追踪到的像素上。

之后通过NMS把注意力图自下而上地汇集成instance。

最后提取局部特征。

训练任务就是拉近同步的视频和音频信息,拉远不同步的。