本文最后更新于：2022年7月21日下午

Video Captioning任务 Transformer方向小综述

[TOC]

涉及的论文

TVT: Two-View Transformer Network for Video Captioning
A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer
SBAT: Video Captioning with Sparse Boundary-Aware Transformer
Multi-modal Dense Video Captioning
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering
ActBERT: Learning Global-Local Video-Text Representations
Multi-modal Transformer for Video Retrieval
Reconstruction network for video captioning
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
CLIP4Caption: CLIP for Video Caption

Baseline

图来自文献1，基于Transformer的Video Captioning任务基本都是这种模式，可以叫做Vanilla Transformer、Base Model architecture。

Baseline

多模态特征融合

本任务使用的多模态特征包括rgb(image, frame, 不含时序信息)、motion(动作)、object(目标检测)、voice(音频)、speech(音频中人说的话)。其中RGB必备，还有很多选择motion和voice的。

文献1，2，3都使用了多种模态的特征，本节对于特征的融合进行归纳总结。

文献1 TVT Attentive-fusion block

Attentive-fusion block

文献1对多种特征进行独立的Transformer encode，得到的输出是图中红色的frame encoder output和motion encoder output，它对Transformer decoder的中间那个SA层进行了改进。

图中3个SA层的Q都是和Baseline的Caption那一路的特征，先分配好frame的注意力，同时分配好motion的注意力，之后在时间轴堆叠，再分配好堆叠后的注意力。

Bi-modal Transformer

这篇论文任务其实是Dense Video Captioning，但是去掉Proposal Generator也是一个Video Captioning的模型。它不仅在Decoder进行了特征融合，还在Encoder进行特类似的特征融合。

Encoder

编码阶段如上图，每一个Encoder层进行完Baseline的SA层后，再进行一个交叉的Bi-Modal Attention，然后Feed forward。

Decoder

解码阶段如上图，Baseline的中间SA层也改成类似的Bi-Modal Attention，然后Bridge是直接用全连接层把concat起来的特征降维。

解码阶段模态融合方法和文献1的区别就是concat后的张量用SA还是用全连来降维

SBAT

这篇论文是只在Encoder上做了特征融合，用的类似文献2的方法，但是在一个Encoder层的第一个SA层后又加了个Feed forward，参数更多了。

文献4 MDVC & 文献5 iPerceive

MDVC

和文献2是同一个作者，这是更早的文章。算是直接train出3个Transformer，然后在最后全连决策的时候进行特征融合。文献5的方法和这个几乎一模一样。

文献6 ActBERT

ActBERT

这种特征融合就很迷惑了……还没看懂。

文章说这种方法对于 $\omega$ 、 $\alpha$ 和 $r$ 三种模态是不相等的。 $\omega$ 的KV一部分来源于本身，另一部分来源于用 $\alpha$ 和 $r$ 进行SA的结果，两部分特征用全连降维。 $r$ 的KV和 $\omega$ 一样。但是 $\alpha$ 的就很奇怪了，只融合了 $\omega$ 的特征？

文献7 MMT

MMT

这种特征融合方法解决了文献2、3中方法不能拓展到三个及以上特征的问题，但是会导致时间维度较大。

这里就是先把多种特征先弄成同一特征维（时间维可不同），然后加上时序信息的Temporal embeddings和区分不同特征的expert embeddings，文章还给每一种特征增加了一个agg特征，这是对每一种特征的时序进行pooling得到的Global信息。

总结

在Encoder的特征融合中，文献2、3都没有做到融合第三种特征，因为使用三种特征后会出现六路encoder输出。

在Decoder的特征融合中，方法都类似，区别是用全连或者SA降维。

榜单

MSR-VTT

方法	METEOR	ROUGH	CIDEr	Bleu@4
SBAT(3)	28.9	61.5	51.6	42.9
att-TVT(N+I+V)(1)	28.2	61.1	48.5	42.5
att-TVT(N+I)(1)	27.9	59.6	47.7	40.1
RecNet(8)	26.6	59.3	42.7	39.1
GRU-EVE(9)	28.4	60.7	48.1	38.3
CLIP4Caption(10)	30.7	63.7	57.7	46.1

VATEX

论文笔记

Transformer Video Captioning

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Pytorch DDP多卡训练上一篇

Python Type Hints 下一篇

Video Captioning任务 Transformer方向小综述

Video Captioning任务 Transformer方向小综述

涉及的论文

Baseline

多模态特征融合

文献1 TVT Attentive-fusion block

文献2 Bi-modal Transformer

文献3 SBAT Cross-Modal

文献4 MDVC & 文献5 iPerceive

文献6 ActBERT

文献7 MMT

总结

榜单

MSR-VTT

VATEX