本文最后更新于：2023年5月21日下午

Vision Transformers are Parameter-Efficient Audio-Visual Learners

代码链接：GenjiB/LAVISH: Vision Transformers are Parameter-Efficient Audio-Visual Learners (github.com)

CVPR2023的一篇关于少参数训练多模态视音频模型的论文，使用了最近火热的Parameter-Efficient的方式，将ViT冻结，通过只训练一种叫作LAVisH的Adapter进行音频编码和模态融合，从而以极低的参数量达到令人满意的效果。

LAVISH

整体框架

论文整体框架如上图所示。

首先图像经过Tokenize之后得到视觉Token，音频转化为频谱图后也类似得到音频Token。

随后，两个模态都会经过同一个基于ViT的冻结的Backbone，而在自注意力部分和FFN部分会通过可训练的LAVISH Adapter进行模态融合。这些LAVISH就是训练中要调节的参数。

两个模态的LAVISH设计相同，以左边的A2V为例，其将音频信息引入到视觉特征中。首先会通过Cross-Modal Attention（CMA）和Latent Token得到紧凑的音频模态信息，这里CMA是参数量极少的类似交叉注意力机制的模块，其公式为：

CMA(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})=\boldsymbol{Q}+g\cdot Softmax(\boldsymbol{Q}\boldsymbol{K}^\top)\boldsymbol{V}

与交叉注意力相比，CMA没有QKV映射矩阵的参数，也没有输出映射矩阵的参数，是直接将QK相乘然后softmax，再使用一个可学习的权重来控制从另一个模态过来的信息。Latent Token则是和Perceiver、BLIP-2、CoCa、Flamingo中类似的，通过可学习的张量作为Query，通过交叉注意力的机制从长序列特征中提炼特征。

在得到另一个模态的紧凑特征后，还会通过一个相同的CMA，但是此时Latent Token是Key和Value，当前模态是Query，也就是让当前模态吸收另一个模态的紧凑特征信息。

经过注意力的分配之后，类似Transformer原本的架构，也经过一个FFN，但这里就是和Adapter的设计一样，先降维，然后激活，再升维。

LAVISH与原本的模块呈现并行关系，每一层会在注意力块和FFN块都添加一个并行的LAVISH。

所以，需要训练的参数仅为降维和升维的参数以及几乎可以忽略的 $g$ 。

LAVISH下游任务

通过这种即插即用的设计，LAVISH可以应用在多个下游任务中，（a）任务就特征拼接+MLP分类，（b）任务使用了U-Net的结构，（c）任务使用了MUSIC-AVQA数据集的Baseline。

LAVISH使用的Baseline是Swin-V2-L网络。

实验结果

两个大表摆出来，作者主要关注的是是否使用额外的音频预训练数据集以及训练的参数量，可以发现在不使用AudioSet预训练的情况下，LAVISH的结果已经超过了大部分模型，在于MBT的比较中，虽然使用Base的ViT效果比它差，但是LAVISH训练参数少，可用更大的Backbone进行超越，更别说MBT还要用AST这个额外的预训练模型。与CMBS的比较中，同样训练参数量小，但是LAVISH效果好，参数量还更少。

表2、3也是基本一样的比较思路，此外作者还进行了表4所示的动作识别任务，效果也十分惊艳。