论文笔记 Vision Transformers are Parameter-Efficient Audio-Visual Learners

CVPR2023的一篇关于少参数训练多模态视音频模型的论文，使用了最近火热的Parameter-Efficient的方式，将ViT冻结，通过只训练一种叫作LAVisH的Adapter进行音频编码和模态融合，从而以极低的参数量达到令人满意的效果。

2023-04-28

论文笔记

视音频

论文笔记两篇关于Audio-Visual定位的论文

ECCV2018的论文，这篇文章提出了Audio-Visual Event Localization的任务，作者定义一个Audio-Visual Event就是同时会出现在视觉和音频中的事件，并以此收集了一个AVE数据集来进行三种任务：监督视听事件定位、弱监督视听事件定位、跨模态定位。作者提出了一个双模态残差网络（DMRN）学习这些任务。

2023-03-27

论文笔记

视音频

论文笔记 CoCa 与 VideoCoCa

CoCa和VideoCoCa都是Google Research提出的多模态预训练模型，前者于2022年年中发布，后者于23年初发布。CoCa的名字来源于Contrastive和Caption，顾名思义就是通过对比学习和生成描述这两个任务来进行训练，从而使模型能够适应更多的包含单模态和多模态的下游任务。VideoCoCa就是将CoCa从图像-文本的训练延伸到视频-文本训练，从而更加适应视频领域的一些

2023-03-21

论文笔记

多模态预训练 CoCa VideoCoCa

论文笔记 STOA-VLP：Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training

哈工大、腾讯、鹏程实验室于2023年2月挂到Arxiv上的多模态预训练模型，其通过对视频中的目标和动作进行时空建模来提升视觉-语言模型细粒度性能。模型提出了一个建模目标轨迹的模块和一个建模动作的模块，并相应添加了对齐目标轨迹-语言和对齐动作-语言的损失函数。

2023-03-20

论文笔记

多模态预训练

论文笔记 mPLUG-2：A Modularized Multi-modal Foundation Model Across Text, Image and Video

阿里巴巴达摩院于23年2月发布的大规模视觉-语言预训练模型——**mPLUG-2**，相较于前作mPLUG，本次将模型拓展到了视频领域，总共在30多个下游任务上进行试验，并取得很多SOTA。并且本作没有像前作那样突出减少运算时间，而是在训练效率和有效性上有长进。mPLUG2是一个多模块结合的模型，通过不同的模块能够应对“模态纠缠”的问题，不同任务可以选择性地使用部分模块。

2023-03-18

论文笔记

多模态预训练

Image Captioning常用指标CIDEr原理

CIDEr是论文CIDEr Consensus-based Image Description Evaluation提出的一种评价模型生成的一条文本与多个标签文本的相似度的方法，本文对其原理进行介绍。

2023-03-16

学习笔记

Image Captioning NLP CIDEr

论文笔记 Self-critical Sequence Training for Image Captioning

本文发表在CVPR2017，这篇文章提出了SCST的训练方式，其使用了一种强化学习的方式来提升Image Captioning模型的性能，作者将评价时使用的不可微分的指标直接作为优化对象，能够简单有效地提分，后面各路模型在做Image Captioning的时候也会带上它。

2023-03-16

论文笔记

Image Captioning 强化学习 SCST

学习笔记 Gumbel-Softmax分布

Gumbel-Softmax Trick是一种常用于将离散随机变量（例如分类任务中的类别）转化为连续随机变量的技巧，又被叫做Concrete分布。这个技巧最早被应用于生成模型中，特别是针对离散输出的生成模型。本文是学习这种技巧的学习笔记。

2023-03-15

学习笔记

Gumbel-Softmax

论文笔记两篇分析多头注意力的论文

本文介绍两篇分析Transformer中多头注意力的论文，第一篇促使不同head关注不同的地方，第二篇对每个head的重要性、功能进行分析，并依次对一些头进行剪枝。

2023-03-13

论文笔记

Multi-head Attention

论文笔记 XCLIP Expanding Language-Image Pretrained Models for General Video Recognition

微软和中国科学院发表于ECCV2022的一篇文章，提出了XCLIP模型，其利用了现有的大规模图像-文本预训练模型，设计了一种简单并有效的方法将其扩展至视频识别领域，在K400数据集上以1/12的FLOPs超过Swin和ViViT成为SOTA。

2023-03-01

论文笔记

XCLIP 行为识别