论文笔记 LiT Zero-Shot Transfer with Locked-image text Tuning Google Brain的CVPR2022论文,探索一种将视觉模型通过对比调优迁移至图像-文本领域,从而展现跨模态能力的方法。方法名称叫做Locked-image Tuning(LiT),非常直白,就是将一个预训练的图像编码器冻结,再令一个文本编码器从零开始学习与图像表征对齐。 2023-06-24 论文笔记 VLP CVPR22
论文笔记 Image Captioners Are Scalable Vision Learners Too Google DeepMind 6/13在Arxiv挂上的一篇revisit类的论文,实验非常扎实,结论是说在做图像-文本预训练的时候,仅使用Caption任务也可以像CLIP那样获得不错的效果(“不错”指Scalable和zero-shot Effective)。 2023-06-24 论文笔记 VLP
论文笔记 Towards Diverse Paragraph Captioning for Untrimmed Videos 文章提出了一种适合长视频的一步段落视频描述方法。传统段落视频描述需要两步,先预测视频片段,再对每一个片段进行描述,这种方式受限于预测片段的准确程度,并且语言连贯性不高。若要一步实现,那么就会面临成百上千的帧数以及长尾效应。本文提出了一种一步段落描述的模型,该模型包含关键帧选择模块和视频记忆模块,能够从长视频中逐步选取关键片段进行段落描述。 2023-06-06 论文笔记 Paragraph Video Captioning
多模态语言模型发展观察 这篇博客介绍的多模态语言模型指通过视觉提示生成器将其他模态(图像)的数据转换为Prompt Embedding,再提供给大型语言模型(LLM),从而构建出来的具备多模态对话能力的模型。博客将介绍BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、VPGTrans这些最新的多模态LLM方法。 2023-05-08 论文笔记 多模态语言模型 BLIP-2 LLaVA MiniGPT-4 mPLUG-Owl VPGTrans
论文笔记 Vision Transformers are Parameter-Efficient Audio-Visual Learners CVPR2023的一篇关于少参数训练多模态视音频模型的论文,使用了最近火热的Parameter-Efficient的方式,将ViT冻结,通过只训练一种叫作LAVisH的Adapter进行音频编码和模态融合,从而以极低的参数量达到令人满意的效果。 2023-04-28 论文笔记 视音频
论文笔记 两篇关于Audio-Visual定位的论文 ECCV2018的论文,这篇文章提出了Audio-Visual Event Localization的任务,作者定义一个Audio-Visual Event就是同时会出现在视觉和音频中的事件,并以此收集了一个AVE数据集来进行三种任务:监督视听事件定位、弱监督视听事件定位、跨模态定位。作者提出了一个双模态残差网络(DMRN)学习这些任务。 2023-03-27 论文笔记 视音频
论文笔记 CoCa 与 VideoCoCa CoCa和VideoCoCa都是Google Research提出的多模态预训练模型,前者于2022年年中发布,后者于23年初发布。CoCa的名字来源于Contrastive和Caption,顾名思义就是通过对比学习和生成描述这两个任务来进行训练,从而使模型能够适应更多的包含单模态和多模态的下游任务。VideoCoCa就是将CoCa从图像-文本的训练延伸到视频-文本训练,从而更加适应视频领域的一些 2023-03-21 论文笔记 多模态预训练 CoCa VideoCoCa
论文笔记 STOA-VLP:Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training 哈工大、腾讯、鹏程实验室于2023年2月挂到Arxiv上的多模态预训练模型,其通过对视频中的目标和动作进行时空建模来提升视觉-语言模型细粒度性能。模型提出了一个建模目标轨迹的模块和一个建模动作的模块,并相应添加了对齐目标轨迹-语言和对齐动作-语言的损失函数。 2023-03-20 论文笔记 多模态预训练
论文笔记 mPLUG-2:A Modularized Multi-modal Foundation Model Across Text, Image and Video 阿里巴巴达摩院于23年2月发布的大规模视觉-语言预训练模型——**mPLUG-2**,相较于前作mPLUG,本次将模型拓展到了视频领域,总共在30多个下游任务上进行试验,并取得很多SOTA。并且本作没有像前作那样突出减少运算时间,而是在训练效率和有效性上有长进。mPLUG2是一个多模块结合的模型,通过不同的模块能够应对“模态纠缠”的问题,不同任务可以选择性地使用部分模块。 2023-03-18 论文笔记 多模态预训练
Image Captioning常用指标CIDEr原理 CIDEr是论文CIDEr Consensus-based Image Description Evaluation提出的一种评价模型生成的一条文本与多个标签文本的相似度的方法,本文对其原理进行介绍。 2023-03-16 学习笔记 Image Captioning NLP CIDEr