论文笔记 Self-critical Sequence Training for Image Captioning 本文发表在CVPR2017,这篇文章提出了SCST的训练方式,其使用了一种强化学习的方式来提升Image Captioning模型的性能,作者将评价时使用的不可微分的指标直接作为优化对象,能够简单有效地提分,后面各路模型在做Image Captioning的时候也会带上它。 2023-03-16 论文笔记 Image Captioning 强化学习 SCST
学习笔记 Gumbel-Softmax分布 Gumbel-Softmax Trick是一种常用于将离散随机变量(例如分类任务中的类别)转化为连续随机变量的技巧,又被叫做Concrete分布。这个技巧最早被应用于生成模型中,特别是针对离散输出的生成模型。本文是学习这种技巧的学习笔记。 2023-03-15 学习笔记 Gumbel-Softmax
论文笔记 两篇分析多头注意力的论文 本文介绍两篇分析Transformer中多头注意力的论文,第一篇促使不同head关注不同的地方,第二篇对每个head的重要性、功能进行分析,并依次对一些头进行剪枝。 2023-03-13 论文笔记 Multi-head Attention
论文笔记 XCLIP Expanding Language-Image Pretrained Models for General Video Recognition 微软和中国科学院发表于ECCV2022的一篇文章,提出了XCLIP模型,其利用了现有的大规模图像-文本预训练模型,设计了一种简单并有效的方法将其扩展至视频识别领域,在K400数据集上以1/12的FLOPs超过Swin和ViViT成为SOTA。 2023-03-01 论文笔记 XCLIP 行为识别
论文笔记 BLIP-2 Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Salesforce团队于2023年1月发布的大规模视觉-语言预训练模型,在前作BLIP的基础上发展而来,BLIP2展示了一种利用已有的大型图像编码器(如CLIP)和大型语言模型(如OPT、GPT)的训练方式,其中这两个模型在训练时均不更新参数,而是只学习连接两者的一个仅有186M参数的Q-Former。这种架构能够适应并利用如今的各种图像编码器和语言模型,并且由于冻结了大部分参数,在计算上也有巨 2023-02-17 论文笔记 先进模型速览 大规模视觉语言预训练
论文笔记 Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge Integration ECML PKDD 2021会议论文,文章通过常识融合提升了场景图(Scene Graph)关系生成的Zero-shot性能。其提出了Coacher架构,针对知识图谱中节点的邻居和路径进行建模,本文主要关注其对常识的利用。 2023-02-08 论文笔记 Video Captioning 知识图谱 ConceptNet 场景图生成 SGG
论文笔记 mPLUG Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 阿里巴巴达摩院于22年5月发布的大规模视觉-语言预训练模型——mPLUG,该模型在多个视觉-语言的下游任务(包括分类和生成任务)直到本文写的时间为止都处于SOTA,并且在运行速度上也有较大的提升。其主要设计了一种新的跨模态skip-connected网络。 2023-02-01 论文笔记 多模态预训练
论文笔记 X-VLM Multi-Grained Vision Language Pre-Training Aligning Texts with Visual Concepts 来自字节跳动的发布于ICML2022上的一个多模态的视觉-语言预训练模型:X-VLM,其将图像中的视觉概念与文本以不同粒度关联起来,如图1,其他方法要不然就像(a)那样依赖于目标检测模型,要不然就像(b)那样将文本与整副图像关联,而X-VLM则是(c)这样将不同文本关联到图像的不同位置上,并且不需要预训练的目标检测模型。 2023-01-29 论文笔记 多模态预训练 ICML2022
图神经网络学习笔记:从GCN到GAT再到Relation-aware GNN 我学习图神经网络的入门学习笔记,本篇主要从图神经网络框架开始,介绍基础的图卷积神经网络(GCN),再介绍学习边注意力的图注意力网络(GAT),最后到与边种类有关的Relation-aware的图神经网络。 2023-01-08 论文笔记 图神经网络 GAT GCN Relation-aware
《知识增强的预训练语言模型》论文简单翻译 简简单单翻译这篇论文,可能有错误,仅供参考。原文第五章Evaluating KEPLMs由于兴趣不足没有翻译。参考文献的序号并没有全部标上,详细可以看原文。 2023-01-03 论文笔记 PLM Knowledge-Enhanced