论文笔记 BLIP-2 Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Salesforce团队于2023年1月发布的大规模视觉-语言预训练模型，在前作BLIP的基础上发展而来，BLIP2展示了一种利用已有的大型图像编码器（如CLIP）和大型语言模型（如OPT、GPT）的训练方式，其中这两个模型在训练时均不更新参数，而是只学习连接两者的一个仅有186M参数的Q-Former。这种架构能够适应并利用如今的各种图像编码器和语言模型，并且由于冻结了大部分参数，在计算上也有巨

2023-02-17

论文笔记先进模型速览

大规模视觉语言预训练

论文笔记 Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge Integration

ECML PKDD 2021会议论文，文章通过常识融合提升了场景图（Scene Graph）关系生成的Zero-shot性能。其提出了Coacher架构，针对知识图谱中节点的邻居和路径进行建模，本文主要关注其对常识的利用。

2023-02-08

论文笔记

Video Captioning 知识图谱 ConceptNet 场景图生成 SGG

论文笔记 mPLUG Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

阿里巴巴达摩院于22年5月发布的大规模视觉-语言预训练模型——mPLUG，该模型在多个视觉-语言的下游任务（包括分类和生成任务）直到本文写的时间为止都处于SOTA，并且在运行速度上也有较大的提升。其主要设计了一种新的跨模态skip-connected网络。

2023-02-01

论文笔记

多模态预训练

论文笔记 X-VLM Multi-Grained Vision Language Pre-Training Aligning Texts with Visual Concepts

来自字节跳动的发布于ICML2022上的一个多模态的视觉-语言预训练模型：X-VLM，其将图像中的视觉概念与文本以不同粒度关联起来，如图1，其他方法要不然就像(a)那样依赖于目标检测模型，要不然就像(b)那样将文本与整副图像关联，而X-VLM则是(c)这样将不同文本关联到图像的不同位置上，并且不需要预训练的目标检测模型。

2023-01-29

论文笔记

多模态预训练 ICML2022

图神经网络学习笔记：从GCN到GAT再到Relation-aware GNN

我学习图神经网络的入门学习笔记，本篇主要从图神经网络框架开始，介绍基础的图卷积神经网络（GCN），再介绍学习边注意力的图注意力网络（GAT），最后到与边种类有关的Relation-aware的图神经网络。

2023-01-08

论文笔记

图神经网络 GAT GCN Relation-aware

《知识增强的预训练语言模型》论文简单翻译

简简单单翻译这篇论文，可能有错误，仅供参考。原文第五章Evaluating KEPLMs由于兴趣不足没有翻译。参考文献的序号并没有全部标上，详细可以看原文。

2023-01-03

论文笔记

PLM Knowledge-Enhanced

DEKCOR：使用外部知识来进行常识QA任务

本文进行常识问答任务（Commonsense Question Answering），利用了外部知识源ConceptNet和Wikitionary。

2022-12-05

论文笔记

QA ConceptNet Wikitionary

Detecting Twenty-thousand Classes using Image-level Supervision论文笔记（以及目标检测基础知识）

本文提出了一个Detic的目标检测模型，它能通过利用Image-level的监督标签学习（可以算是弱监督），从而实现20000多类（甚至更多）的检测，并且这种模式能够简单应用于其他检测架构或套用其他backbone。同时，Detic实现的还是open-vocabulary的检测，可以不局限于数据集的标注，不finetune的情况下检测出新的目标。

2022-11-16

论文笔记

Detic Object Detection Faster RCNN ECCV2022

知识图谱（Knowledge Graph）与计算机视觉（Computer Vision）结合初见笔记

一些KG与CV结合的论文笔记，每篇论文只说清楚结合的大概方法以供参考。

2022-11-07

论文笔记

ConceptNet Knowledge Graph GNN Graph Neural Network

SmallCap：Lightweight Image Captioning Prompted with Retrieval Augmentation 论文笔记

本文是22年9月底的一篇新论文，提出了一个轻量的Image Captioning模型，其包括1.8M/3.6M/7M 三个拥有不同可训练参数版本的小模型，相较于其他轻量模型，SmallCap更轻且效果和其它有可比性甚至超越。其通过Image-text检索，从数据库中检索出与图片相近的句子，然后通过Prompt的方式输入一个语言模型来得到最终的Caption。

2022-10-27

论文笔记

Image Captioning SmallCap 小模型