论文笔记 mPLUG Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 阿里巴巴达摩院于22年5月发布的大规模视觉-语言预训练模型——mPLUG,该模型在多个视觉-语言的下游任务(包括分类和生成任务)直到本文写的时间为止都处于SOTA,并且在运行速度上也有较大的提升。其主要设计了一种新的跨模态skip-connected网络。 2023-02-01 论文笔记 多模态预训练
论文笔记 X-VLM Multi-Grained Vision Language Pre-Training Aligning Texts with Visual Concepts 来自字节跳动的发布于ICML2022上的一个多模态的视觉-语言预训练模型:X-VLM,其将图像中的视觉概念与文本以不同粒度关联起来,如图1,其他方法要不然就像(a)那样依赖于目标检测模型,要不然就像(b)那样将文本与整副图像关联,而X-VLM则是(c)这样将不同文本关联到图像的不同位置上,并且不需要预训练的目标检测模型。 2023-01-29 论文笔记 多模态预训练 ICML2022
图神经网络学习笔记:从GCN到GAT再到Relation-aware GNN 我学习图神经网络的入门学习笔记,本篇主要从图神经网络框架开始,介绍基础的图卷积神经网络(GCN),再介绍学习边注意力的图注意力网络(GAT),最后到与边种类有关的Relation-aware的图神经网络。 2023-01-08 论文笔记 图神经网络 GAT GCN Relation-aware
《知识增强的预训练语言模型》论文简单翻译 简简单单翻译这篇论文,可能有错误,仅供参考。原文第五章Evaluating KEPLMs由于兴趣不足没有翻译。参考文献的序号并没有全部标上,详细可以看原文。 2023-01-03 论文笔记 PLM Knowledge-Enhanced
DEKCOR:使用外部知识来进行常识QA任务 本文进行常识问答任务(Commonsense Question Answering),利用了外部知识源ConceptNet和Wikitionary。 2022-12-05 论文笔记 QA ConceptNet Wikitionary
Detecting Twenty-thousand Classes using Image-level Supervision论文笔记(以及目标检测基础知识) 本文提出了一个Detic的目标检测模型,它能通过利用Image-level的监督标签学习(可以算是弱监督),从而实现20000多类(甚至更多)的检测,并且这种模式能够简单应用于其他检测架构或套用其他backbone。同时,Detic实现的还是open-vocabulary的检测,可以不局限于数据集的标注,不finetune的情况下检测出新的目标。 2022-11-16 论文笔记 Detic Object Detection Faster RCNN ECCV2022
知识图谱(Knowledge Graph)与计算机视觉(Computer Vision)结合初见笔记 一些KG与CV结合的论文笔记,每篇论文只说清楚结合的大概方法以供参考。 2022-11-07 论文笔记 ConceptNet Knowledge Graph GNN Graph Neural Network
SmallCap:Lightweight Image Captioning Prompted with Retrieval Augmentation 论文笔记 本文是22年9月底的一篇新论文,提出了一个轻量的Image Captioning模型,其包括1.8M/3.6M/7M 三个拥有不同可训练参数版本的小模型,相较于其他轻量模型,SmallCap更轻且效果和其它有可比性甚至超越。其通过Image-text检索,从数据库中检索出与图片相近的句子,然后通过Prompt的方式输入一个语言模型来得到最终的Caption。 2022-10-27 论文笔记 Image Captioning SmallCap 小模型
MakeFile入门笔记 平时开发和配置环境时有时会需要编译c,就经常遇见这个东西,刚好上课也学这个东西,就稍微学一些MakeFile。因为也是入门,所以可能比较乱。 2022-10-18 学习笔记 技术杂文 MakeFile