Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

DEKCOR:使用外部知识来进行常识QA任务

本文进行常识问答任务(Commonsense Question Answering),利用了外部知识源ConceptNet和Wikitionary。

2022-12-05
论文笔记
QA ConceptNet Wikitionary

Detecting Twenty-thousand Classes using Image-level Supervision论文笔记(以及目标检测基础知识)

本文提出了一个Detic的目标检测模型,它能通过利用Image-level的监督标签学习(可以算是弱监督),从而实现20000多类(甚至更多)的检测,并且这种模式能够简单应用于其他检测架构或套用其他backbone。同时,Detic实现的还是open-vocabulary的检测,可以不局限于数据集的标注,不finetune的情况下检测出新的目标。

2022-11-16
论文笔记
Detic Object Detection Faster RCNN ECCV2022

知识图谱(Knowledge Graph)与计算机视觉(Computer Vision)结合初见笔记

一些KG与CV结合的论文笔记,每篇论文只说清楚结合的大概方法以供参考。

2022-11-07
论文笔记
ConceptNet Knowledge Graph GNN Graph Neural Network

SmallCap:Lightweight Image Captioning Prompted with Retrieval Augmentation 论文笔记

本文是22年9月底的一篇新论文,提出了一个轻量的Image Captioning模型,其包括1.8M/3.6M/7M 三个拥有不同可训练参数版本的小模型,相较于其他轻量模型,SmallCap更轻且效果和其它有可比性甚至超越。其通过Image-text检索,从数据库中检索出与图片相近的句子,然后通过Prompt的方式输入一个语言模型来得到最终的Caption。

2022-10-27
论文笔记
Image Captioning SmallCap 小模型

MakeFile入门笔记

平时开发和配置环境时有时会需要编译c,就经常遇见这个东西,刚好上课也学这个东西,就稍微学一些MakeFile。因为也是入门,所以可能比较乱。

2022-10-18
学习笔记 技术杂文
MakeFile
Docker入门笔记

Docker入门笔记

我入门Docker的笔记,基本都是网上各路搜集来的资料,包含了Docker的解释、安装和使用。

2022-10-17
学习笔记 技术杂文
Docker

Linux下搭建rdp/ssh客户端+easyconnect环境 远程连接实验室服务器

为了学习Linux以及方便开发,在电脑上装了Ubuntu系统,但是平常也需要连接到实验室的多卡服务器上跑代码,所以配置了Ubuntu上通过RDP远程连接的环境。但是校园网一直都慢慢的,也不一定连得上,不如通过代理连接,我学校用的是EasyConnect,于是也花了几天都将其配置好了,记录如下。

2022-10-16
Ubuntu EasyConnect Remmina WindTerm

End-to-end Generative Pretraining for Multimodal Video Captioning 论文笔记

本文是一篇来自Google的CVPR2022论文, 本文提出了一个大规模多模态预训练框架,与其他基于MLM、MFM、VTM和排序的方法不同,其采用生成式任务进行预训练,这样能够更好地适配Video Captioning这样的生成式任务。具体来说本文提出的训练任务是通过视频中ASR识别的上一句来预测下一句(或相反),实验表明这种方式在多个数据集上SOTA。

2022-10-12
论文笔记
Video Captioning MV-GPT

GIT A Generative Image-to-text Transformer for Vision and Language 论文笔记

Arxiv上Preprint的一篇微软的论文,结构比较简单(或者叫通俗),用Image Encoder先编码图像,然后图像和文本在一个类BERT的模型中训练,没有对视频做特别的优化,但在各个任务上都SOTA。

2022-10-11
论文笔记
Video Captioning GIT

SwinBERT End-to-End Transformers with Sparse Attention for Video Captioning 论文笔记

这是CVPR2022的一篇来自微软的论文,他们使用自家的SwinTransformer,提出了一种进行Video Captioning任务的End-to-End的网络。这个网络没有利用多模态特征,只使用了经过运动数据集预训练得到的Swin来提取特征。

2022-10-10
论文笔记
Video Captioning SwinBERT
1…7891011…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人