Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

论文笔记 OvarNet:Towards Open-vocabulary Object Attribute Recognition

北航、小红书和上交联合做的Open-vocabulary目标属性识别,提出了OvarNet模型,该模型能够检测任意目标以及其任意属性。由于目前缺少拥有足够标记的数据集,其采用了一种federated策略来组合多个数据集并得到能够获取属性语义的CLIP模型,同时还能够利用image-caption pairs。

2023-07-21
论文笔记
OvarNet Object Attribute Recognition Open-vocabulary

论文笔记 Semantic-SAM:Segment and Recognize Anything at Any Granularity

香港科技大学6月挂在Arxiv上的一篇文章,使用SAM的数据集和思想,构建了一个能够分割更多种粒度的模型Semantic-SAM。模型主要贡献是能够感知语义且能够提供更多的粒度。

2023-07-20
论文笔记
Deformable SAM

论文笔记 Deformable ConvNet v1+v2+DETR

最近看到Deformable attention越来越多,于是关注到了Deformable这个东西,本文从起源开始介绍三篇经典的CV相关使用Deformable的论文。文本只介绍其方法,对实验和背景不展开过多的叙述。

2023-07-20
论文笔记
Deformable Deformable DETR
论文笔记 Segment Anything

论文笔记 Segment Anything

Segment Anything是Meta AI发布的非常火的图像分割相关论文,提出了Segment Anything Model(SAM)模型,开启了图像分割领域的新范式。

2023-07-18
论文笔记
Segment Anything zero-shot

论文笔记 Segment Any Anomaly without Training via Hybrid Prompt Regularization

文章提出了一种通过利用视觉基础模型进行图像异常分割的zero-shot方法,该方法使用Grounding DINO + SAM + Regularization,在不进行任何训练的情况下进行图像异常分割,并通过融合多种prompt为基础模型注入异常检测领域的专业知识。最终在多个数据集上SOTA。

2023-07-07
论文笔记
CVPR23 Anomaly Segmentation Segment Anything zero-shot

论文笔记 Streaming Video Model

中国科技大学学生在微软实习的一篇CVPR2023论文,论文的标题野心很大,叫作Streaming Video Model,视频流模型。文章提出了一种Streaming Vision Transformer(S-ViT)模型,其统一了以序列为基础的任务(行为识别)和以帧为基础的任务(多物体跟踪),并能够高效处理长视频。

2023-07-06
论文笔记
CVPR23

CVPR2023 Tutorial Prompting in Vision笔记

CVPR2023 Tutorial Prompting in Vision的笔记,内含PPT下载。

2023-07-05
学习笔记
CVPR2023 Tutorial

多模态哈希检索初见

多模态检索就是使用一种模态的数据对另一种模态进行检索,比如以文搜图等,用来检索的数据叫作query,被检索的库叫作dataset。哈希检索则是将query和dataset的原始特征映射到二进制编码中,从而提升检索速度。本笔记通过阅读下面这个综述得来,如有错误见谅。

2023-07-05
学习笔记
多模态检索 哈希检索

论文笔记 FLIP Scaling Language-Image Pre-training via Masking论文笔记

Meta AI的CVPR2023论文,Kaiming He是通讯。论文受到MAE的启发,把图像的部分区域Mask掉之后送入视觉编码器,和MAE一样,被Mask的Patch直接丢弃而不是替换为`[MASK]`的Token,所以能够提升训练效率。而这篇论文还发现,只做Mask,不做Reconstruct的效果也很好。

2023-06-25
论文笔记
VLP CVPR23

论文笔记 FILIP Fine-grained Interactive Language-Image Pre-training

华为、中山、香港科技大学的ICLR2022论文,介绍了一种非常简单的细粒度交互的对比学习方法,以patch和token级别进行对比学习,从而使训练出的FILIP模型得到优秀的细粒度特征和定位能力。

2023-06-25
论文笔记
VLP ICLR22
1…45678…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人