Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

论文笔记 Segment Any Anomaly without Training via Hybrid Prompt Regularization

文章提出了一种通过利用视觉基础模型进行图像异常分割的zero-shot方法,该方法使用Grounding DINO + SAM + Regularization,在不进行任何训练的情况下进行图像异常分割,并通过融合多种prompt为基础模型注入异常检测领域的专业知识。最终在多个数据集上SOTA。

2023-07-07
论文笔记
CVPR23 Anomaly Segmentation Segment Anything zero-shot

论文笔记 Streaming Video Model

中国科技大学学生在微软实习的一篇CVPR2023论文,论文的标题野心很大,叫作Streaming Video Model,视频流模型。文章提出了一种Streaming Vision Transformer(S-ViT)模型,其统一了以序列为基础的任务(行为识别)和以帧为基础的任务(多物体跟踪),并能够高效处理长视频。

2023-07-06
论文笔记
CVPR23

CVPR2023 Tutorial Prompting in Vision笔记

CVPR2023 Tutorial Prompting in Vision的笔记,内含PPT下载。

2023-07-05
学习笔记
CVPR2023 Tutorial

多模态哈希检索初见

多模态检索就是使用一种模态的数据对另一种模态进行检索,比如以文搜图等,用来检索的数据叫作query,被检索的库叫作dataset。哈希检索则是将query和dataset的原始特征映射到二进制编码中,从而提升检索速度。本笔记通过阅读下面这个综述得来,如有错误见谅。

2023-07-05
学习笔记
多模态检索 哈希检索

论文笔记 FLIP Scaling Language-Image Pre-training via Masking论文笔记

Meta AI的CVPR2023论文,Kaiming He是通讯。论文受到MAE的启发,把图像的部分区域Mask掉之后送入视觉编码器,和MAE一样,被Mask的Patch直接丢弃而不是替换为`[MASK]`的Token,所以能够提升训练效率。而这篇论文还发现,只做Mask,不做Reconstruct的效果也很好。

2023-06-25
论文笔记
VLP CVPR23

论文笔记 FILIP Fine-grained Interactive Language-Image Pre-training

华为、中山、香港科技大学的ICLR2022论文,介绍了一种非常简单的细粒度交互的对比学习方法,以patch和token级别进行对比学习,从而使训练出的FILIP模型得到优秀的细粒度特征和定位能力。

2023-06-25
论文笔记
VLP ICLR22

论文笔记 LiT Zero-Shot Transfer with Locked-image text Tuning

Google Brain的CVPR2022论文,探索一种将视觉模型通过对比调优迁移至图像-文本领域,从而展现跨模态能力的方法。方法名称叫做Locked-image Tuning(LiT),非常直白,就是将一个预训练的图像编码器冻结,再令一个文本编码器从零开始学习与图像表征对齐。

2023-06-24
论文笔记
VLP CVPR22

论文笔记 Image Captioners Are Scalable Vision Learners Too

Google DeepMind 6/13在Arxiv挂上的一篇revisit类的论文,实验非常扎实,结论是说在做图像-文本预训练的时候,仅使用Caption任务也可以像CLIP那样获得不错的效果(“不错”指Scalable和zero-shot Effective)。

2023-06-24
论文笔记
VLP

论文笔记 Towards Diverse Paragraph Captioning for Untrimmed Videos

文章提出了一种适合长视频的一步段落视频描述方法。传统段落视频描述需要两步,先预测视频片段,再对每一个片段进行描述,这种方式受限于预测片段的准确程度,并且语言连贯性不高。若要一步实现,那么就会面临成百上千的帧数以及长尾效应。本文提出了一种一步段落描述的模型,该模型包含关键帧选择模块和视频记忆模块,能够从长视频中逐步选取关键片段进行段落描述。

2023-06-06
论文笔记
Paragraph Video Captioning

多模态语言模型发展观察

这篇博客介绍的多模态语言模型指通过视觉提示生成器将其他模态(图像)的数据转换为Prompt Embedding,再提供给大型语言模型(LLM),从而构建出来的具备多模态对话能力的模型。博客将介绍BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、VPGTrans这些最新的多模态LLM方法。

2023-05-08
论文笔记
多模态语言模型 BLIP-2 LLaVA MiniGPT-4 mPLUG-Owl VPGTrans
1…56789…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人