论文笔记 Segment Any Anomaly without Training via Hybrid Prompt Regularization

文章提出了一种通过利用视觉基础模型进行图像异常分割的zero-shot方法，该方法使用Grounding DINO + SAM + Regularization，在不进行任何训练的情况下进行图像异常分割，并通过融合多种prompt为基础模型注入异常检测领域的专业知识。最终在多个数据集上SOTA。

2023-07-07

论文笔记

CVPR23 Anomaly Segmentation Segment Anything zero-shot

论文笔记 Streaming Video Model

中国科技大学学生在微软实习的一篇CVPR2023论文，论文的标题野心很大，叫作Streaming Video Model，视频流模型。文章提出了一种Streaming Vision Transformer（S-ViT）模型，其统一了以序列为基础的任务（行为识别）和以帧为基础的任务（多物体跟踪），并能够高效处理长视频。

2023-07-06

论文笔记

CVPR23

CVPR2023 Tutorial Prompting in Vision笔记

CVPR2023 Tutorial Prompting in Vision的笔记，内含PPT下载。

2023-07-05

学习笔记

CVPR2023 Tutorial

多模态哈希检索初见

多模态检索就是使用一种模态的数据对另一种模态进行检索，比如以文搜图等，用来检索的数据叫作query，被检索的库叫作dataset。哈希检索则是将query和dataset的原始特征映射到二进制编码中，从而提升检索速度。本笔记通过阅读下面这个综述得来，如有错误见谅。

2023-07-05

学习笔记

多模态检索哈希检索

论文笔记 FLIP Scaling Language-Image Pre-training via Masking论文笔记

Meta AI的CVPR2023论文，Kaiming He是通讯。论文受到MAE的启发，把图像的部分区域Mask掉之后送入视觉编码器，和MAE一样，被Mask的Patch直接丢弃而不是替换为`[MASK]`的Token，所以能够提升训练效率。而这篇论文还发现，只做Mask，不做Reconstruct的效果也很好。

2023-06-25

论文笔记

VLP CVPR23

论文笔记 FILIP Fine-grained Interactive Language-Image Pre-training

华为、中山、香港科技大学的ICLR2022论文，介绍了一种非常简单的细粒度交互的对比学习方法，以patch和token级别进行对比学习，从而使训练出的FILIP模型得到优秀的细粒度特征和定位能力。

2023-06-25

论文笔记

VLP ICLR22

论文笔记 LiT Zero-Shot Transfer with Locked-image text Tuning

Google Brain的CVPR2022论文，探索一种将视觉模型通过对比调优迁移至图像-文本领域，从而展现跨模态能力的方法。方法名称叫做Locked-image Tuning（LiT），非常直白，就是将一个预训练的图像编码器冻结，再令一个文本编码器从零开始学习与图像表征对齐。

2023-06-24

论文笔记

VLP CVPR22

论文笔记 Image Captioners Are Scalable Vision Learners Too

Google DeepMind 6/13在Arxiv挂上的一篇revisit类的论文，实验非常扎实，结论是说在做图像-文本预训练的时候，仅使用Caption任务也可以像CLIP那样获得不错的效果（“不错”指Scalable和zero-shot Effective）。

2023-06-24

论文笔记

VLP

论文笔记 Towards Diverse Paragraph Captioning for Untrimmed Videos

文章提出了一种适合长视频的一步段落视频描述方法。传统段落视频描述需要两步，先预测视频片段，再对每一个片段进行描述，这种方式受限于预测片段的准确程度，并且语言连贯性不高。若要一步实现，那么就会面临成百上千的帧数以及长尾效应。本文提出了一种一步段落描述的模型，该模型包含关键帧选择模块和视频记忆模块，能够从长视频中逐步选取关键片段进行段落描述。

2023-06-06

论文笔记

Paragraph Video Captioning

多模态语言模型发展观察

这篇博客介绍的多模态语言模型指通过视觉提示生成器将其他模态（图像）的数据转换为Prompt Embedding，再提供给大型语言模型（LLM），从而构建出来的具备多模态对话能力的模型。博客将介绍BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、VPGTrans这些最新的多模态LLM方法。

2023-05-08

论文笔记

多模态语言模型 BLIP-2 LLaVA MiniGPT-4 mPLUG-Owl VPGTrans