基于梯度下降算法的Zero-shot Captioning方法
介绍三篇文章,通过梯度下降算法来做zero-shot的image/video captioning,整个过程需要用到一个语言模型(如GPT-2)和一个多模态对比学习模型(如CLIP)。
论文笔记 Semantic-SAM:Segment and Recognize Anything at Any Granularity
香港科技大学6月挂在Arxiv上的一篇文章,使用SAM的数据集和思想,构建了一个能够分割更多种粒度的模型Semantic-SAM。模型主要贡献是能够感知语义且能够提供更多的粒度。
论文笔记 Segment Anything
Segment Anything是Meta AI发布的非常火的图像分割相关论文,提出了Segment Anything Model(SAM)模型,开启了图像分割领域的新范式。