归档 - Kamino's Blog

多模态哈希检索初见 07-05

论文笔记 FLIP Scaling Language-Image Pre-training via Masking论文笔记 06-25

论文笔记 FILIP Fine-grained Interactive Language-Image Pre-training 06-25

论文笔记 LiT Zero-Shot Transfer with Locked-image text Tuning 06-24

论文笔记 Image Captioners Are Scalable Vision Learners Too 06-24

论文笔记 Towards Diverse Paragraph Captioning for Untrimmed Videos 06-06

多模态语言模型发展观察 05-08

论文笔记 Vision Transformers are Parameter-Efficient Audio-Visual Learners 04-28

论文笔记两篇关于Audio-Visual定位的论文 03-27

论文笔记 CoCa 与 VideoCoCa 03-21