论文笔记 InternVideo:General Video Foundation Models via Generative and Discriminative Learning
上海人工智能实验室的OpenGVLab的一个视觉为主的多模态基础模型 InternVideo,2022年12月发布。本文大致介绍其idea、架构、训练方法和部分实验,由于知识受限,不会过于深入。
上海人工智能实验室的OpenGVLab的一个视觉为主的多模态基础模型 InternVideo,2022年12月发布。本文大致介绍其idea、架构、训练方法和部分实验,由于知识受限,不会过于深入。
上交谢伟迪组23年3月的一篇Arxiv,通过LLM细化prompt或者生成视觉相关的soft prompt来优化多模态few-shot和zero-shot的TAL任务。
中科院院士谭铁牛23年3月在Arxiv上的关于Test-Time Adaptation的一篇综述,笔者对此领域不了解,所以此笔记仅涉及此综述的大致内容,并且叙述顺序与论文不一定平行。
西北工业大学王鹏组在AAAI24的一篇文章,提出了VadCLIP模型,利用了CLIP+prompt来加强视频异常检测,属于一种扩展CLIP到VAD领域的方法。