论文笔记 InternVideo:General Video Foundation Models via Generative and Discriminative Learning
上海人工智能实验室的OpenGVLab的一个视觉为主的多模态基础模型 InternVideo,2022年12月发布。本文大致介绍其idea、架构、训练方法和部分实验,由于知识受限,不会过于深入。
论文笔记 Multi-modal Prompting for Low-Shot Temporal Action Localization
上交谢伟迪组23年3月的一篇Arxiv,通过LLM细化prompt或者生成视觉相关的soft prompt来优化多模态few-shot和zero-shot的TAL任务。