论文笔记 Language-conditioned Detection Transformer
一篇CVPR2024的论文,提出了一种Open-Vocabulary的目标检测模型**DECOLA**,利用图像-文本对进行language-conditioned的训练以提升泛化性。
一篇CVPR2024的论文,提出了一种Open-Vocabulary的目标检测模型**DECOLA**,利用图像-文本对进行language-conditioned的训练以提升泛化性。
EMNLP23的一篇文章,一作是Bo Peng,在知乎比较活跃,提出了RWKV模型,其将RNN和Transformer的思想进行结合,使时间复杂度降低到了线性,同时其性能在不同参数量下均得到了验证。
上海人工智能实验室的OpenGVLab的一个视觉为主的多模态基础模型 InternVideo,2022年12月发布。本文大致介绍其idea、架构、训练方法和部分实验,由于知识受限,不会过于深入。