Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

论文笔记 Language-conditioned Detection Transformer

一篇CVPR2024的论文,提出了一种Open-Vocabulary的目标检测模型**DECOLA**,利用图像-文本对进行language-conditioned的训练以提升泛化性。

2024-04-10
论文笔记
Object Detection Open-Vocabulary

论文笔记 AttrSeg:Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation

上交的一篇NIPS2023(2024.1),进行Open-vocabulary的语义分割,其将类别通过大语言模型和人工分解成多种属性,然后提出了一种AttrSeg网络来通过这些属性进行语义分割,从而提升Open的能力。

2024-04-06
论文笔记
Semantic Segmentation Open-Vocabulary AttrSeg

论文笔记 RWKV:Reinventing RNNs for the Transformer Era

EMNLP23的一篇文章,一作是Bo Peng,在知乎比较活跃,提出了RWKV模型,其将RNN和Transformer的思想进行结合,使时间复杂度降低到了线性,同时其性能在不同参数量下均得到了验证。

2024-03-27
论文笔记
Transformer RWKV RNN Linear Transformer LLM

论文笔记 MLP-Mixer:An all-MLP Architecture for Vision

NIPS2021的一篇论文,对Vision Transformer的架构进行了泛化和改进,提出了一种仅使用MLP的现代的类Transformer的模型,并在多个数据集上取得了非常好的性能,为人们理解CNN和ViT提供了新的思路。

2024-03-27
论文笔记
Transformer Vision Transformer MLP-mixer

论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization

中国科学技术大学的一篇CVPR2023,针对弱监督时序动作定位任务(W-TAL),将原本的Segment-based MIL替换为Proposal-based MIL,解决了训练和测试不一致的问题。具体包括一个周围对比特征提取模块来已知short proposal,还有一个proposal完整性评估模块来抑制低质量proposal,以及一个实例级别的排序一致性损失。

2024-03-25
论文笔记
ActionFormer TAL

论文笔记 ActionFormer:Localizing Moments of Actions with Transformers

南京大学计算机软件新技术国家重点实验室的一篇ECCV2022论文,提出了时序动作定位(Temporal Action Localization,TAL)领域的一个新的架构,被后面非常多模型作为baseline。

2024-03-25
论文笔记
ActionFormer TAL

论文笔记 InternVideo:General Video Foundation Models via Generative and Discriminative Learning

上海人工智能实验室的OpenGVLab的一个视觉为主的多模态基础模型 InternVideo,2022年12月发布。本文大致介绍其idea、架构、训练方法和部分实验,由于知识受限,不会过于深入。

2024-03-22
论文笔记
InternVideo Foundation Model

学习笔记 Evidential Deep Learning(EDL)证据深度学习

证据深度学习是文献Evidential Deep Learning to Quantify Classification Uncertainty中提出的一种衡量模型预测不确定性的方法,其引入主观逻辑来进行建模,并将类别概率建模为一个Dirichlet分布,模型输出的logits作为主观意见(subjective opinions)的证据(evidence)。

2024-02-23
学习笔记
Evidential Deep Learning 证据深度学习

学习笔记 Beta分布与狄利克雷分布

在调研Evidential Deep Learning(EDL)的时候了解到EDL是基于Dirichlet分布的,由于这方面数学知识不够,所以额外调查了关于Beta分布、Dirichlet分布的知识,汇总为本学习笔记。

2024-02-23
学习笔记
Dirichlet Distribution Beta Distribution 狄利克雷分布 Beta分布

论文笔记 Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization

上海交大王延峰组的一篇CVPR23,进行弱监督TAL任务,即利用视频级别的标注来定位视频中动作发生的区间。作者发现这个任务中,基于分类预训练的模型具有较高的TN值,但是FN值也高;基于视觉-语言预训练的模型则具有较高的TP值,但是FP值也高。这篇文章利用两类模型互相协作得到更佳的性能。

2024-02-05
论文笔记
prompt TAL
12345…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人