论文笔记 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization

中国科学技术大学的一篇CVPR2023，针对弱监督时序动作定位任务（W-TAL），将原本的Segment-based MIL替换为Proposal-based MIL，解决了训练和测试不一致的问题。具体包括一个周围对比特征提取模块来已知short proposal，还有一个proposal完整性评估模块来抑制低质量proposal，以及一个实例级别的排序一致性损失。

2024-03-25

论文笔记

ActionFormer TAL

论文笔记 ActionFormer：Localizing Moments of Actions with Transformers

南京大学计算机软件新技术国家重点实验室的一篇ECCV2022论文，提出了时序动作定位（Temporal Action Localization，TAL）领域的一个新的架构，被后面非常多模型作为baseline。

2024-03-25

论文笔记

ActionFormer TAL

论文笔记 InternVideo：General Video Foundation Models via Generative and Discriminative Learning

上海人工智能实验室的OpenGVLab的一个视觉为主的多模态基础模型 InternVideo，2022年12月发布。本文大致介绍其idea、架构、训练方法和部分实验，由于知识受限，不会过于深入。

2024-03-22

论文笔记

InternVideo Foundation Model

学习笔记 Evidential Deep Learning（EDL）证据深度学习

证据深度学习是文献Evidential Deep Learning to Quantify Classification Uncertainty中提出的一种衡量模型预测不确定性的方法，其引入主观逻辑来进行建模，并将类别概率建模为一个Dirichlet分布，模型输出的logits作为主观意见（subjective opinions）的证据（evidence）。

2024-02-23

学习笔记

Evidential Deep Learning 证据深度学习

学习笔记 Beta分布与狄利克雷分布

在调研Evidential Deep Learning（EDL）的时候了解到EDL是基于Dirichlet分布的，由于这方面数学知识不够，所以额外调查了关于Beta分布、Dirichlet分布的知识，汇总为本学习笔记。

2024-02-23

学习笔记

Dirichlet Distribution Beta Distribution 狄利克雷分布 Beta分布

论文笔记 Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization

上海交大王延峰组的一篇CVPR23，进行弱监督TAL任务，即利用视频级别的标注来定位视频中动作发生的区间。作者发现这个任务中，基于分类预训练的模型具有较高的TN值，但是FN值也高；基于视觉-语言预训练的模型则具有较高的TP值，但是FP值也高。这篇文章利用两类模型互相协作得到更佳的性能。

2024-02-05

论文笔记

prompt TAL

论文笔记 Multi-modal Prompting for Low-Shot Temporal Action Localization

上交谢伟迪组23年3月的一篇Arxiv，通过LLM细化prompt或者生成视觉相关的soft prompt来优化多模态few-shot和zero-shot的TAL任务。

2024-02-05

论文笔记

prompt TAL

综述笔记 A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts

中科院院士谭铁牛23年3月在Arxiv上的关于Test-Time Adaptation的一篇综述，笔者对此领域不了解，所以此笔记仅涉及此综述的大致内容，并且叙述顺序与论文不一定平行。

2024-02-04

综述笔记

Test-Time Adaptation Survey

论文笔记 BatchNorm-based Weakly Supervised Video Anomaly Detection

中国电子科技大学的一篇23年12月的Arxiv，介绍了一种弱监督视频异常检测（WSVAD）的方法，利用了通过BatchNorm统计的均值与方差，最终在UCF-Crime和XD-Violence上取得了先进的效果。

2024-01-30

论文笔记

Video Anomaly Detection Weakly-supervised WSVAD

论文笔记 VadCLIP Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

西北工业大学王鹏组在AAAI24的一篇文章，提出了VadCLIP模型，利用了CLIP+prompt来加强视频异常检测，属于一种扩展CLIP到VAD领域的方法。

2024-01-22

论文笔记

Video Anomaly Detection Weakly-supervised prompt