Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

论文笔记 Multi-modal Prompting for Low-Shot Temporal Action Localization

上交谢伟迪组23年3月的一篇Arxiv,通过LLM细化prompt或者生成视觉相关的soft prompt来优化多模态few-shot和zero-shot的TAL任务。

2024-02-05
论文笔记
prompt TAL

综述笔记 A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts

中科院院士谭铁牛23年3月在Arxiv上的关于Test-Time Adaptation的一篇综述,笔者对此领域不了解,所以此笔记仅涉及此综述的大致内容,并且叙述顺序与论文不一定平行。

2024-02-04
综述笔记
Test-Time Adaptation Survey

论文笔记 BatchNorm-based Weakly Supervised Video Anomaly Detection

中国电子科技大学的一篇23年12月的Arxiv,介绍了一种弱监督视频异常检测(WSVAD)的方法,利用了通过BatchNorm统计的均值与方差,最终在UCF-Crime和XD-Violence上取得了先进的效果。

2024-01-30
论文笔记
Video Anomaly Detection Weakly-supervised WSVAD

论文笔记 VadCLIP Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

西北工业大学王鹏组在AAAI24的一篇文章,提出了VadCLIP模型,利用了CLIP+prompt来加强视频异常检测,属于一种扩展CLIP到VAD领域的方法。

2024-01-22
论文笔记
Video Anomaly Detection Weakly-supervised prompt

论文笔记 Video Anomaly Detection and Explanation via Large Language Models

新加坡一个大学的一篇24年1月新出炉的Arxiv论文,提出了一种将视频异常检测(VIdeo Anomaly Detection)与视频大语言模型(VLLM)结合的方法,整体来说是利用支持视频输入的多模态大预言模型来进行视频异常检测,使其能够关注长视频中的异常事件并作出解释。

2024-01-22
论文笔记
Video Anomaly Detection Large Language Model

论文笔记 Open-Vocabulary Video Anomaly Detection

西北工业大学吴鹏在视频异常检测的又一篇论文,23年12月挂在Arxiv上。这篇文章如图所示实现了一种Open-vocabulary的视频异常检测,即能够检测视频的异常片段,并对片段进行open-vocab的分类。

2024-01-02
论文笔记
Open-vocabulary Video Anomaly Detection Large Model

论文笔记 Exploring Temporal Concurrency for Video-Language Representation Learning

人大高瓴人工智能学院+京东的一篇ICCV23,23.9月发布,与同团队的一篇CVPR2023 HIghlight前作联系紧密,本文也会进行介绍。这篇文章主要提出了两个Loss,分别探索长视频模态间的时序共现性和模态内部的动态演变性,从而进行更好的多模态表征学习。

2023-12-06
论文笔记
Multimodal Learning Stochastic Process Video-Language Learning Long Video Representation Learning

论文笔记 LanguageBind Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

北大主做的一个ImageBind的升级版,论文最早在23年10月挂载Arxiv上,并在之后有持续的更新。论文解决的问题与ImageBind类似,就是通过类似CLIP的方式,进行N种模态的对比学习,将不同模态统一到同一个语义空间。

2023-12-05
论文笔记
Multimodal Learning CLIP Contrastive Learning LanguageBind VIDAL-10M

论文笔记 ImageBind One Embedding Space To Bind Them All

Meta的FAIR出的一篇CVPR2023 Highlight,在当时一出就受到广泛的关注,现在在大半年之后我才开始认真看一下。基本来说,这篇论文提出了一个基于对比学习的、CLIP架构的多模态模型,统一了Image、Video、Text、Audio、Depth、Thermal、IMU七种模态,并涌现了Zero-shot的能力。

2023-12-04
论文笔记
Multimodal Learning CLIP Contrastive Learning ImageBind

论文笔记 Video Event Restoration Based on Keyframes for Video Anomaly Detection

西北工业大学吴鹏组和西电的一篇CVPR2023论文,做无监督的视频异常检测。文章提出了一种Video Event Restoration的训练方式,并提出了以Swin+U-Net为主的USTN-DSC网络,在Ped2、Avenue、ShanghaiTech上获得优秀的成绩。

2023-11-20
论文笔记
Video Anomaly Detection USTN-DSC unsupervised
123456…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人