论文笔记 Video Anomaly Detection and Explanation via Large Language Models

新加坡一个大学的一篇24年1月新出炉的Arxiv论文，提出了一种将视频异常检测（VIdeo Anomaly Detection）与视频大语言模型（VLLM）结合的方法，整体来说是利用支持视频输入的多模态大预言模型来进行视频异常检测，使其能够关注长视频中的异常事件并作出解释。

2024-01-22

论文笔记

Video Anomaly Detection Large Language Model

论文笔记 Open-Vocabulary Video Anomaly Detection

西北工业大学吴鹏在视频异常检测的又一篇论文，23年12月挂在Arxiv上。这篇文章如图所示实现了一种Open-vocabulary的视频异常检测，即能够检测视频的异常片段，并对片段进行open-vocab的分类。

2024-01-02

论文笔记

Open-vocabulary Video Anomaly Detection Large Model

论文笔记 Exploring Temporal Concurrency for Video-Language Representation Learning

人大高瓴人工智能学院+京东的一篇ICCV23，23.9月发布，与同团队的一篇CVPR2023 HIghlight前作联系紧密，本文也会进行介绍。这篇文章主要提出了两个Loss，分别探索长视频模态间的时序共现性和模态内部的动态演变性，从而进行更好的多模态表征学习。

2023-12-06

论文笔记

Multimodal Learning Stochastic Process Video-Language Learning Long Video Representation Learning

论文笔记 LanguageBind Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

北大主做的一个ImageBind的升级版，论文最早在23年10月挂载Arxiv上，并在之后有持续的更新。论文解决的问题与ImageBind类似，就是通过类似CLIP的方式，进行N种模态的对比学习，将不同模态统一到同一个语义空间。

2023-12-05

论文笔记

Multimodal Learning CLIP Contrastive Learning LanguageBind VIDAL-10M

论文笔记 ImageBind One Embedding Space To Bind Them All

Meta的FAIR出的一篇CVPR2023 Highlight，在当时一出就受到广泛的关注，现在在大半年之后我才开始认真看一下。基本来说，这篇论文提出了一个基于对比学习的、CLIP架构的多模态模型，统一了Image、Video、Text、Audio、Depth、Thermal、IMU七种模态，并涌现了Zero-shot的能力。

2023-12-04

论文笔记

Multimodal Learning CLIP Contrastive Learning ImageBind

论文笔记 Video Event Restoration Based on Keyframes for Video Anomaly Detection

西北工业大学吴鹏组和西电的一篇CVPR2023论文，做无监督的视频异常检测。文章提出了一种Video Event Restoration的训练方式，并提出了以Swin+U-Net为主的USTN-DSC网络，在Ped2、Avenue、ShanghaiTech上获得优秀的成绩。

2023-11-20

论文笔记

Video Anomaly Detection USTN-DSC unsupervised

论文笔记 UnLoc A Unified Framework for Video Localization Tasks

Google的一篇ICCV 2023论文，除开共同一作的二作是VGG组的Arsha Nagrani。这篇论文提出了一个通用的单阶段的方法UnLoc，来做多种视频定位任务，包括片段检索、动作定位、动作分割，并且利用了CLIP的视觉和文本侧。

2023-11-06

论文笔记

CLIP UnLoc Moment Retrieval Temporal Action Localization Action Segmentation ActionFormer

论文笔记 VidChapters-7M Video Chapters at Scale Video Captioning

VGG组的一篇NeurIPS 2023的Dataset&Benchmark赛道的论文，二作有过多个相关领域的重要工作。文章提出了一个新的大规模数据集VidChapters-7M，包含82万个视频和7M个视频章节，支持Video chapter generation、video chapter generation with ground-truth boundaries、video chapter

2023-11-06

论文笔记

Video Captioning VidChapters-7M Video Chapter Generation

论文笔记 Vid2Seq Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

该文章提出了一个用来做Dense Video Captioning的通用大规模预训练模型Vid2Seq，走了模仿语言模型的路子，通过输出特殊的Token来同时预测事件时间范围以及事件描述。模型不大，但是在YT-Temporal-1B上使用ASR文本和视频预训练，然后在好几个下游任务上测试，测试的时候同时输入视频和语音转录文本，输出带有时间戳的文本。

2023-11-05

论文笔记

Video Captioning Dense Video Captioning Vid2Seq

论文笔记 SoccerNet-Caption Dense Video Captioning for Soccer Broadcasts Commentaries

CVPR 2023 Workshop的一篇主办方的论文，构建了一个足球比赛数据集，并标注了激情的解说，提出了一个新任务，即Single-anchored Dense Video Captioning（SDVC），即单个锚点的DVC。

2023-10-30

论文笔记

Dense Video Captioning SoccerNet Caption