论文笔记 UnLoc A Unified Framework for Video Localization Tasks Google的一篇ICCV 2023论文,除开共同一作的二作是VGG组的Arsha Nagrani。这篇论文提出了一个通用的单阶段的方法UnLoc,来做多种视频定位任务,包括片段检索、动作定位、动作分割,并且利用了CLIP的视觉和文本侧。 2023-11-06 论文笔记 CLIP UnLoc Moment Retrieval Temporal Action Localization Action Segmentation ActionFormer
论文笔记 VidChapters-7M Video Chapters at Scale Video Captioning VGG组的一篇NeurIPS 2023的Dataset&Benchmark赛道的论文,二作有过多个相关领域的重要工作。文章提出了一个新的大规模数据集VidChapters-7M,包含82万个视频和7M个视频章节,支持Video chapter generation、video chapter generation with ground-truth boundaries、video chapter 2023-11-06 论文笔记 Video Captioning VidChapters-7M Video Chapter Generation
论文笔记 Vid2Seq Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning 该文章提出了一个用来做Dense Video Captioning的通用大规模预训练模型Vid2Seq,走了模仿语言模型的路子,通过输出特殊的Token来同时预测事件时间范围以及事件描述。模型不大,但是在YT-Temporal-1B上使用ASR文本和视频预训练,然后在好几个下游任务上测试,测试的时候同时输入视频和语音转录文本,输出带有时间戳的文本。 2023-11-05 论文笔记 Video Captioning Dense Video Captioning Vid2Seq
论文笔记 SoccerNet-Caption Dense Video Captioning for Soccer Broadcasts Commentaries CVPR 2023 Workshop的一篇主办方的论文,构建了一个足球比赛数据集,并标注了激情的解说,提出了一个新任务,即Single-anchored Dense Video Captioning(SDVC),即单个锚点的DVC。 2023-10-30 论文笔记 Dense Video Captioning SoccerNet Caption
论文笔记 Human-centric Behavior Description in Videos New Benchmark and Model 西北工业大学吴鹏组的一篇Arxiv论文,发表于2023.10,提出了UCCD(UCF-Crime Captioning Dataset)数据集,该数据集对UCF-Crime里出现的7820个人的行为进行了描述文本标注(以及bounding box),并以此数据集提出了以人为中心的行为描述新任务,还提出了一个针对这个新任务的模型。 2023-10-26 论文笔记 Video Captioning UCCD Dense Video Captioning
论文笔记 UCF-Crime Annotation A Benchmark for Surveillance Video-and-Language Understanding 北京科技大学的一篇2023.9的Arxiv,对UCF-Crime进行了精确到0.1s的caption标注,提出了新的UCA(UCF Crime Annotation)数据集,支持temporal sentence grounding、video captioning、dense video captioning任务。 2023-10-23 论文笔记 Video Captioning UCF-Crime Annotation temporal sentence grounding
论文笔记 A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation 西北工业大学的一篇CVPR2023,提出了一个新的NWPU数据集以及一个新的Video Anomaly Anticipation任务。数据集基于监控视角,包含更多场景、更多异常类别和更长视频。新的VAA任务可以对异常事件进行短时(如5s)的预测。 2023-10-23 论文笔记 Video Anomaly Detection Video Anomaly Anticipation NWPU dataset
MultiCapCLIP Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning 北大和鹏城实验室在ACL2023发表的一篇论文,介绍了一种zero-shot的多语言Captioning的方法,其训练时使用目标域的文本语料进行重构式的训练,预测时将输入直接替换为图片,就可以生成Caption。 2023-09-17 论文笔记 Image Captioning Multilingual Zero-shot
基于梯度下降算法的Zero-shot Captioning方法 介绍三篇文章,通过梯度下降算法来做zero-shot的image/video captioning,整个过程需要用到一个语言模型(如GPT-2)和一个多模态对比学习模型(如CLIP)。 2023-09-08 论文笔记 Video Captioning Image Captioning Zero Shot
论文笔记 Towards Video Anomaly Retrieval from Video Anomaly Detection:New Benchmarks and Model 中国西北工业大学的Arxiv预印期刊论文(2023.7.24),提出了Video Anomaly Retrieval这个新任务,旨在进行文本-视频检索和音频-视频检索,对应两个数据集UCFCrime-AR和XDViolence-AR,并提出了一个ALAN模型作为baseline。 2023-07-28 论文笔记 Video Anomaly Retrieval Video Anomaly Detection