论文笔记 Human-centric Behavior Description in Videos New Benchmark and Model

西北工业大学吴鹏组的一篇Arxiv论文，发表于2023.10，提出了UCCD（UCF-Crime Captioning Dataset）数据集，该数据集对UCF-Crime里出现的7820个人的行为进行了描述文本标注（以及bounding box），并以此数据集提出了以人为中心的行为描述新任务，还提出了一个针对这个新任务的模型。

2023-10-26

论文笔记

Video Captioning UCCD Dense Video Captioning

论文笔记 UCF-Crime Annotation A Benchmark for Surveillance Video-and-Language Understanding

北京科技大学的一篇2023.9的Arxiv，对UCF-Crime进行了精确到0.1s的caption标注，提出了新的UCA（UCF Crime Annotation）数据集，支持temporal sentence grounding、video captioning、dense video captioning任务。

2023-10-23

论文笔记

Video Captioning UCF-Crime Annotation temporal sentence grounding

论文笔记 A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation

西北工业大学的一篇CVPR2023，提出了一个新的NWPU数据集以及一个新的Video Anomaly Anticipation任务。数据集基于监控视角，包含更多场景、更多异常类别和更长视频。新的VAA任务可以对异常事件进行短时（如5s）的预测。

2023-10-23

论文笔记

Video Anomaly Detection Video Anomaly Anticipation NWPU dataset

MultiCapCLIP Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning

北大和鹏城实验室在ACL2023发表的一篇论文，介绍了一种zero-shot的多语言Captioning的方法，其训练时使用目标域的文本语料进行重构式的训练，预测时将输入直接替换为图片，就可以生成Caption。

2023-09-17

论文笔记

Image Captioning Multilingual Zero-shot

基于梯度下降算法的Zero-shot Captioning方法

介绍三篇文章，通过梯度下降算法来做zero-shot的image/video captioning，整个过程需要用到一个语言模型（如GPT-2）和一个多模态对比学习模型（如CLIP）。

2023-09-08

论文笔记

Video Captioning Image Captioning Zero Shot

论文笔记 Towards Video Anomaly Retrieval from Video Anomaly Detection：New Benchmarks and Model

中国西北工业大学的Arxiv预印期刊论文（2023.7.24），提出了Video Anomaly Retrieval这个新任务，旨在进行文本-视频检索和音频-视频检索，对应两个数据集UCFCrime-AR和XDViolence-AR，并提出了一个ALAN模型作为baseline。

2023-07-28

论文笔记

Video Anomaly Retrieval Video Anomaly Detection

论文笔记 OvarNet：Towards Open-vocabulary Object Attribute Recognition

北航、小红书和上交联合做的Open-vocabulary目标属性识别，提出了OvarNet模型，该模型能够检测任意目标以及其任意属性。由于目前缺少拥有足够标记的数据集，其采用了一种federated策略来组合多个数据集并得到能够获取属性语义的CLIP模型，同时还能够利用image-caption pairs。

2023-07-21

论文笔记

OvarNet Object Attribute Recognition Open-vocabulary

论文笔记 Semantic-SAM：Segment and Recognize Anything at Any Granularity

香港科技大学6月挂在Arxiv上的一篇文章，使用SAM的数据集和思想，构建了一个能够分割更多种粒度的模型Semantic-SAM。模型主要贡献是能够感知语义且能够提供更多的粒度。

2023-07-20

论文笔记

Deformable SAM

论文笔记 Deformable ConvNet v1+v2+DETR

最近看到Deformable attention越来越多，于是关注到了Deformable这个东西，本文从起源开始介绍三篇经典的CV相关使用Deformable的论文。文本只介绍其方法，对实验和背景不展开过多的叙述。

2023-07-20

论文笔记

Deformable Deformable DETR

论文笔记 Segment Anything

论文笔记 Segment Anything

Segment Anything是Meta AI发布的非常火的图像分割相关论文，提出了Segment Anything Model（SAM）模型，开启了图像分割领域的新范式。

2023-07-18

论文笔记

Segment Anything zero-shot