本文最后更新于：2023年10月26日晚上

论文笔记 Human-centric Behavior Description in Videos New Benchmark and Model

论文链接：Human-centric Behavior Description in Videos: New Benchmark and Model (arxiv.org)

西北工业大学吴鹏组的一篇Arxiv论文，发表于2023.10，提出了UCCD（UCF-Crime Captioning Dataset）数据集，该数据集对UCF-Crime里出现的7820个人的行为进行了描述文本标注（以及bounding box），并以此数据集提出了以人为中心的行为描述新任务，还提出了一个针对这个新任务的模型。

UCCD 数据集

上图是三种任务对应数据的比较，VC是对整个（简短）视频的一个简单的描述，DVC需要预测事件并分别描述各个事件，UCCD数据集则针对人，每个人在视频中完整的行为都将被描述出来，描述语句可能包含多个句子。

在数据统计分析上，UCCD是监控视频领域的，时长比VC任务的MSVD、VATEX、MSR-VTT长，比DVC的更短，但是描述长度是非常长的。数据标注用了20个native speaker，200h的培训+5000h的标注，每个视频至少要5个人来标，花费了约6000美元。

标注时，他们先用了300h把7820个人的bounding box标了出来，然后再进行文本的标注。论文里没有说5个人是怎么合作标注的。

模型

视频首先分帧，然后用YoloV7+Strongsort+OsNet进行目标检测和跟踪，把同一个人的box resize到相同大小送入预训练图像编码器（C3D、I3D、CLIP）提特征，作为person query。同时视频的整体特征也使用预训练模型（I3D）提取，并每帧独立送入Transformer Encoder中进行编码。

解码器是一个Deformable Transformer Decoder，并在输出接了一个Localization Head和一个Caption Head。这一块的原文的表述十分不清晰，期待其上传更新版本。

解码器可能是以person queries（ $q_j$ ）、每一个query对应的参考点（ $p_j$ ）、帧级别特征（ $\boldsymbol{X}^f$ ）作为输入。然后进行Deformable Attention，即用 $q_j$ 经过全连得到偏移量和对应的权重，然后对K个参考点和L个尺度进行加权求和。