Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

论文笔记 Human-centric Behavior Description in Videos New Benchmark and Model

西北工业大学吴鹏组的一篇Arxiv论文,发表于2023.10,提出了UCCD(UCF-Crime Captioning Dataset)数据集,该数据集对UCF-Crime里出现的7820个人的行为进行了描述文本标注(以及bounding box),并以此数据集提出了以人为中心的行为描述新任务,还提出了一个针对这个新任务的模型。

2023-10-26
论文笔记
Video Captioning UCCD Dense Video Captioning

论文笔记 UCF-Crime Annotation A Benchmark for Surveillance Video-and-Language Understanding

北京科技大学的一篇2023.9的Arxiv,对UCF-Crime进行了精确到0.1s的caption标注,提出了新的UCA(UCF Crime Annotation)数据集,支持temporal sentence grounding、video captioning、dense video captioning任务。

2023-10-23
论文笔记
Video Captioning UCF-Crime Annotation temporal sentence grounding

论文笔记 A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation

西北工业大学的一篇CVPR2023,提出了一个新的NWPU数据集以及一个新的Video Anomaly Anticipation任务。数据集基于监控视角,包含更多场景、更多异常类别和更长视频。新的VAA任务可以对异常事件进行短时(如5s)的预测。

2023-10-23
论文笔记
Video Anomaly Detection Video Anomaly Anticipation NWPU dataset

MultiCapCLIP Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning

北大和鹏城实验室在ACL2023发表的一篇论文,介绍了一种zero-shot的多语言Captioning的方法,其训练时使用目标域的文本语料进行重构式的训练,预测时将输入直接替换为图片,就可以生成Caption。

2023-09-17
论文笔记
Image Captioning Multilingual Zero-shot

基于梯度下降算法的Zero-shot Captioning方法

介绍三篇文章,通过梯度下降算法来做zero-shot的image/video captioning,整个过程需要用到一个语言模型(如GPT-2)和一个多模态对比学习模型(如CLIP)。

2023-09-08
论文笔记
Video Captioning Image Captioning Zero Shot

论文笔记 Towards Video Anomaly Retrieval from Video Anomaly Detection:New Benchmarks and Model

中国西北工业大学的Arxiv预印期刊论文(2023.7.24),提出了Video Anomaly Retrieval这个新任务,旨在进行文本-视频检索和音频-视频检索,对应两个数据集UCFCrime-AR和XDViolence-AR,并提出了一个ALAN模型作为baseline。

2023-07-28
论文笔记
Video Anomaly Retrieval Video Anomaly Detection

论文笔记 OvarNet:Towards Open-vocabulary Object Attribute Recognition

北航、小红书和上交联合做的Open-vocabulary目标属性识别,提出了OvarNet模型,该模型能够检测任意目标以及其任意属性。由于目前缺少拥有足够标记的数据集,其采用了一种federated策略来组合多个数据集并得到能够获取属性语义的CLIP模型,同时还能够利用image-caption pairs。

2023-07-21
论文笔记
OvarNet Object Attribute Recognition Open-vocabulary

论文笔记 Semantic-SAM:Segment and Recognize Anything at Any Granularity

香港科技大学6月挂在Arxiv上的一篇文章,使用SAM的数据集和思想,构建了一个能够分割更多种粒度的模型Semantic-SAM。模型主要贡献是能够感知语义且能够提供更多的粒度。

2023-07-20
论文笔记
Deformable SAM

论文笔记 Deformable ConvNet v1+v2+DETR

最近看到Deformable attention越来越多,于是关注到了Deformable这个东西,本文从起源开始介绍三篇经典的CV相关使用Deformable的论文。文本只介绍其方法,对实验和背景不展开过多的叙述。

2023-07-20
论文笔记
Deformable Deformable DETR
论文笔记 Segment Anything

论文笔记 Segment Anything

Segment Anything是Meta AI发布的非常火的图像分割相关论文,提出了Segment Anything Model(SAM)模型,开启了图像分割领域的新范式。

2023-07-18
论文笔记
Segment Anything zero-shot
1…45678…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人