Kamino
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
  •   
  •   

使用zsh优化Ubuntu终端

本文记录使用使用zsh作为ubuntu的terminal并进行优化(美化)的操作步骤。

2024-10-02
Linux
Ubuntu zsh

Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning

ICCV2021的一篇经典论文,提出了RTFM的WSVAD训练方法,并提供了一定的数学证明。

2024-09-05
论文笔记
RTFM ICCV21

UBoCo Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection

CVPR22的一篇文章,介绍了一种无监督的GEBD方法,GEBD任务指的是类别无关的检测视频中发生的事件边界。作者使用一种新颖的RTP算法检测边界,并结合BoCo Loss来训练。

2024-08-31
论文笔记
CVPR22 Generic Event Boundary Detection

The Platonic Representation Hypothesis

MIT团队发表的一篇ICML 2024论文,被ChatGPT之父Ilya Sutskever点赞过,对于大模型的未来提出了柏拉图表征假说(Platonic Representation Hypothesis),本文简单介绍这篇论文的观点和证明思路。

2024-06-20
论文笔记
大模型原理

近期LLM+视觉下游任务方法总结

最近,使用大语言模型(LLM)和多模态大语言模型(Multimodal LLM, MLLM)进行视觉下游任务的方法越来越多,本文对相关文献进行初步的调研,并形成了一篇总结的文章。(因个人水平,无法覆盖全,望谅解)。

2024-06-19
论文笔记
LLM MLLM

论文笔记 UniVTG:Towards Unified Video-Language Temporal Grounding

新加坡国立+MetaAI的一篇ICCV23论文,其将Moment Retrieval、Highlight Detection、Video Summarization统一成了Video-Language Temporal Grounding的任务,并进行了预训练,得到一个Unified的模型,展示了在下游任务的强劲性能。

2024-04-13
论文笔记
Moment Retrieval Video-Language Temporal Grounding Highlight Detection Video Summarization

论文笔记 Language-conditioned Detection Transformer

一篇CVPR2024的论文,提出了一种Open-Vocabulary的目标检测模型**DECOLA**,利用图像-文本对进行language-conditioned的训练以提升泛化性。

2024-04-10
论文笔记
Object Detection Open-Vocabulary

论文笔记 AttrSeg:Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation

上交的一篇NIPS2023(2024.1),进行Open-vocabulary的语义分割,其将类别通过大语言模型和人工分解成多种属性,然后提出了一种AttrSeg网络来通过这些属性进行语义分割,从而提升Open的能力。

2024-04-06
论文笔记
Semantic Segmentation Open-Vocabulary AttrSeg

论文笔记 RWKV:Reinventing RNNs for the Transformer Era

EMNLP23的一篇文章,一作是Bo Peng,在知乎比较活跃,提出了RWKV模型,其将RNN和Transformer的思想进行结合,使时间复杂度降低到了线性,同时其性能在不同参数量下均得到了验证。

2024-03-27
论文笔记
Transformer RWKV RNN Linear Transformer LLM

论文笔记 MLP-Mixer:An all-MLP Architecture for Vision

NIPS2021的一篇论文,对Vision Transformer的架构进行了泛化和改进,提出了一种仅使用MLP的现代的类Transformer的模型,并在多个数据集上取得了非常好的性能,为人们理解CNN和ViT提供了新的思路。

2024-03-27
论文笔记
Transformer Vision Transformer MLP-mixer
12345…18

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人