视频理解和行为识别#

paper

Action Classification on Kinetics-400

数据集介绍#

数据集名称

简介

链接

UCF101 (University of Central Florida 101)

由YouTube视频构成的行为识别数据集,包含101个类别和约13000段视频。视频都是人为标记的,涵盖了各种日常活动。

UCF101

Something-Something

这个数据集注重物体与物体之间的交互,以及人与物体的交互。它包含了两个版本,v1包含了108个类别和约110000个视频剪辑,v2包含了174个类别和约220000个视频剪辑。

Something-Something

Charades

这个数据集专注于复杂的日常活动,包含了约10000段由Amazon Mechanical Turk工人在家中拍摄的视频,以及157个活动类别。

Charades

AVA (Atomic Visual Actions)

AVA数据集专注于人与人之间的交互,包含80个动作类别,其特点是会为视频中每秒钟的动作标记出精确的边界框。

AVA

Moments in Time

这个数据集包含了大约一百万段3秒钟的视频剪辑,覆盖了大约339种不同的动作和活动。

Moments in Time

Sports-1M

这个数据集包含了约100万段YouTube视频,覆盖了大约500种不同的体育活动。

Sports-1M

Jester

这是一个专门针对手势识别的数据集,包含27种手势和约150000段视频。

Jester

HMDB51 (Human Motion DataBase)

这个数据集包含了7000多个分割后的视频片段,覆盖51个动作类别。每个类别至少包含101个视频剪辑。

HMDB51

Kinetics-400 (K400)

这是一个大规模的视频行为识别数据集,包含约40万个YouTube视频片段,涵盖400个人类行为类别。

Kinetics-400

相关算法#

Action Recognition

Link

paper

SlowFast

https://github.com/facebookresearch/SlowFast

ICCV 2019

相关框架#

  • towhee https://github.com/towhee-io/examples/blob/main/video/video_tagging/action_classification.ipynb https://towhee.io/tasks/operator

  • mmpose open detection https://github.com/open-mmlab/playground/blob/main/mmpose_open_detection/README_zh-CN.md

  • MMAction2 https://github.com/open-mmlab/mmaction2/blob/main/README.md