视频理解中常用的数据集

本文知乎链接: https://zhuanlan.zhihu.com/p/573405333

1. 引言

视频理解是计算机视觉领域中的重要任务，近年来得到了飞速的发展，其中高质量的数据集对视频理解的研究至关重要。本文我们总结了视频理解中常见的数据集，涵盖行为识别、行为分割、时序定位，视听理解等多个任务，并且附上了相应的链接，便于读者直接进入相应的网站查询每个数据集的详细信息。此外，有些数据集可以应用于多种任务，具有一定的交叉性。

本文涉及的数据集及其任务匹配如下:

主要任务	常用数据集
行为识别/分类	HMDB51, UCF101, ActivityNet1.3, Kinetics400, Kinetics-Sounds, VGGSound, EPIC-KITCHENS-100, THUMOS‘14等
时序定位	ActivityNet1.3, THUMOS’14, Charades, AVE, LLP, EPIC-KITCHENS-100等
视听理解	AVE, LLP, AVSBench, MUSIC-AVQA, Kinetics-Sounds, EPIC-KITCHENS-100, VGGSound等
行为分割	GTEA, Breakfast, 50Salads等
第一视角	EPIC-KITCHENS-100, EGTEA Gaze++, Ego4D等

数据集基本信息如下：

序号	数据集名称	基本任务	类别数量	总规模	平均时长(秒)	总时长(时)
1	HMDB51^[1]	行为识别	51	6,714	3-10	——
2	UCF101^[2]	行为识别	101	13,320	7.21	26.67
3	ActivityNet1.3^[3]	行为识别等	200	20,000	180	700
4	Charades^[4]	行为识别	157	9,848	——	——
5	Kinetics400^[5]	行为识别	400	236,532	10	657
6	Kinetics-Sounds^[6]	行为识别	31	18,716	10	51
7	EPIC-KITCHENS-100^[7]	行为识别	v.97, n.300	89,977	3.1	100
8	THUMOS’14^[8]	时序定位	20	413	68.86	7.56
9	AVE^[9]	视音定位	28	4,143	10	11
10	LLP^[10]	视音定位	25	11,849	10	33
11	AVSBench^[11]	视音分割	23	4,932	5	6.85
12	VGGsound^[12]	行为识别	309	185,229	10	514
13	MUSIC-AVQA^[13]	视音问答	22	9,288	60	150
14	Breakfast^[14]	行为分割	1712	1989	139.37	77
15	50Salads^[15]	行为分割	17	50	384	5.33
16	GTEA^[16]	行为分割	7	28	74.34	0.58
17	EGTEA Gaze++^[17]	时序定位等	106	86	1214	29
18	Ego4D^[18]	时序定位等	——	——	——	3670

注：本文列举的是视频理解中常见的数据集，本文列举的是视频理解中常见的数据集，对于大部分高校等科研单位的研究人员来说，是比较容易使用起来的数据集。

2. 数据集介绍

2.1. HMDB51

官网链接：https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
相关论文： HMDB: A Large Video Database for Human Motion Recognition. Link
发布年份：2011, ICCV
主要任务：Action Recognition
主要作者：Hildegard Kuehne, Huei-han Jhuang, Estibaliz Garrote, Tomaso Poggio, Thomas Serre
所属团队：SERRE LAB, A Brown University Research Group, USA
数据规模：51类动作，共有6849个视频，每个动作至少包含51个视频，分辨率320*240，完整数据集大小约2GB；
内容简介：
- 数据量小，方便下载和使用；
- 视频多数来源于电影，还有一部分来自公共数据库以及YouTube等网络视频库；
- 动作主要分为五类：1）一般面部动作（微笑、大笑等）；2）面部操作与对象操作（吸烟、吃、喝等）；3）一般的身体动作（侧手翻、拍手、爬楼梯等）；4）与对象交互动作（梳头、高尔夫、骑马等）；5）人体动作（击剑、拥抱、亲吻等）。

2.2. UCF101

官网链接：https://www.crcv.ucf.edu/data/UCF101.php
相关论文： UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild. Link
发布年份：2012
主要任务：Action Recognition
主要作者：Khurram Soomro, Amir Roshan Zamir and Mubarak Shah
所属团队：Center for Research in Computer Vision，University of Central Florida, USA
数据规模：101类动作，共有13320个视频，完整数据集大小约7GB；
内容简介：
- 数据量小，方便下载和使用；
- 长度区间[1.06， 71.04]秒，平均长度7.21秒，总长1600分钟；
- 分辨率320*240，并包含Audio信息，avi格式；
- 从YouTube收集的具有101个动作类别的真实动作视频；
- 动作主要分为5类：1）人与物体的互动；2）仅肢体运动； 3）人与人的互动； 4）演奏乐器； 5）体育；
- 101个动作类别的视频分为25组，每组可以包含4-7个动作的视频。来自同一组的视频可能具有一些共同的特征，例如相似的背景，相似的视角等。

2.3. ActivityNet1.3

官网链接：http://activity-net.org/
相关论文：Activitynet: A large-scale video benchmark for human activity understanding. Link
发布年份：2015, CVPR
主要任务：Activity Recognition, Temporal Action Localization, Event Dense-Captioning
主要作者：Caba Heilbron Fabian, Escorcia Victor, Ghanem ernard, Carlos Niebles Juan
所属团队：Visual Computing Center (VCC), KAUST
内容简介：
- 提供一个大规模的数据集，涵盖了与人类在日常生活最相关的活动，视频数更多和视频更长，类别更丰富，类别数更多，更高的标签精准性；
- 目前主流的ActivityNet dataset版本为v1.3，包括20000个YouTube 视频；
- 训练集包含约10000个视频，验证集和测试集各包含约5000个视频；
- 共计约700小时的视频，平均每个视频上有1.5个动作标注（action instance）；
- 大部分视频时长在5-10分钟，50%的视频的分辨率在 1280 x 720，大部分视频是 30 FPS；
- 类别主要分为7大类：个人护理、饮食、家庭活动、关怀和帮助、工作、社交娱乐、运动锻炼

2.4. Charades

官网链接：https://prior.allenai.org/projects/charades
相关论文：Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding. Link
发布年份：2016, ECCV
主要任务：Action Recognition, Temporal Localization
主要作者：Gunnar A. Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, Abhinav Gupta
所属团队：The Allen Institute for AI, Carnegie Mellon University
内容简介：
- 157种动作类别、9,848个视频片段、27847个描述；
- 第一个家庭室内场景下的日常行为识别数据集，用户先写剧本（根据关键字造句），再自行拍摄视频，最后其他人标注。
其他版本：
- CharadesEgo (CVPR’ 2018, PDF)，第一个成对的行为识别数据集，即对于同一系列动作，同时有第一视角视频与第三视角视频；
- Action Genome (CVPR’ 2020, PDF)，是对Charades的二次标注，包括人与物体的关系，新增的标注包括人物、物体bbox，以及人与物之间的关系。

2.5. Kinetics400

官网链接：https://www.deepmind.com/open-source/kinetics
相关论文：The kinetics human action video dataset. Link
发布年份：2017
主要任务：Action recognition
主要作者：Will Kay, Joao Carreira, Paul Natsev, Mustafa Suleyman, Andrew Zisserman 等
所属团队：DeepMind
内容简介：
- 大规模+高质量的YouTube视频网址数据集，完整大小约140GB；
- 包含 400 个人类动作类，每个动作至少有 400 个视频片段，每个片段长度约 10 秒，并取自不同的 YouTube 视频；
- 这些动作以人类为中心，涵盖广泛的类别，包括演奏乐器等人与物体的交互，以及握手等人与人的交互。
其他版本（基于Kinetics400的扩充版）
- Kinetics600 (PDF)，600个人类动作类别；
- Kinetics700 (PDF)，700个人类动作类别；
- AVA Kinetics (PDF)，从Kinetics700中选择了部分数据集进行空间位置标记，即记录人类动作的空间位置信息；
- Kinetics700-2020 (PDF)，对Kinetics700的扩充，保证每个类别至少有700个视频。

2.6. Kinetics-Sounds

官网链接：https://www.deepmind.com/open-source/kinetics
相关论文：Look, listen and learn. Link
发布年份：2017, CVPR
主要任务：Audio-Visual Action recognition
主要作者：Arandjelovic Relja, Andrew Zisserman
所属团队：DeepMind
内容简介：
- 非常适合Audio-Visual相关的场景理解任务；
- 从Kinetics400中选择了包含视觉目标声音的31个类别；
- 共18176个视频（训练集14799，验证集1320，测试集2597）。

2.7. EPIC-KITCHENS-100

官网链接：https://epic-kitchens.github.io/2022
相关论文：Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100. Link
发布年份：2022, IJCV
主要作者：Dima Damen, Giovanni Maria Farinella
所属团队： University of Bristol and University of Catania
内容简介：
- 大规模第一视角数据集，包含视音频信息；
- 采集数据涉及4个城市，45个厨房；
- 视频总时长超过100小时（全高清，60fps），总帧数超过20M帧
- 共包含动作片段超过9万个，97个动词类别和300个名词类别。
其他版本
- EPIC-KITCHENS-55 (TPAMI’21, PDF), 早期的版本，包含55小时的内容。

2.8. THUMOS’14

官网链接：https://www.crcv.ucf.edu/THUMOS14/home.html
相关论文：The THUMOS Challenge on Action Recognition for Videos “in the Wild”. Link
发布年份：2014, CVIU’2017
主要任务：Temporal Localization, Action Recognition
主要作者：Haroon Idreesa, Amir R. Zamirb, Yu-Gang Jiangc, Alex Gorbane, Ivan Laptevd, Rahul Sukthankare, Mubarak Shaha
所属团队：Center for Research in Computer Vision，University of Central Florida, USA
内容简介：
- 有20类动作的未分割视频是有时序行为片段标注的，包括200个验证集视频（含3007个行为片段）和213个测试集视频（含3358个行为片段），经过标注的未分割视频通常被用于训练和测试时序行为检测模型；
- 训练集：每个类别平均有150个动作时序标注，每个动作平均的持续时间为4.04秒，总计12159.8秒，共有3007个动作时序标注；
- 测试集：每个类别平均有167.9个动作时序标注，每个动作平均的持续时间为4.47秒，总计15040.3秒，共有3358个动作时序标注；
其他版本
- THUMOS’15 (Link)，包括更多的动作类别和视频数，但是目前看到的时序定位类任务的文章基本是在THUMOS’14上进行的实验。

2.9. AVE

官网链接：https://sites.google.com/view/audiovisualresearch
相关论文：Audio-Visual Event Localization in Unconstrained Videos. Link
发布年份：2018, ECCV
主要任务：视音事件定位
主要作者：Yapeng Tian, Jing Shi, Bochen Li, Zhiyao Duan, and Chenliang Xu
所属团队：University of Rochester
内容简介：
- 视音事件定位问题，该数据集将视听事件定义为在视频片段中既可见又可听的事件；
- 包含三个任务：监督视音事件定位、弱监督视音事件定位、跨模态视音事件定位；
- 数据集共从AudioSet中筛选出4143个视频，包含28个类别；
- 每个类别至少有60个视频，每个视频长度为10秒，并至少含有2秒的视音事件。

2.10. LLP

官网链接：https://github.com/YapengTian/AVVP-ECCV20
相关论文：Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing. Link
发布年份：2020, ECCV
主要任务：视音视频解析
主要作者：Yapeng Tian, Dingzeyu Li, and Chenliang Xu
所属团队：University of Rochester
内容简介：
- LLP全称：Look, Listen, and Parse
- 视音视频解析，即解析出视频中的视觉事件、声音事件和视音事件；
- 从AudioSet上筛选出11849个视频，共25个类别，总时长超32.9小时；
- 每个视频都有一个video-level标注，即视频类别标注；
- 每个视频长度为10秒，至少有1秒的声音或者视觉事件；
- 验证集和测试集含1849个视频，共有6626个事件标注，其中4131个声音事件和2495个视觉事件，以及2488个视音事件；
- 任务中训练集使用10000个video-level标注的视频，剩下的精细标注用于验证/测试集。

2.11. AVSBench

官网链接：https://opennlplab.github.io/AVSBench/
相关论文：Audio-Visual Segmentation, Link
发布年份：2022, ECCV
主要任务：视听分割
主要作者：Jinxing Zhou, Jianyuan Wang, Meng Wang, Yiran Zhong
所属团队：Visual Understanding Team, 合肥工业大学
内容简介：
- 视听分割任务：要准确分割出视频帧中正在发声的物体全貌，即以音频为指导信号，确定分割哪个物体并得到其完整的像素级掩码图；
- AVSBench可以被分为两个子集：单源（Single-source)和多源(Multi-sources)集合，分别对应于单源和多源下的两种视听分割任务；
- 单源子集：包含4932个视频，共23个类别，涵盖人类、动物、交通工具和乐器等日常生活中典型的发声物体；
- 多源子集：单源子集的类别中选择有效的2-3个作为关键词组合，再从YouTube网站中筛选出424个作为多源视频；
- 每个视频等间隔采样5帧，其中对于单源子集，仅标注采样的第一张视频帧；对于多源子集，采样的5帧图像全部被标注；

2.12. VGGSound

官网链接：https://www.robots.ox.ac.uk/~vgg/data/vggsound/
相关论文：VGGSound: A Large-scale Audio-Visual Dataset, Link
发布年份：2020, ICASSP
主要任务：Honglie Chen, Weidi Xie, Andrea Vedaldi and Andrew Zisserman
主要作者：Audio Recognition
所属团队：Visual Geometry Group (VGG), University of Oxford, UK
内容简介：
- 311个类别，超过20万个视频，总时长达550小时；
- 每个音频标注都是单标签，标签之间没有层级关系；
- 数据集具有视音一致性，适用于视音场景理解任务的探索。

2.13. MUSIC-AVQA

官网链接：https://gewu-lab.github.io/MUSIC-AVQA/
相关论文：Learning to Answer Questions in Dynamic Audio-Visual Scenarios, Link
发布年份：2022, CVPR
主要任务：视听问答
主要作者：Guangyao Li, Yake Wei, Yapeng Tian, Chenliang Xu, Ji-Rong Wen and Di Hu
所属团队：GeWu-Lab, 高瓴人工智能学院，中国人民大学
内容简介：
- 视听问答任务，旨在回答有关不同视觉对象、声音及其在视频中的关联的问题；
- 数据集涵盖大量的声音问题、视觉问题和视听问题的问答对，比ActivityNet-QA、TVQA等相比问答类数据集更全面丰富；
- 数据集由包含丰富视听成分的乐器演奏场景组成，有助于更好地研究视听交互场景理解和推理，并可以在一定程度上避免场景中的噪声问题；
- 数据集包含了9,288个视频并包含了22种乐器，其总时长超过150小时；
- 以众包的形式形成了45,867个问答对，平均每个视频约5个问答对，这些问答对涵盖了不同模态下的9类问题类型以及33个不同的问题模板。

2.14. Breakfast

官网链接：https://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/
相关论文：The language of actions: Recovering the syntax and semantics of goal-directed human activities, Link
发布年份：2014, CVPR
主要任务：Action Segmentation
主要作者：Hilde Kuehne, Ali Arslan, Thomas Serre
所属团队：SERRE LAB, A Brown University Research Group, USA
内容简介：
- 由 52 位不同演员在多个厨房地点执行的 10 项烹饪活动组成烹饪活动包括准备咖啡、橙汁、巧克力牛奶等；
- 视频数量为1989个，总时长超过 77 小时。

2.15. 50Salads

官网链接：https://cvip.computing.dundee.ac.uk/datasets/foodpreparation/50salads/
相关论文：Combining Embedded Accelerometers with Computer Vision for Recognizing Food Preparation Activities, Link
发布年份：2013, UbiComp
主要任务：Action Segmentation
主要作者：Sebastian Stein and Stephen J. McKenna
所属团队：CVIP, School of Computing, University of Dundee, UK
内容简介：
- 包含50个视频， 17个类别，平均每个视频长6.4分钟并有20个实例；
- 主要场景是25个人，每个人准备了2份沙拉。

2.16. GTEA

官网链接：https://cbs.ic.gatech.edu/fpv/
相关论文：Learning to Recognize Objects in Egocentric Activities, Link
发布年份：2011, CVPR
主要任务：Action Segmentation
主要作者：Alireza Fathi , Xiaofeng Ren , James M. Rehg
所属团队：College of Computing, Georgia Institute of Technology
内容简介：
- GTEA全称：Georgia Tech Egocentric Activity
- 视频主要是第一视角数据集；
- 主要包含7种类型的日常活动（如制作三明治、茶或咖啡等），每个活动由四个不同的人执行；
- 共有 28 个视频，每个视频约 20 个细粒度的动作实例；
- 官方提供的数据集采样率为15fps, 共有31222帧。

2.17. EGTEA Gaze++

官网链接：https://cbs.ic.gatech.edu/fpv/
相关论文：In the eye of beholder: Joint learning of gaze and actions in first person video, Link
发布年份：2018, ECCV
主要任务：Action Recognition, Gaze Estimation
主要作者：Yin Li, Miao Liu, James M. Rehg
所属团队：College of Computing, Georgia Institute of Technology
内容简介：
- 第一视角视频理解数据集，该数据集的素材来自于自然的厨房场景；
- Frame-level的标注，原始数据集视频大小约26G;
- 数据集的视频总时长29小时，包含大约15176个动作实例，这些动作的总类别数为200；
- 视频的每一帧都带有对应的gaze（眼球注视信息）的注释，由于眼球运动反映了一个人的思维过程，并代表了人类的注意力；

2.18. Ego4D

官网链接：https://ego4d-data.org/
相关论文：Ego4d: Around the world in 3,000 hours of egocentric video, Link
发布年份：2022, CVPR
主要任务：第一视角场景理解（16个benchmarks）
主要作者：Kristen Grauman, Andrew Westbury, Antonio Torralba等
所属团队：Meta AI , MIT, CMU, UC Berkeley等
内容简介：
- 超大规模第一视角视频理解数据集，该数据集的素材来自于自然场景；
- 视频总时长超过3670小时，原始视频大小约7T；
- 5大类任务：Episodic Memory（情节记忆），Hands and Objects（手和物体）， Audio-Visual Diarization（视听日志），Social Interactions（社交活动）和Forecasting（预测）

3. 小结

随着算力等硬件设备的升级，以数据为驱动的（超）大规模数据集逐渐涌现，这些基于（超）大规模数据集的模型能够较轻易的突破之前中小数据集性能的瓶颈，具有很大的前景。但是，由于笔者身在高校，算力等硬件设施无法和公司的算力相提并论，所以基于一些经典数据集的探索对高校等科研单位的研究人员具有很大的意义。虽然视频理解领域的数据集非常多，并且不断的有新数据集被提出，但是一些基准数据集还是依旧被大家所认可，本文是笔者依据自己探索的方向（行为识别/分类/分割、时序定位、视听理解等）进行的一些归纳，并附上了这些数据集的作者及团队，他们往往在该领域里深耕多年，值得关注。由于时间关系，本文如有不全或笔误之处，请不吝指出，同时后续也将持续更新。

参考文献

[1] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre, “Hmdb: a large video database for human motion recognition,” in 2011 International conference on computer vision. IEEE, 2011, pp. 2556–2563.

[2] K. Soomro, A. R. Zamir, and M. Shah, “Ucf101: A dataset of 101 human actions classes from videos in the wild,” arXiv preprint arXiv:1212.0402, 2012.

[3] F. Caba Heilbron, V. Escorcia, B. Ghanem, and J. Carlos Niebles, “Activitynet: A large-scale video benchmark for human activity understanding,” in Proceedings of the ieee conference on computer vision and pattern recognition, 2015, pp. 961–970.

[4] G. A. Sigurdsson, G. Varol, X. Wang, A. Farhadi, I. Laptev, and A. Gupta, “Hollywood in homes: Crowdsourcing data collection for activity understanding,” in European Conference on Computer Vision. Springer, 2016, pp. 510–526.

[5] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev et al., “The kinetics human action video dataset,” arXiv preprint arXiv:1705.06950, 2017.

[6] R. Arandjelovic and A. Zisserman, “Look, listen and learn,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 609–617.

[7] D. Damen, H. Doughty, G. M. Farinella, , A. Furnari, J. Ma, E. Kazakos, D. Moltisanti, J. Munro, T. Perrett, W. Price, and M. Wray, “Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100,” International Journal of Computer Vision, vol. 130, p. 33–55, 2022.

[8] H. Idrees, A. R. Zamir, Y. Jiang, A. Gorban, I. Laptev, R. Sukthankar, and M. Shah, “The thumos challenge on action recognition for videos “in the wild”,” Computer Vision and Image Understanding, vol. 155, pp. 1–23, 2017.

[9] Y. Tian, J. Shi, B. Li, Z. Duan, and C. Xu, “Audio-visual event localization in unconstrained videos,” in Proceedings of the European Conference on Computer Vision, 2018, pp. 247–263.

[10] Y. Tian, D. Li, and C. Xu, “Unified multisensory perception: Weakly-supervised audio-visual video parsing,” in European Conference on Computer Vision. Springer, 2020, pp. 436–454.

[11] J. Zhou, J. Wang, J. Zhang, W. Sun, J. Zhang, S. Birchfield, D. Guo, L. Kong, M. Wang, and Y. Zhong, “Audio-visual segmentation,” in European Conference on Computer Vision, 2022.

[12] H. Chen, W. Xie, A. Vedaldi, and A. Zisserman, “Vggsound: A large-scale audio-visual dataset,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2020, pp.721–725.

[13] G. Li, Y. Wei, Y. Tian, C. Xu, J.-R. Wen, and D. Hu, “Learning to answer questions in dynamic audio-visual scenarios,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19108-19118.

[14] H. Kuehne, A. Arslan, and T. Serre, “The language of actions: Recovering the syntax and semantics of goal-directed human activities,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp.780–787.

[15] S. Stein and S. J. McKenna, “Combining embedded accelerometers with computer vision for recognizing food preparation activities,” in Proceedings of the 2013 ACM international joint conference on Pervasive and ubiquitous computing, 2013, pp. 729–738.

[16] A. Fathi, X. Ren, and J. M. Rehg, “Learning to recognize objects in egocentric activities,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2011, pp. 3281–3288.

[17] Y. Li, M. Liu, and J. M. Rehg, “In the eye of beholder: Joint learning of gaze and actions in first person video,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 619–635.

[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012.
in first person video,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 619–635.

文章出处登录后可见！

已经登录？立即刷新