各大论文数据集详解

2023年5月27日下午9:21 • 人工智能 • 阅读 80

数据集列表

MSR-VTT
TRECVID AVS 2016-2018
VATEX
MPII Movie Description Dataset (MPII-MD)
MS-COCO
Flickr30k
MSVD
TGIF
ActivityNet Captions
LSMDC

MSR-VTT

论文名称： MSR-VTT: A Large Video Description Dataset for Bridging Video and Language

这是视频理解，特别是视频文字翻译这一新兴任务的一个新的大规模标杆。

[En]

This is a new large-scale benchmark for video understanding, especially the emerging task of video text translation.

这是通过从一个商业视频搜索引擎收集257个热门查询来实现的，每个查询包含118个视频。在目前的版本中，MSR-VTT提供了10K个网络视频片段，总计41.2小时，200K个片段-句子对，涵盖了最全面的类别和多样化的视觉内容，代表了最大的句子和词汇数据集。每一段视频都由1327名AMT工作人员用大约20句自然的句子进行了注释。

1.官方分区使用6513个剪辑进行训练，497个剪辑用于验证，其余2990个剪辑用于测试。
2.对于的划分，有6656个剪辑用于训练，1000个剪辑用于测试。
3.分区分别使用7010和1000个剪辑进行训练和测试。由于最后两个数据分区没有提供验证集，我们通过从MSR-VTT中随机抽取1000个片段来构建一个验证集。

视频简介：

MSR-VTT dataset: 该数据集为ACM Multimedia 2016 的 Microsoft Research – Video to Text (MSR-VTT) Challenge。地址为 : MSR-VTT dataset. 。该数据集包含10000个视频片段（video clip），被分为训练，验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外，MSR-VTT还提供了每个视频的类别信息（共计20类），这个类别信息算是先验的，在测试集中也是已知的。同时，视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标，分别为：METEOR, BLEU@1-4,ROUGE-L,CIDEr。

首先，我们的数据集拥有最多的剪辑-句子对，其中每个视频剪辑都有多个句子注释。这可以更好地训练rnn，从而生成更自然、更多样化的句子。其次，我们的数据集包含了最全面但最具代表性的视频内容，收集了257个热门视频查询在20个代表性类别(包括烹饪和电影)从一个真实的视频搜索引擎。这将有利于验证视频到语言的任何方法的泛化能力。第三，我们数据集中的视频内容比任何现有的数据集都要复杂，因为这些视频是从Web上收集的。这对这个特定的研究领域来说是一个基本的挑战。最后，除了视频内容，我们为每个剪辑保留音频通道，这为相关领域打开了一扇门。图1展示了视频的一些例子和注释句子。

分类：

分割

为了将数据集划分为训练集、验证集和测试集，我们根据相应的搜索查询对视频片段进行分离。来自相同视频或相同查询的剪辑不会单独出现在训练或测试集中，以避免过度匹配。我们按照65%、30%、5%的比例对数据进行分割，分别对应于训练集中的6513个片段、测试集合中的2990个片段和验证集合中的497个片段。

[En]

In order to divide the data set into training set, verification set and test set, we separate the video clips according to the corresponding search query. Clips from the same video or the same query will not appear separately in the training or test set to avoid overfitting. We split the data according to 65%, 30%, 5%, respectively, corresponding to 6513 clips in the training set, 2990 clips in the test set, and 497 clips in the verification set.

MSR-VTT源自各种各样的视频类别(来自20个一般领域/类别的7180个视频)，
由于MSR-VTT拥有最大的词汇量，每个剪辑注释了20个不同的句子

; TRECVID AVS 2016-2018

任务 – 临时视频搜索(AVS)
IACC.3 数据集

IACC.3 数据集是大约 4600 个互联网档案视频（144 GB，600 小时），具有 MPEG-4/H.264 格式的知识共享许可，持续时间从 6.5 分钟到 9.5 分钟不等，平均持续时间接近 7.8 分钟。大多数视频都有一些由捐赠者提供的可用元数据，例如标题、关键字和描述。

没训练数据，所以使用MSR-VTT和TGIF的联合集合训练

VATEX

论文名称：VATEX: A Large-Scale, High-Quality Multilingual Dataset
for Video-and-Language Research
用于视频和语言研究的大规模、高质量多语言数据集

[En]

Large-scale, high-quality multilingual data sets for video and language research

其中包含超过41,250个视频和825,000个中英文字幕。在字幕中，有超过20.6万对英汉平行翻译。

我们采用25991个用于培训的视频剪辑、1500个用于验证的视频剪辑和1500个用于测试的视频剪辑，其中验证和测试集是通过将3000个剪辑的官方验证集随机分成两个相等的部分获得的。

多语言视频字幕

大型多语言视频和语言研究数据集VATEX，其中包含超过41250个独特的视频和825000个高质量字幕。它涵盖了600个人类活动和各种视频内容。每个视频配有来自20名个人标注者的10个英文和10个中文不同字幕。

它包含大规模的英文和中文描述，可以支持受单一语言数据集限制的许多多语言研究。

[En]

it contains large-scale descriptions of English and Chinese and can support many multilingual studies limited by single-language datasets.*
其次，VATEX拥有最多的剪辑句对，每个视频片段都有多个独特的句子注释，每个标题在整个语料库中都是唯一的。
第三，VATEX的视频内容更全面、更有代表性，共涵盖600个人类活动。

VATEX数据集的一个示例。该视频有10个英文和10个中文描述。所有这些都描述了同一段视频，因此它们彼此之间是远平行的，而最后5个则是成对的翻译。

大概是这样的

; MPII Movie Description Dataset (MPII-MD)

MPII-MD包含从94部好莱坞电影中提取的约68000个视频剪辑。每个剪辑都附带一个句子描述，该描述来源于电影脚本和音频描述（AD）数据。广告或描述性视频服务（DVS）是添加到电影中的附加音频曲目，用于为视力受损者描述电影中明确的视觉元素。尽管电影片段是手动与描述对齐的，但由于视觉和文本内容的高度多样性，以及大多数片段只有一个引用语句，因此数据非常具有挑战性。我们使用作者提供的训练/验证/测试分割，每五帧提取一次（视频比MSVD短，平均94帧）。

我们使用官方数据分区，即56828、4929和6580个电影剪辑，分别用于培训、评估和测试。每个电影剪辑都与一个或两个文本描述相关联。

MS-COCO

MS-COCO包含123287张图片，每张图片用五句话描述。我们采用其标准拆分为[2]，[9]，使用113287张图像进行训练，5000张图像进行验证，其余5000张图像进行测试。通过对1000张测试图像进行5倍以上的平均或对5000张测试图像进行测试，报告最终结果。

: COCO2017 数据集分类统计.

: coco2017数据集80类别名称与id号的对应关系.

: COCO2017数据集结构说明.

; Flickr30k

Flickr30k收集31000张图像，每张图像有5个文本注释。我们采用其标准分割为，29000张图像用于训练，1000张图像用于验证，1000张图像用于测试。

flickr30k数据集是什么
这个数据集的核心是两个点，一个是图像，另一个是图像的相应描述语言。

[En]

The core of this data set is two points, one is the image, the other is the corresponding description language of the image.

&#x5728;token&#x6587;&#x4EF6;&#x4E2D;&#x7684;&#x6807;&#x6CE8;&#x4FE1;&#x606F;&#xFF1A;
667626.jpg#0 A girl wearing a red and multicolored bikini is laying on her back in shallow water .
667626.jpg#1 Girl wearing a bikini lying on her back in a shallow pool of clear blue water .
667626.jpg#2 A young girl is lying in the sand , while ocean water is surrounding her .
667626.jpg#3 A little girl in a red swimsuit is laying on her back in shallow water .
667626.jpg#4 A girl is stretched out in shallow water

如你所见，每个图像都伴随着五句描述，而这五句描述语言的意思基本相同。

[En]

As you can see, each image is accompanied by five sentences of description, and the meaning of the five sentences of description language is basically the same.

我们的目标是训练一个模型，我们需要达到的效果是把一个图像放在里面，出来一个相当正确的图像描述。正如俗语所说，看图说话。

[En]

Our goal is to train a model, and the effect we need to achieve is to put an image in it and come out with a fairly correct image description. As the saying goes, look at the picture and talk.

一张图像，对应5条描述语言，一共有158915条语言描述。

MSVD

Youtube2Text （MSVD）

MSVD包含1970个视频，每个视频剪辑包含40个句子。我们使用标准拆分，1200个视频用于培训，100个视频用于验证，670个视频用于测试。

这个数据集包含 1970个短视频，10-25s，平均时长为9s，视频包含不同的人，动物，动作，场景等。
每个视频由不同的人标注了多个句子，大约41 annotated sentences per clip，共有 80839 个sentences，平均每个句子有8个words，这些所有的句子中共包含近16000个 unique words。
caption中包括多国的语言进行描述，部分论文中采取只选用laguage = english 的caption 进行训练和测试

; TGIF

Tumblr GIF（TGIF）数据集包含100K个GIF动态图和120K条描述GIF视觉内容的句子。

TGIF包含gif格式的视频，79451个用于培训的视频剪辑，10651个用于验证的视频剪辑，其余11310个用于测试的视频剪辑。

例子：

一个戴帽子的男人调整领带，做了一张奇怪的脸。

有人把一只猫放在包装纸上，然后把它包起来戴上蝴蝶结

一个黑发女人正在看着这个男人
 一个骑自行车的人正在跳过栅栏

一群男人站着盯着同一个方向。

a boy is happy parking and see another boy

原文出处

ActivityNet Captions

ActivityNet Captions数据库由20000个视频组成。每个视频都有多个句子描述的密集注释。

ActivityNet Captions数据库将视频和一系列时序标注的语句联系在一起。每个语句覆盖了视频的某一特定片段，描述了出现的事件。这些事件持续的时间或长或短，对事件本身也没有限制，并且可以同时出现。ActivityNet Captions包含20000个视频，每个视频平均含有3.65个时序定位的描述语句，一共有100000条描述。我们发现每个视频的语句数量相对服从正态分布。除此之外，随着视频的持续时间增加，描述语句的数量也在增加。句子的平均长度为13.48个词，也符合正态分布。平均每个句子描述了36秒的事件，大约是相应视频的31%的内容。然而每个视频的完整语句描述了大概视频94.6%的内容，这一点说明每一段标注基本都能覆盖视频内的主要活动。我们还发现描述内容有10%的重叠，说明同时出现的事件会互相覆盖。

长这样：

视频论文介绍网站;

LSMDC

由118081个短片组成。这些视频摘自202部长篇电影。

—————————–出处—————————

Original: https://blog.csdn.net/missgrass/article/details/121158046
Author: 帅帅梁
Title: 各大论文数据集详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527753/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Nvidia jetson系列 agx xavier/orin/nano/tx2 安装pytorch Gpu版

记录一下工作中的问题。手头的 jetson 需要搭建深度学习环境，刚开始以为安装方式和正常Ubuntu环境一样，然而这个系统被改了很多，常规的安装方式和whl文件只能用pytor…

人工智能 2023年6月16日
0058
【多元统计分析及R语言建模】第一章第多元统计分析的概述

文章目录多元统计分析及R语言建模 * 引言：第1章多元统计分析的概述 – 1.1 多元统计分析简介 1.2 多元统计分析用途 1.3 多元统计分析内容 1.4 统…

人工智能 2023年6月17日
00109
半监督学习笔记（四）：熵最小化、代理变量

昨天的更新中，我们学习了几种基于对抗方法的一致性正则化的策略，接下来让我们做一个简单的复习： 1、 Fast-SWA：采用了退火算法的思想，逼近多个最小值点后求平均。 2、 Vir…

人工智能 2023年7月13日
0052
利用pyecharts绘制雷达图的案例（含参数解释）

目录一、概念介绍二、数据导入三、图像绘制四、参数解释 Part 1：背景图添加 Part 2：add_schema Part 3：绘制雷达链 Part 4 ：set_se…

人工智能 2023年7月15日
0063
稀疏矩阵的概念介绍

在机器学习中，如果我们的样本数量很大，在大多数情况下，首选解决方案是减少样本量、更改算法，或者通过添加更多内存来升级机器。这些方案不仅粗暴，而且可能并不总是可行的。由于大多数机器学…

人工智能 2023年6月16日
0046
人脸识别—-face_recognition安装与应用（附代码）

  face_recognition号称是世界上最简单的基于 python的人脸识别库，是在大名鼎鼎的深度学习框架 dlib上做的整合， dli…

人工智能 2023年5月28日
0087
02_Neo4j安装与图谱构建

文章目录图谱概念构成 Neo4j 依赖安装 Neo4j各种版本介绍安装与启动neo4j 启动neo4j服务生成图谱数据 ; 图谱概念构成 neo4j是基于Java语言编写图形…

人工智能 2023年6月10日
00217
tensorflow2.0 基础知识点4 （基本数学——张量运算）

人工智能 2023年5月26日
0051
【图像分类案例】(8) ResNet50 鸟类图像4分类，附Pytorch完整代码

大家好，今天和大家分享一些如何使用 Pytorch 搭建 ResNet50 卷积神经网络模型，并使用迁移学习的思想训练网络，完成鸟类图片的预测。 ResNet 的原理和 Tenso…

人工智能 2023年7月21日
0046
MySQL是如何保证高可用的

一：常见的主备一致有哪些结构 1.m-s结构如上就是M-S结构客户端的读写都直接访问节点 A，而节点 B 是 A 的备库，只是将 A 的更新都同步过来，到本地执行。这样可以保持节点…

人工智能 2023年6月30日
0046
高斯分布&正态分布

文章目录 0 高斯分布定义 1 高斯分布意义 2 高斯分布的概率密度函数推导高斯分布又叫正态分布，是统计学中最重要的连续概率分布。有的地方将正态分布也称为常态分布，什么意思呢？从…

人工智能 2023年6月15日
0085
用Photoshop将照片卡通化

### 回答1：大屏可视 _化_UI设计是一项技术与艺术相结合的工作，需要设计师具备一定的美学素养和技术能力。为了更加高效和便捷地进行UI设计，设计师可以使用 _Photosho…

人工智能 2023年6月26日
0058
在Android上部署TF目标检测模型

在移动设备上部署机器学习模型是ML即将开始的新阶段。目标检测模型，已经与语音识别、图像分类等模型一起应用于移动设备。这些模型通常运行在支持GPU的计算机上，部署在移动设备上时也有…

人工智能 2023年7月10日
0053
深度学习——性别识别

第一次写博客，与大家分享刚刚学习的性别识别（不是图像）。根据一个人的身高，体重，性别，判断性别 1.背景神经网络具有预测，拟合，分类的作用神经网络就是把一堆神经元连接在一起。2…

人工智能 2023年7月14日
0050
【OpenCV 例程300篇】12. 图像通道的合并（cv2.merge）

文章目录：『youcans 的 OpenCV 例程200篇 – 总目录』【OpenCV 例程300篇】12. 图像通道的合并（cv2.merge）函数 cv2.me…

人工智能 2023年6月18日
0062
2022年JAVA短信加语音组合方案API

在一些重要信息通知的场景，需要用户能收到且关注到信息，采用短信+语音通知同步推送的方式，能很好的解决这个问题。场景一：相同内容的短信通知+语音通知同步发送在推送短信的同时，同步…

人工智能 2023年5月23日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

各大论文数据集详解

数据集列表

大家都在看