各领域公开数据集简介及下载使用方式

文章目录

*
1. ImageNet
2. ADE20k
3. PASCAL VOC
4. KITTI
4. Flowers102
5. Pets37
6. CASIA-WebFace
7. LFW(人脸比对数据集)
8. COCO
8. WMT’16 & WMT’17
9. Multi30K
持续更新中…

本博客主要介绍各个领域常用的数据集,以及如何下载和使用。

[En]

This blog mainly introduces the datasets commonly used in various fields and how to download and use them.

1. ImageNet

各领域公开数据集简介及下载使用方式

ImageNet是深度学习视觉方面最经典的一个数据集,由斯坦福大学教授李飞飞为了解决机器学习中过拟合和泛化的问题而牵头构建的数据集。该数据集从2007年开始手机建立,直到2009年作为论文的形式在CVPR 2009上面发布。
ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)就是基于ImageNet数据集举行的比赛,从2010年开始举行,每年一届,直至2017年最后一届结束,在此期间诞生了 AlexNet(2012)VGG(2014)GoogLeNet(2014)ResNet(2015)等经典的深度学习网络模型。我们常说的 ImageNet一般是 ILSVRC2012的这个子集。
ILSVRC2012数据集拥有 1000个分类,每个分类约有 1000张图片,其中训练集约为 120万(1281167),验证集 5万,测试集 10万(没有标签)。

适用任务:图像分类、检测、定位。

[En]

Applicable tasks: image classification, detection, positioning.

训练集: ILSVRC2012_img_train.tar中包含120多万张自然图像,大概有150G,其中含有1000个类别的压缩包,分别对应1000个类别,每个压缩包解压之后都可以得到对应的类别照片。
验证集: ILSVRC2012_img_val.tar中含有50000张图片,解压之后是直接是图像,并没有按照类别区分开。因此需要处理成同训练集相同的格式,即验证集也要生成1000个文件夹,将相应的图片移动到所属的类别(文件夹)中。

图片格式都是 .JPEG
可以直接执行 valprep.sh脚本来处理验证集,使其文件目录格式同训练集保持一致。

.
├── train
│   │
│   ├── n01440764
│   │   └── *.JPEG
│   ├── n01443537
│   │
│   ├── ...

│   │
│   └── n15075141
└── val
     │
     ├── n01440764
     │   └── *.JPEG
     ├── n01443537
     │
     ├── ...

     │
     └── n15075141

2. ADE20k

各领域公开数据集简介及下载使用方式

; 3. PASCAL VOC

适用任务: Object ClassificationObject DetectionObject SegmentationHuman LayoutAction Classification
数据类别: person, bird, cat, cow, dog, horse, sheep, aeroplane, bicycle, boat, bus, car, motorbike, train, bottle, chair, dining table, potted plant, sofa, tv/monitor,共 20
数据量: VOC2007(Train/validation/test)9963张图片, 24640个标注的对象; VOC2012(Train/validation)11530张图片, 27450个标注的对象, 6929个注释的分割对象

各领域公开数据集简介及下载使用方式
Annotations .xml标签文件,标记了图片大小及所含物体的类别、位置等信息,文件名与图片名一一对应
ImageSets 包含三个子文件夹 Layout、Main、Segmentation,各个子文件夹存放的是适用于各种任务的.txt文件,内容是图片的文件名
JPEGImages 所有的图片文件,.jpg格式
SegmentationClass 存放按照 class 分割的图片
SegmentationObject 存放按照 object 分割的图片

使用

from torchvision import dataset

4. KITTI

KITTI数据集是目前自动驾驶领域最重要的测试集之一,可以用于立体图像 (stereo),光流 (optical flow),视觉测距 (visual odometry),3D物体检测 (3D object detection)和3D跟踪 (3D tracking)任务的评估。数据采集平台配备了两台高分辨率彩色摄像机和两台灰度摄像机,地面的实况信息由 Velodyne激光雷达和 GPS定位系统提供。数据集中包含在市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多可以看到 15辆车和 30个行人。

各领域公开数据集简介及下载使用方式
代码中涉及到坐标轴的转换,因此有必要对数据采集平台上的传感器做一个简单的介绍。
[En]

The conversion of coordinate axis is involved in the code, so it is necessary to make a brief introduction to the sensor on the data acquisition platform.

各领域公开数据集简介及下载使用方式

传感器名称高度信息坐标系彩色摄像机 Cam 2 & Cam 3 1.65m

各领域公开数据集简介及下载使用方式

灰度摄像机 Cam 0 & Cam 1 1.65m

各领域公开数据集简介及下载使用方式

激光雷达 Velodyne 1.73m

各领域公开数据集简介及下载使用方式

GPS GPS/IMU 0.93m

各领域公开数据集简介及下载使用方式

由于 AVOD论文中只涉及到了 object任务,因此只对 object下的数据集进行简要介绍:

各领域公开数据集简介及下载使用方式
3D目标检测基准由 7481张训练图像和 7518张测试图像以及相应的点云数据组成,共包含80.256个标记对象。
解压后的数据集如下:
各领域公开数据集简介及下载使用方式

calib 文件夹包含相机、雷达、 GPS/IMU等传感器的矫正数据,具体如下:


P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03
P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03
R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01
Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01
Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01

文件中的每一行表示一个参数矩阵,如下所示:

[En]

Each line in the file represents a parameter matrix, as follows:

参数矩阵shape解释备注 P0~P3 3x4

矫正后的相机投影矩阵, 其中 0,1

表示灰度摄像机, 2,3

表示彩色摄像机 R0_rect 3x3

矫正后的相机旋转矩阵在实际计算时,需要将该矩阵扩展为 4x4

的矩阵, pad

值为 0 Tr_velo_to_cam 3x4

雷达到相机的旋转平移矩阵在实际计算时,需要将该矩阵扩展为 4x4

的矩阵, pad

值为 [0,0,0,1] Tr_imu_to_velo 3x4 GPS/IMU

到相机的旋转平移矩阵在实际计算时,需要将该矩阵扩展为 4x4

的矩阵, pad

值为 [0,0,0,1]


y = P2 ∗ R0_rect ∗ Tr_velo_to_cam ∗ x

image_2 文件夹包含的是 .png格式的彩色图片(左侧彩色摄像头拍摄),具体如下:

各领域公开数据集简介及下载使用方式
        image_2
        label_2
        planes
        velodyne

4. Flowers102

flowers102数据集官网下载

5. Pets37

Pets37数据集官网下载,该数据集可用于图像分类和图像分割,其中数据集数量为 7390

各领域公开数据集简介及下载使用方式
数据集包含两个压缩文件:
[En]

The dataset contains two compressed files:

原图:https://www.robots.ox.ac.uk/~vgg/data/pets/data/images.tar.gz
标签:https://www.robots.ox.ac.uk/~vgg/data/pets/data/annotations.tar.gz

images.tar.gz这个压缩包,该文件解压后得到一个 images目录,这个目录比较简单,里面直接放的是用类名和序号命名好的图片文件,每个图片是对应的宠物照片:

.
├── samoyed_7.jpg
├── ......

└── samoyed_81.jpg

annotations.tar.gz文件解压后的目录里面包含以下内容,目录中的 README文件将每个目录和文件做了比较详细的介绍,可以通过 README来查看每个目录文件的说明:

.
├── README
├── list.txt
├── test.txt
├── trainval.txt
├── trimaps
│    ├── Abyssinian_1.png
│    ├── Abyssinian_10.png
│    ├── ......

│    └── yorkshire_terrier_99.png
└── xmls
      ├── Abyssinian_1.xml
      ├── Abyssinian_10.xml
      ├── ......

      └── yorkshire_terrier_190.xml

各领域公开数据集简介及下载使用方式

6. CASIA-WebFace

CASIA-WebFace数据集官网链接已失效,可前往百度的AI Studio进行下载。
CASIA-WebFace数据集包含 10575 个人的 494414 张图像,压缩包约 4G

7. LFW(人脸比对数据集)

LFW数据集官网下载
LFW数据集是一个人脸比对数据,该数据集由 13233张全世界知名人士互联网自然场景不同朝向、表情和光照环境人脸图片组成,共有 5749人,其中有 1680人有2张或2张以上人脸图片。每张人脸图片都有其唯一的姓名ID和序号加以区分。
LFW数据集主要测试人脸识别的准确率,该数据库从中随机选择了 6000对人脸组成了人脸辨识图片对,其中 3000对属于同一个人2张人脸照片, 3000对属于不同的人每人1张人脸照片。测试过程 LFW给出一对照片,询问测试中的系统两张照片是不是同一个人,系统给出 yesno的答案。通过 6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。目前已经成为了评估人脸识别算法性能的一个重要指标。

8. COCO

COCO数据集是由微软提供的一个大规模数据集,全称为 Microsoft Common Objects in Context,因此也叫 MC COCO数据集。
COCO数据集的第一个版本于2014年发布(COCO 2014),它包含 16.4万张图像,分为训练集(8.3万张)、验证集(4.1万张)和测试集(4.1万张)。 COCO 2017数据集于2017年发布,对原数据集进行了扩充,现在包含训练集(118287张,约 18GB)、验证集(5000张,约 1GB)、测试集(40670张,约 6GB),共80种类别,官方提供了数据集的API(pycocotool)。

适用任务:目标检测,语义分割,关键点检测,标题(字幕)生成。
COCO数据集官网下载

各领域公开数据集简介及下载使用方式
解压 train2017.zip得到 train2017/*.jpg
解压 val2017.zip得到 val2017/*.jpg
解压 annotations_trainval2017.zip得到 annotations/*.json,训练集和验证集的标注信息
解压 image_info_test2017.zip得到 annotations/*.json,测试集的标注信息
解压 coco2017labels.zip得到 coco,包含 annotations文件夹、 images文件夹、 labels文件夹及 *.txt
annotationstrain2017val2017移动到coco相应的目录下:
├── coco
│   ├── annotations
│   │   ├── instances_train2017.json
│   │   ├── ...

│   │   └── instances_val2017.json
│   ├── images
│   │   ├── train2017/*.jpg
│   │   └── val2017/*.jpg
│   ├── labels
│   │   ├── train2017/*.txt
│   │   ├── val2017/*.txt
│   ├── *.txt

coco2017labels.zip可从yolov5的代码库中下载。

8. WMT’16 & WMT’17

WMT'16WMT'17是著名的多模式机器翻译数据集。
WMT'16数据集官网下载
WMT'17数据集官网下载

9. Multi30K

对应着 WMT'16数据集,训练集、验证集和测试集为:
训练集:http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz
验证集:http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/validation.tar.gz
测试集:http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/mmt16_task1_test.tar.gz

持续更新中…

Original: https://blog.csdn.net/qq_42730750/article/details/122297743
Author: 夏小悠
Title: 各领域公开数据集简介及下载使用方式

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498030/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球