UCI数据集详解及其数据处理(附148个数据集及处理代码)

摘要:本文对机器学习中的 _UCI_数据集进行介绍,带你从 _UCI_数据集官网出发一步步深入认识数据集,并就下载的原始数据详细讲解了不同类型的数据集整理如何通过程序进行整理。为了方便使用,博文中附上了包括数据集整理及数据预处理在内的所有代码及处理好的数据集,同时对代码进行了解释,其要点如下:

(\color{#4285f4}{点}\color{#ea4335}{击}\color{#fbbc05}{跳}\color{#4285f4}{转}\color{#34a853}{至}\color{#ea4335}{博}\color{#4285f4}{文}\color{#ea4335}{涉}\color{#fbbc05}{及}\color{#4285f4}{的}\color{#34a853}{全}\color{#ea4335}{部}\color{#fbbc05}{文}\color{#4285f4}{件}\color{#34a853}{下}\color{#ea4335}{载}\color{#fbbc05}{页})

下载链接:博主在面包多网站上的完整资源下载页

前言

UCI数据集作为机器学习算法比较中的绝对经典经常出现在大多数论文或研究中。为了验证机器学习算法性能, _UCI_数据集通常用作为通用数据集,但官网提供的原始数据可能有格式不一致、缺失数据、包含特殊字符等问题,通常不能直接用于算法程序中,数据集的查找、下载、整理等可能会给初学者带来一定困扰。

对于数据集的查找整理确实是件费时费力的事情,是不是总有”论文就一篇,数据找半天”的问题?这里就来探讨下数据集整理的那些事。其实早前作者就写了一篇关于 _UCI_数据集处理的博文:UCI数据集整理(附论文常用数据集)介绍了如何用程序整理数据集,这里会更加深入地介绍不同类型的数据集处理方法及数据预处理。本文较长建议结合右侧的目录阅读。

  1. UCI 数据集介绍

这一节先从UCI 数据集官网出发介绍数据集的属性、格式等信息,在我的博文:UCI 数据集整理(附论文常用数据集)中也有部分介绍,对数据集熟悉或想看数据处理代码干货的朋友也可以直接跳转至下一节。下面先看一下对 _UCI_数据集的介绍。

1.1 UCI 数据集官网介绍

UCI (University of California Irvine) 数据集是美国加州大学欧文分校提出的一种适合模式识别和机器学习方向的开源数据集,很多学者选择使用 _UCI_上的数据集来验证自己所提算法的正确性。博文写作时已拥有 _488_个数据集,数据集还在不断扩充中,这些数据集主要分为二值分类问题、多分类问题以及回归拟合问题。 _UCI_数据集提供了各个数据集的上主要属性,可以根据自己提出的各类算法在其数据集上做实验结果论证,证明自己所提算法的合理性。

_UCI_数据集官网地址:https://archive.ics.uci.edu/ml/index.php ;
_UCI_数据集数据地址:https://archive.ics.uci.edu/ml/datasets.php

我在下图所示的UCI 数据集官网截图中对其页面主要部分进行了标注,可以看出主页中主要包括了数据集页面入口、最新数据集、经典数据集及数据集的最近消息等。数据集页面入口提供了进入官网查看全部数据集的链接,为了方便用户查找在「最新数据集」和「经典数据集」区域整理了最新收录以及引用最多的几个数据集。如果只是简单测试下代码,直接点击页面上提供的数据集链接下载几个数据集就可以了,如果还需要更多数据集那就进入数据集页面入口,该页面发布有全部的数据集。

下图(图中页面已翻译)所示的全部数据集页面是一个按类型排列的数据表,可以按照数据集名称、任务类型、属性类型、数据类型等进行排列查找,点击想要的数据集链接可进入该数据集详情页。值得注意的是,右上角有一个搜索框,用户可以通过输入数据集名字搜索数据集,不过比较可惜亲测下来该搜索在没有外网 _VPN_的加持下可能不能打开网页 (当然不能用的还有搜数据集的利器——谷歌数据集搜索)。

现在以官网数据集页面中的Adult(成年人收入)数据集为例,介绍以下数据集详情页面,点击链接进入Adult 数据集页面,页面主要情况如下图1.1.1所示。对于需要特别关注的地方我已经用红色标记,主要包括 数据集下载页面链接、数据集说明下载链接、数据量、属性数、是否确实数据及属性信息。当然其他的信息不可说没有必要,当我们要选用某个数据集进行测试时,了解更多的相关信息有助于更好根据数据情况对算法做出调整。页面最后面的相关论文和引用文献也能帮助了解专业情况。

图1.1.1 Adult数据集页面

这里对上面提及的几个重要部分做个简介:

  • 数据量( Number of Instances):或称实例数,表示数据集有多少行数据。
  • 属性数( Number of Attributes):表示数据集每行有多少个特征属性,决定了数据集复杂程度。
  • 属性信息( Attribute Information):这里介绍了数据集的分类类别,及每个属性表示的意义。例如上图数据集中介绍了成年人收入的两种分类类别:> 50K,

1.2 数据集文件认识

如上图所示,点击Data Folder ;进入 _Adult_数据集文件下载目录页面,可以看到该数据集的文件目录如下图所示。点击下载链接即可下载该数据集, _Adult_数据集已经划分好训练和测试数据集(一般的数据集未划分则只有一个数据文件),所以这里需要分别下载下图所示的两处文件,如下在链接上右键,点击”链接另存为”即可下载文件。

上面下载的文件格式类型为 _data_型,该文件在 _MATLAB_中可以直接打开(也可以右击选择打开方式为记事本打开),打开的文件内容如下图(加的红线分割左侧为属性,右侧为标记):

图1.2.1 Adult文件数据详情

可以看到文件中的数据中既有英文字符串又有整数,果然同前面介绍页中的”属性类型”显示的那样为 Categorical_型和 _Integer_性。刚学习的朋友可能不太能明白这一堆数据里面到底是些什么,这一堆奇怪的数据真的能被算法直接计算吗?其实在上面一小节中已经有所提及,前面我们看到Adult 数据集详情页面中” _Attribute Information(属性信息)”那一栏(如图1.2.2)介绍的该数据集的类别有两个:> 50K,

Original: https://www.cnblogs.com/sixuwuxian/p/16166031.html
Author: 思绪无限
Title: UCI数据集详解及其数据处理(附148个数据集及处理代码)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/805265/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球