[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

2023年7月10日下午6:27 • 技术杂谈 • 阅读 116

《Python机器学习手册——从数据预处理到深度学习》

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用中也能更为熟练。

以下是根据书上的代码进行实操，注释基本写明了每句代码的作用(写在本句代码之前)和print的输出结果（写在print之后）。不一定严格按照书上内容进行，根据代码运行时具体情况稍作顺序调整，也加入了一些自己的理解。

如果复制到自己的环境下跑一遍输出，相信理解会更深刻更清楚。

博客中每个代码块代表一次完整的运行结果，可以直接以此为单位复制并运行。

02-加载数据

包括：

加载样本数据集
创建仿真数据集
加载CSV文件
加载Excel文件
加载json文件
查询SQL数据库

其中1、2部分内容主要是sklearn库中datasets的基本应用，在本文中将进行详细叙述。
3-6部分主要是pandas库的读入，将在02-加载数据：加载文件中详细叙述。

02-1 加载样本数据集

&#x52A0;&#x8F7D;&#x73B0;&#x6709;&#x6570;&#x636E;&#x96C6;
from sklearn import datasets

&#x52A0;&#x8F7D;&#x624B;&#x5199;&#x6570;&#x5B57;&#x6570;&#x636E;&#x96C6;--&#x56FE;&#x50CF;&#x5206;&#x7C7B;
digits = datasets.load_digits()
print(digits.keys())
dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

&#x52A0;&#x8F7D;&#x6CE2;&#x58EB;&#x987F;&#x623F;&#x4EF7;&#x6570;&#x636E;&#x96C6;--&#x56DE;&#x5F52;
boston = datasets.load_boston()
print(boston.keys())
dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

&#x52A0;&#x8F7D;&#x9E22;&#x5C3E;&#x82B1;&#x6570;&#x636E;&#x96C6;--&#x5206;&#x7C7B;
iris = datasets.load_iris()
print(iris.keys())
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

02-2 创建仿真数据集

&#x521B;&#x5EFA;&#x4EFF;&#x771F;&#x6570;&#x636E;&#x96C6;
from sklearn.datasets import make_regression, make_classification, make_blobs, make_multilabel_classification

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x56DE;&#x5F52;
features, target, coefficients = make_regression(n_samples = 100,
                                                 n_features = 3,
                                                 n_informative = 3,
                                                 n_targets = 1,
                                                 noise = 0.0,
                                                 coef = True,
                                                 random_state = 1)

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x5206;&#x7C7B;
features, target = make_classification(n_samples = 100,
                                       n_features = 3,
                                       n_informative = 3,
                                       n_redundant = 0,
                                       n_classes = 2,
                                       weights = [.25, .75],
                                       random_state = 1)
n_samples=100, # &#x6837;&#x672C;&#x4E2A;&#x6570;
n_features=20, # &#x7279;&#x5F81;&#x4E2A;&#x6570;
n_informative=2, # &#x6709;&#x6548;&#x7279;&#x5F81;&#x4E2A;&#x6570;,&#x6709;&#x4EF7;&#x503C;&#x7684;&#x91CD;&#x8981;&#x7279;&#x5F81;
n_redundant=2, # &#x5197;&#x4F59;&#x7279;&#x5F81;&#x4E2A;&#x6570;&#xFF08;&#x6709;&#x6548;&#x7279;&#x5F81;&#x7684;&#x968F;&#x673A;&#x7EC4;&#x5408;&#xFF09;,&#x5C06;&#x91CD;&#x8981;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x7EBF;&#x6027;&#x7EC4;&#x5408;&#x7684;&#x7279;&#x5F81;
n_repeated=0, # &#x91CD;&#x590D;&#x7279;&#x5F81;&#x4E2A;&#x6570;&#xFF08;&#x6709;&#x6548;&#x7279;&#x5F81;&#x548C;&#x5197;&#x4F59;&#x7279;&#x5F81;&#x7684;&#x968F;&#x673A;&#x7EC4;&#x5408;&#xFF09;
n_classes=2, # &#x6837;&#x672C;&#x7C7B;&#x522B;
n_clusters_per_class=2, # &#x851F;&#x7684;&#x4E2A;&#x6570;,&#x7C07;&#x7684;&#x4E2A;&#x6570;&#xFF0C;&#x67D0;&#x4E00;&#x4E2A;&#x7C7B;&#x522B;&#x7531;&#x51E0;&#x4E2A;&#x7C07;&#x6784;&#x6210;
weights=None, # &#x6BCF;&#x4E2A;&#x7C7B;&#x7684;&#x6743;&#x91CD; &#x7528;&#x4E8E;&#x5206;&#x914D;&#x6837;&#x672C;&#x70B9;
flip_y=0.01, # &#x968F;&#x673A;&#x4EA4;&#x6362;&#x6837;&#x672C;&#x7684;&#x4E00;&#x6BB5; y&#x566A;&#x58F0;&#x503C;&#x7684;&#x6BD4;&#x91CD;
class_sep=1.0, # &#x7C7B;&#x4E0E;&#x7C7B;&#x4E4B;&#x95F4;&#x533A;&#x5206;&#x6E05;&#x695A;&#x7684;&#x7A0B;&#x5EA6;
hypercube=True, # &#x5982;&#x679C;&#x4E3A;True&#xFF0C;&#x5219;&#x5C06;&#x7C07;&#x653E;&#x7F6E;&#x5728;&#x8D85;&#x7ACB;&#x65B9;&#x4F53;&#x7684;&#x9876;&#x70B9;&#x4E0A;&#xFF1B;&#x5982;&#x679C;&#x4E3A;False&#xFF0C;&#x5219;&#x5C06;&#x7C07;&#x653E;&#x7F6E;&#x5728;&#x968F;&#x673A;&#x591A;&#x9762;&#x4F53;&#x7684;&#x9876;&#x70B9;&#x4E0A;&#x3002;
shift=0.0, # &#x5C06;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x503C;&#x79FB;&#x52A8;&#xFF0C;&#x5373;&#x52A0;&#x4E0A;&#x6216;&#x51CF;&#x53BB;&#x67D0;&#x4E2A;&#x503C;
scale=1.0, # &#x5C06;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x503C;&#x4E58;&#x4E0A;&#x67D0;&#x4E2A;&#x6570;&#xFF0C;&#x653E;&#x5927;&#x6216;&#x7F29;&#x5C0F;
shuffle=True, # &#x662F;&#x5426;&#x6D17;&#x724C;&#x6837;&#x672C;
random_state=None, # &#x968F;&#x673A;&#x79CD;&#x5B50;

&#x7C7B;&#x522B;&#x6570;&#x91CF;&#x7EDF;&#x8BA1;
from collections import Counter
print(Counter(target)) # Counter({1: 75, 0: 25})
&#x7279;&#x5F81;&#x7EF4;&#x5EA6;
print(features.shape) # (100, 3)

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x591A;&#x6807;&#x7B7E;&#x5206;&#x7C7B;&#xFF0C;&#x4E00;&#x4E2A;features&#x5BF9;&#x5E94;&#x591A;&#x4E2A;target
features, target = make_multilabel_classification(n_samples = 100,
                                       n_features = 10,
                                       n_classes = 5,
                                       n_labels = 2,
                                       length =50,
                                       allow_unlabeled = True,
                                       sparse = False,
                                       return_indicator='dense',
                                       return_distributions=False,
                                       random_state = None)

&#x7279;&#x5F81;&#x7EF4;&#x5EA6;
print(features.shape) # (100, 10)
&#x591A;&#x6807;&#x7B7E;&#x793A;&#x4F8B;
print(target[:4])
[[1 1 0 1 0]
 [0 1 0 0 0]
 [0 1 0 0 1]
 [0 1 0 1 1]]

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x805A;&#x7C7B;
features, target = make_blobs(n_samples = 100,
                              n_features = 2,
                              centers = 3,
                              cluster_std = 0.5,
                              shuffle = True,
                              random_state = 1)

n_samples=100, # &#x6837;&#x672C;&#x6570;&#x91CF;&#xFF0C;&#x5982;&#x679C;&#x662F;&#x6570;&#x7EC4;&#xFF0C;&#x5219;&#x5E8F;&#x5217;&#x7684;&#x6BCF;&#x4E2A;&#x5143;&#x7D20;&#x8868;&#x793A;&#x6BCF;&#x4E2A;&#x805A;&#x7C07;&#x7684;&#x6837;&#x672C;&#x6570;&#x91CF;&#x3002;
n_features=2, # &#x7279;&#x5F81;&#x6570;&#x91CF;
centers=None, # &#x4E2D;&#x5FC3;&#xFF0C;&#x4E00;&#x79CD;&#x662F;int&#x51B3;&#x5B9A;&#x751F;&#x6210;&#x7684;&#x4E2D;&#x5FC3;&#x6570;&#x91CF;&#xFF0C;&#x4E00;&#x79CD;&#x662F;array&#x51B3;&#x5B9A;&#x56FA;&#x5B9A;&#x7684;&#x4E2D;&#x5FC3;&#x4F4D;&#x7F6E;(&#x957F;&#x5EA6;&#x7B49;&#x4E8E;n_samples&#x6570;&#x7EC4;&#x957F;&#x5EA6;)
cluster_std=1.0, # &#x805A;&#x7C07;&#x7684;&#x6807;&#x51C6;&#x5DEE;
center_box(-10.0, 10.0), # &#x805A;&#x7C07;&#x4E2D;&#x5FC3;&#x7684;&#x8FB9;&#x754C;&#x6846;
shuffle=True, # &#x662F;&#x5426;&#x6D17;&#x724C;&#x6837;&#x672C;
random_state=None #&#x968F;&#x673A;&#x79CD;&#x5B50;

&#x805A;&#x7C7B;&#x6570;&#x636E;&#x96C6;&#x53EF;&#x89C6;&#x5316;
import matplotlib.pyplot as plt

plt.figure()
plt.title('Data')
plt.scatter(features[:, 0], features[:, 1], marker='o', c=target, s=30)
plt.show()
plt.savefig('blobs.png')
plt.close()

[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

Original: https://www.cnblogs.com/camilia/p/16690960.html
Author: CAMILIA
Title: [Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683349/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Docker创建容器时默认的共享内存shm太小报错，程序无法正常运行

在docker容器中训练网络，由于创建容器时默认的共享内存shared memory太小，导致程序报错： ERROR: Unexpected bus error encounter…

技术杂谈 2023年7月10日
0093
运行程序报告 ModuleNotFoundError: No module named ‘Cython’ 解决方法

运行代码出现找不到Cython模块报错，如下：安装升级下Cython可以解决:pip3 install –upgrade cython Original: https…

技术杂谈 2023年7月11日
0070
《玩态人生》重新学会玩

前方高能警告，在您开始阅读时，请记住，这只是作者小鬼个人的价值观思考。如果看到一半发现严重与您的体系不同，发现不适。请坚决关掉，因为接下来写的内容，可能跟主流的价值观存在很多冲突的…

技术杂谈 2023年6月21日
0077
代码圈复杂度

回到我们日常的写代码的场景，我们一直在说系统很复杂，那到底什么是系统复杂度呢？最近几天，一直在改项目里别人写的代码，某些方法复杂无注释。怎么才能写的一手可读，可扩展，可维护[注1]…

技术杂谈 2023年7月11日
00124
Linux关于防火墙的命令

Linux关于防火墙的命令一、red hat/CentOs7关闭防火墙的命令查看防火墙状态 systemctl status firewalld service iptable…

技术杂谈 2023年7月11日
0073
2.数据及其预处理

数据样本矩阵一般数据集的构造形式：一行一样本，一列一特征，以下为一个示例姓名年龄性别工作经验月薪 A 22 男 2 5000 B 23 女 3 6000 C 25 男…

技术杂谈 2023年7月10日
0069
使用MindSpore计算旋转矩阵

坐标变换、旋转矩阵，是在线性空间常用的操作，在分子动力学模拟领域有非常广泛的应用。比如在一个体系中切换坐标，或者对整体分子进行旋转平移等。如果直接使用Numpy，是很容易可以实现的…

技术杂谈 2023年7月25日
0060
Java获取Web服务器文件

Java获取Web服务器文件如果获取的是服务器上某个目录下的有关文件，就相对比较容易，可以设定死绝对目录，但是如果不能设定死绝对目录，也不确定web服务器的安装目录，可以考虑如下…

技术杂谈 2023年7月24日
0082
PPT中插入个性化页码

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/hxsyl/p/6526279.htmlAuthor: …

技术杂谈 2023年5月31日
0082
深入C++03：面向对象

📕面向对象类和对象、this指针不用做太多笔记，都可以看初识C++的笔记；记住👀：声明后面都要加” ；“，比如声明方法和变量还有…

技术杂谈 2023年7月25日
0079
[学习笔记]Java读取用户输入

在程序的实际运行过程中，我们很可能会要求用户输入数据以继续运行程序； java.util包提供的Scanner类就可用于读取用户输入；创建Scanner对象使用next()方法…

技术杂谈 2023年7月24日
0076
Keka for Mac(mac压缩解压软件)中文版

Original: https://www.cnblogs.com/123ccy/p/16551434.htmlAuthor: -Mac123-Title: Keka for Ma…

技术杂谈 2023年5月31日
0095
Rancher部署并导入K8S集群

Rancher 的部署可以有三种架构：高可用 Kubernetes 安装：建议使用 Kubernetes 程序包管理器 Helm 在专用的 Kubernetes 集群上安装 R…

技术杂谈 2023年5月31日
00105
技能篇：关于缓存数据的一致性探讨

为了更快响应请求，减少不必要的查询，加速数据的处理，数据缓存是我们日常开发绕不过去的环节关注公众号，一起交流，微信搜一搜: 潜行前行缓存的意义数据的保存，离不开磁盘或者内存的…

技术杂谈 2023年7月25日
0095
vue系列文章 — 源码目录结构整理（三）

vue的版本是：^2.6.10 结构如下：如上是 vue2.6.10版本所有的js目录结构 1. src/compiler: 该目录包含Vue.js所有编译相关的代码，包括把模板…

技术杂谈 2023年6月1日
0076
软件装在D盘，实测有效

C盘容量小，希望把所有软件都装到D盘，试过很多次，没什么作用。今天装MS全家桶的时候看到了个帖子，实测有效，Visio、Word、Excel、PowerPoint都装到了D盘原贴链…

技术杂谈 2023年7月25日
00161

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

02-1 加载样本数据集

02-2 创建仿真数据集

大家都在看