[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

2023年7月10日下午6:27 • 技术杂谈 • 阅读 104

《Python机器学习手册——从数据预处理到深度学习》

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用中也能更为熟练。

以下是根据书上的代码进行实操，注释基本写明了每句代码的作用(写在本句代码之前)和print的输出结果（写在print之后）。不一定严格按照书上内容进行，根据代码运行时具体情况稍作顺序调整，也加入了一些自己的理解。

如果复制到自己的环境下跑一遍输出，相信理解会更深刻更清楚。

博客中每个代码块代表一次完整的运行结果，可以直接以此为单位复制并运行。

02-加载数据

包括：

加载样本数据集
创建仿真数据集
加载CSV文件
加载Excel文件
加载json文件
查询SQL数据库

其中1、2部分内容主要是sklearn库中datasets的基本应用，在本文中将进行详细叙述。
3-6部分主要是pandas库的读入，将在02-加载数据：加载文件中详细叙述。

02-1 加载样本数据集

&#x52A0;&#x8F7D;&#x73B0;&#x6709;&#x6570;&#x636E;&#x96C6;
from sklearn import datasets

&#x52A0;&#x8F7D;&#x624B;&#x5199;&#x6570;&#x5B57;&#x6570;&#x636E;&#x96C6;--&#x56FE;&#x50CF;&#x5206;&#x7C7B;
digits = datasets.load_digits()
print(digits.keys())
dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

&#x52A0;&#x8F7D;&#x6CE2;&#x58EB;&#x987F;&#x623F;&#x4EF7;&#x6570;&#x636E;&#x96C6;--&#x56DE;&#x5F52;
boston = datasets.load_boston()
print(boston.keys())
dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

&#x52A0;&#x8F7D;&#x9E22;&#x5C3E;&#x82B1;&#x6570;&#x636E;&#x96C6;--&#x5206;&#x7C7B;
iris = datasets.load_iris()
print(iris.keys())
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

02-2 创建仿真数据集

&#x521B;&#x5EFA;&#x4EFF;&#x771F;&#x6570;&#x636E;&#x96C6;
from sklearn.datasets import make_regression, make_classification, make_blobs, make_multilabel_classification

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x56DE;&#x5F52;
features, target, coefficients = make_regression(n_samples = 100,
                                                 n_features = 3,
                                                 n_informative = 3,
                                                 n_targets = 1,
                                                 noise = 0.0,
                                                 coef = True,
                                                 random_state = 1)

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x5206;&#x7C7B;
features, target = make_classification(n_samples = 100,
                                       n_features = 3,
                                       n_informative = 3,
                                       n_redundant = 0,
                                       n_classes = 2,
                                       weights = [.25, .75],
                                       random_state = 1)
n_samples=100, # &#x6837;&#x672C;&#x4E2A;&#x6570;
n_features=20, # &#x7279;&#x5F81;&#x4E2A;&#x6570;
n_informative=2, # &#x6709;&#x6548;&#x7279;&#x5F81;&#x4E2A;&#x6570;,&#x6709;&#x4EF7;&#x503C;&#x7684;&#x91CD;&#x8981;&#x7279;&#x5F81;
n_redundant=2, # &#x5197;&#x4F59;&#x7279;&#x5F81;&#x4E2A;&#x6570;&#xFF08;&#x6709;&#x6548;&#x7279;&#x5F81;&#x7684;&#x968F;&#x673A;&#x7EC4;&#x5408;&#xFF09;,&#x5C06;&#x91CD;&#x8981;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x7EBF;&#x6027;&#x7EC4;&#x5408;&#x7684;&#x7279;&#x5F81;
n_repeated=0, # &#x91CD;&#x590D;&#x7279;&#x5F81;&#x4E2A;&#x6570;&#xFF08;&#x6709;&#x6548;&#x7279;&#x5F81;&#x548C;&#x5197;&#x4F59;&#x7279;&#x5F81;&#x7684;&#x968F;&#x673A;&#x7EC4;&#x5408;&#xFF09;
n_classes=2, # &#x6837;&#x672C;&#x7C7B;&#x522B;
n_clusters_per_class=2, # &#x851F;&#x7684;&#x4E2A;&#x6570;,&#x7C07;&#x7684;&#x4E2A;&#x6570;&#xFF0C;&#x67D0;&#x4E00;&#x4E2A;&#x7C7B;&#x522B;&#x7531;&#x51E0;&#x4E2A;&#x7C07;&#x6784;&#x6210;
weights=None, # &#x6BCF;&#x4E2A;&#x7C7B;&#x7684;&#x6743;&#x91CD; &#x7528;&#x4E8E;&#x5206;&#x914D;&#x6837;&#x672C;&#x70B9;
flip_y=0.01, # &#x968F;&#x673A;&#x4EA4;&#x6362;&#x6837;&#x672C;&#x7684;&#x4E00;&#x6BB5; y&#x566A;&#x58F0;&#x503C;&#x7684;&#x6BD4;&#x91CD;
class_sep=1.0, # &#x7C7B;&#x4E0E;&#x7C7B;&#x4E4B;&#x95F4;&#x533A;&#x5206;&#x6E05;&#x695A;&#x7684;&#x7A0B;&#x5EA6;
hypercube=True, # &#x5982;&#x679C;&#x4E3A;True&#xFF0C;&#x5219;&#x5C06;&#x7C07;&#x653E;&#x7F6E;&#x5728;&#x8D85;&#x7ACB;&#x65B9;&#x4F53;&#x7684;&#x9876;&#x70B9;&#x4E0A;&#xFF1B;&#x5982;&#x679C;&#x4E3A;False&#xFF0C;&#x5219;&#x5C06;&#x7C07;&#x653E;&#x7F6E;&#x5728;&#x968F;&#x673A;&#x591A;&#x9762;&#x4F53;&#x7684;&#x9876;&#x70B9;&#x4E0A;&#x3002;
shift=0.0, # &#x5C06;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x503C;&#x79FB;&#x52A8;&#xFF0C;&#x5373;&#x52A0;&#x4E0A;&#x6216;&#x51CF;&#x53BB;&#x67D0;&#x4E2A;&#x503C;
scale=1.0, # &#x5C06;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x503C;&#x4E58;&#x4E0A;&#x67D0;&#x4E2A;&#x6570;&#xFF0C;&#x653E;&#x5927;&#x6216;&#x7F29;&#x5C0F;
shuffle=True, # &#x662F;&#x5426;&#x6D17;&#x724C;&#x6837;&#x672C;
random_state=None, # &#x968F;&#x673A;&#x79CD;&#x5B50;

&#x7C7B;&#x522B;&#x6570;&#x91CF;&#x7EDF;&#x8BA1;
from collections import Counter
print(Counter(target)) # Counter({1: 75, 0: 25})
&#x7279;&#x5F81;&#x7EF4;&#x5EA6;
print(features.shape) # (100, 3)

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x591A;&#x6807;&#x7B7E;&#x5206;&#x7C7B;&#xFF0C;&#x4E00;&#x4E2A;features&#x5BF9;&#x5E94;&#x591A;&#x4E2A;target
features, target = make_multilabel_classification(n_samples = 100,
                                       n_features = 10,
                                       n_classes = 5,
                                       n_labels = 2,
                                       length =50,
                                       allow_unlabeled = True,
                                       sparse = False,
                                       return_indicator='dense',
                                       return_distributions=False,
                                       random_state = None)

&#x7279;&#x5F81;&#x7EF4;&#x5EA6;
print(features.shape) # (100, 10)
&#x591A;&#x6807;&#x7B7E;&#x793A;&#x4F8B;
print(target[:4])
[[1 1 0 1 0]
 [0 1 0 0 0]
 [0 1 0 0 1]
 [0 1 0 1 1]]

&#x751F;&#x6210;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x3001;&#x76EE;&#x6807;&#x5411;&#x91CF;&#x4EE5;&#x53CA;&#x6A21;&#x578B;&#x7CFB;&#x6570;--&#x805A;&#x7C7B;
features, target = make_blobs(n_samples = 100,
                              n_features = 2,
                              centers = 3,
                              cluster_std = 0.5,
                              shuffle = True,
                              random_state = 1)

n_samples=100, # &#x6837;&#x672C;&#x6570;&#x91CF;&#xFF0C;&#x5982;&#x679C;&#x662F;&#x6570;&#x7EC4;&#xFF0C;&#x5219;&#x5E8F;&#x5217;&#x7684;&#x6BCF;&#x4E2A;&#x5143;&#x7D20;&#x8868;&#x793A;&#x6BCF;&#x4E2A;&#x805A;&#x7C07;&#x7684;&#x6837;&#x672C;&#x6570;&#x91CF;&#x3002;
n_features=2, # &#x7279;&#x5F81;&#x6570;&#x91CF;
centers=None, # &#x4E2D;&#x5FC3;&#xFF0C;&#x4E00;&#x79CD;&#x662F;int&#x51B3;&#x5B9A;&#x751F;&#x6210;&#x7684;&#x4E2D;&#x5FC3;&#x6570;&#x91CF;&#xFF0C;&#x4E00;&#x79CD;&#x662F;array&#x51B3;&#x5B9A;&#x56FA;&#x5B9A;&#x7684;&#x4E2D;&#x5FC3;&#x4F4D;&#x7F6E;(&#x957F;&#x5EA6;&#x7B49;&#x4E8E;n_samples&#x6570;&#x7EC4;&#x957F;&#x5EA6;)
cluster_std=1.0, # &#x805A;&#x7C07;&#x7684;&#x6807;&#x51C6;&#x5DEE;
center_box(-10.0, 10.0), # &#x805A;&#x7C07;&#x4E2D;&#x5FC3;&#x7684;&#x8FB9;&#x754C;&#x6846;
shuffle=True, # &#x662F;&#x5426;&#x6D17;&#x724C;&#x6837;&#x672C;
random_state=None #&#x968F;&#x673A;&#x79CD;&#x5B50;

&#x805A;&#x7C7B;&#x6570;&#x636E;&#x96C6;&#x53EF;&#x89C6;&#x5316;
import matplotlib.pyplot as plt

plt.figure()
plt.title('Data')
plt.scatter(features[:, 0], features[:, 1], marker='o', c=target, s=30)
plt.show()
plt.savefig('blobs.png')
plt.close()

[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

Original: https://www.cnblogs.com/camilia/p/16690960.html
Author: CAMILIA
Title: [Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683349/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tar解压包的时候出现错误 gzip: stdin: not in gzip format

tar解压包的时候出现错误 gzip: stdin: not in gzip format tar -zxvf jdk-8u144-linux-x64.tar.gz 改成 tar …

技术杂谈 2023年5月31日
0076
2021年扩展DevOps的6种方法

2021年扩展DevOps的6种方法加强devops流程的自动化为了满足快速、高质量应用程序交付的需求，现代软件团队需要一种超越常规性能测试的方法。在这里，以devops为中心…

技术杂谈 2023年5月31日
0070
iOS 字符串去除空格

NSString *str = @” this is a test . “; 去掉两端的空格 str = [str stringByTrimmingCharactersInSet:…

技术杂谈 2023年5月30日
0071
防火墙NAT+DHCP+ACL+ACAP

任务要求： SwitchA作为有线终端网关与DHCP Server，为无线终端与有线终端分配IP地址，并配置ACL访问控制列表控制不同用户的访问权限，客户机只能跟DMZ区域服务器互…

技术杂谈 2023年6月21日
00104
Excel中*替换为空

查找输入~*替换不输入全部替换将 * 这个替换成空白 Original: https://www.cnblogs.com/gisoracle/p/16309234.htmlAuth…

技术杂谈 2023年5月30日
00101
异步函数

此入门教程是记录下方参考资料视频的过程开发工具：Visual Studio 2019 async和await关键字可以让你写出和同步代码一样简洁且结构相同的异步代码 await v…

技术杂谈 2023年5月31日
0096
说透缓存一致性与内存屏障

故事还得从一个矛盾说起。摩尔定律告诉我们：大约每18个月会将芯片的性能提高一倍。芯片的这种飞速发展直接导致了芯片的指令执行速度与内存读取速度之间的巨大鸿沟。举个例子，CPU在1…

技术杂谈 2023年7月23日
0058
永辉彩食鲜架构概述

背景满足整个大B业务从线上到供应链的全线业务系统的研发和维护,保证整个系统的稳定性和性能。架构思考大B业务不同于小B业务，它没有常见的业务高并发的场景，所以更多是对业务数据的…

技术杂谈 2023年7月23日
0068
非手机数字化应用

NFC是Near Field Communication的简称，该技术可以使通信两端使用13.56-MHz的频段进行短距离(10mm)的快速通信。我这个标题一定要加上非手机，因为国…

技术杂谈 2023年7月11日
0093
PyQt5 QCommandLinkButton

################################ PyQt5中文网 – PyQt5全套视频教程 # https://www.PyQt5.cn/ # 主讲：村长 #…

技术杂谈 2023年5月31日
0089
Hadoop2.x与Hadoop3.x副本选择机制

HDFS 上的文件对应的 Block 保存多个副本，且提供容错机制，副本丢失或者宕机自动恢复，默认是存 3 个副本。 2.8.x之前的副本策略官方文档说明： https://ha…

技术杂谈 2023年7月24日
0070
python-数据描述与分析2（利用Pandas处理数据缺失值的处理数据库的使用）

2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后，接下来就是如何处理数据，虽然之前的赋值计算也是一种计算，但是如果Pandas的作用就停留在此，那我们也许只是看…

技术杂谈 2023年7月25日
0080
CvMat 矩阵的使用方法和简单程序

一：CvMat cvInitMatHeader( CvMat mat, int rows, int cols, int type,void* data=NULL, int step…

技术杂谈 2023年5月30日
0073
为什么说开源的COLA既是架构也是框架？

COLA 是 Clean Object-Oriented and Layered Architecture的缩写，代表”整洁面向对象分层架构”，是来自阿里技…

技术杂谈 2023年6月1日
0093
如何在shell脚本中传变量的值传给curl

随着即时通讯的发展，大量的报警媒介已经从以往的邮件转为钉钉，企业微信等聊天工具。当我使用shell脚本来监控 Keepalived的时候，在给curl传递变量的时候无法生效，经过查…

技术杂谈 2023年6月21日
0093
【软考】运筹学

1.水流问题 2.管道问题以下是个人在学习过程中整理的软考运筹学错题 1.水流问题题目：某水库现在的水位已超过安全线，上游河水还在匀速流入。为了防洪，可以利用其10个泄洪闸（每…

技术杂谈 2023年5月31日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集

02-1 加载样本数据集

02-2 创建仿真数据集

大家都在看