机器学习中—sklearn对于鸢尾花如何进行数据集划分

2023年7月18日下午3:28 • 人工智能 • 阅读 57

机器学习中，我们熟知的开发流程是：获取数据——数据处理——特征工程——机器学习算法训练模型——模型评估—–应用实际

所以对于一个我们已有的数据集，不能全部用作建立模型，还要有一部分数据集用来进行我们建立的模型的训练评估，这就涉及到数据集的划分，要用到这个代码进行数据集的划分：

x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=22)

这串代码的具体解释如下：

train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数；

使用train_test_split函数可以将我们已有的数据集按照一定比例划分训练集和测试集。

x，y是原始的数据集的特征值和标签值。

x_train,y_train 是原始数据集划分出来作为训练模型的.

x_test,y_test 这部分的数据不参与模型的训练，而是用于评价训练出来的模型好坏。

其中，test_size=？是测试集的划分比例，里面如果不设置，自己定义为0.25，

random_state：是随机数的种子。相同的随机种子时，同样的代码，得到的训练集数据相同。不同随机种子时，同样的代码，得到的训练集数据就会不同。

对于鸢尾花数据划分的整体代码如下：

from sklearn.datasets import load_iris
#&#x5C0F;&#x89C4;&#x6A21;&#x6570;&#x636E;&#x96C6;&#x7528;load,&#x5927;&#x89C4;&#x6A21;&#x6570;&#x636E;&#x96C6;&#x7528;fetch
from sklearn.model_selection import train_test_split
#&#x5BFC;&#x5165;&#x9E22;&#x5C3E;&#x82B1;&#x6570;&#x636E;&#x96C6;
#&#x5B9E;&#x4F8B;&#x5316;&#x5BF9;&#x8C61;
iris=load_iris()
print('&#x9E22;&#x5C3E;&#x82B1;&#x6570;&#x636E;&#x96C6;&#xFF1A;\n',iris)#&#x53EF;&#x4EE5;&#x770B;&#x51FA;&#x662F;&#x5B57;&#x5178;&#x5F62;&#x5F0F;&#x7684;
#&#x67E5;&#x770B;&#x7279;&#x5F81;&#x503C;
print('&#x9E22;&#x5C3E;&#x82B1;&#x7684;&#x7279;&#x5F81;&#x503C;&#xFF1A;\n',iris['data'],iris.data.shape)#&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x5B57;&#x5178;&#x7C7B;&#x578B;&#x83B7;&#x53D6;&#xFF0C;&#x4E5F;&#x53EF;&#x4EE5;&#x901A;&#x8FC7;.&#x5C5E;&#x6027;&#x7684;&#x65B9;&#x6CD5;&#x83B7;&#x53D6;&#x952E;&#x503C;&#x5BF9;
#&#x67E5;&#x770B;&#x7279;&#x5F81;&#x503C;&#x7684;&#x540D;&#x5B57;
print('&#x9E22;&#x5C3E;&#x82B1;&#x7684;&#x7279;&#x5F81;&#x503C;&#xFF1A;\n',iris.feature_names)
#&#x67E5;&#x770B;&#x6570;&#x636E;&#x96C6;&#x7684;&#x63CF;&#x8FF0;
print('&#x9E22;&#x5C3E;&#x82B1;&#x7684;&#x6570;&#x636E;&#x96C6;&#x63CF;&#x8FF0;&#xFF1A;\n',iris['DESCR'])#&#x53EF;&#x4EE5;&#x770B;&#x5230;&#x4ED6;&#x7684;&#x7279;&#x5F81;&#x503C;&#x7684;&#x63CF;&#x8FF0;&#x6709;&#x54EA;&#x4E9B;
'''&#x4F17;&#x6240;&#x5468;&#x77E5;&#xFF0C;&#x5728;&#x673A;&#x5668;&#x5B66;&#x4E60;&#x79CD;&#xFF0C;&#x6570;&#x636E;&#x548C;&#x7279;&#x5F81;&#x51B3;&#x5B9A;&#x4E86;&#x5176;&#x4E0A;&#x9650;&#xFF0C;&#x800C;&#x6A21;&#x578B;&#x548C;&#x7B97;&#x6CD5;&#x53EA;&#x662F;&#x903C;&#x8FD1;&#x8FD9;&#x4E2A;&#x4E0A;&#x9650;'''
#&#x6570;&#x636E;&#x96C6;&#x7684;&#x5212;&#x5206;,&#x5C06;&#x539F;&#x59CB;&#x6570;&#x636E;&#x96C6;&#x5212;&#x5206;&#x4E3A;&#x8BAD;&#x7EC3;&#x96C6;&#x548C;&#x6D4B;&#x8BD5;&#x96C6;
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=22)
print('&#x8BAD;&#x7EC3;&#x96C6;&#x7684;&#x7279;&#x5F81;&#x503C;&#xFF1A;',x_train,x_train.shape)#x_train.shape&#x53EF;&#x4EE5;&#x77E5;&#x9053;&#x51E0;&#x884C;&#x51E0;&#x5217;

Original: https://blog.csdn.net/Superman980527/article/details/124383246
Author: 漂泊的小森
Title: 机器学习中—sklearn对于鸢尾花如何进行数据集划分

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/701027/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

频繁模式挖掘——概述

频繁模式挖掘(Frequent Pattern Mining) 事务：由事务号和项集组成。事务是一次购买行为。项：最小处理单元，即购买的物品。项集：由一个或多个项组成。支持度计数：…

人工智能 2023年7月17日
0089
机器学习之L1正则化和L2正则化（附源码解析）

前言今天还是机器学习的基础知识内容，也是最基础的哈。首先说一下什么是正则化，其实它就是一个减少方差的策略。那么什么是方差呢？在这里也引入一个和方差相辅相成的概念–偏…

人工智能 2023年6月25日
00102
pandas practice

数据结构 Series– 用列表生成Series时，Pandas默认自动生成整数索引，也可以指定索引。是有索引的一维数组，numpy没有索引import pandas …

人工智能 2023年7月7日
0070
力扣：复原 IP 地址java

力扣：复原 IP 地址java ; 流程：设置一个list的结果集result回溯三部曲：返回值和参数：返回值为空，参数为字符串s、开始下标startindex和已经打点数量po…

人工智能 2023年6月29日
0075
【聚类2】原型聚类

文章目录 1. 原型聚类 * 1.1 k均值算法（K-Means） – 1.1.1 最小化平方误差 1.1.2 k均值算法伪代码 1.2 学习向量量化 – …

人工智能 2023年5月31日
0080
TensorFlow pb模型修改和优化

TensorFlow 模型训练完成后，通常会通过frozen过程保存一个最终的pb模型。保存的pb模型是以GraphDef数据结构保存的，可以序列化保存为二进制pb模型或者文本pb…

人工智能 2023年5月25日
0088
[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

; 文章地址： http://arxiv.org/pdf/2203.16778 个人阅读见解，欢迎大家交流讨论指正~ 一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索…

人工智能 2023年5月28日
0079
Day 53 | 1035. 不相交的线 & 53. 最大子数组和

不相交的线本题其实相当于求两个数组的最长公共子序列，与昨天做的题相同。 dp解题思路： ①确定dp数组以及下标含义 dp[i][j]：下标为[i-1]的nums1，下标为[j-1…

人工智能 2023年6月26日
0071
如果输入数据存在非线性关系，可以通过添加高阶项或者使用其他非线性特征转换方法来改进模型的性能

问题背景和目标在机器学习中，我们经常会遇到输入数据存在非线性关系的情况。线性模型只能拟合线性关系，当数据具有复杂的非线性关系时，性能会受到限制。为了改进模型的性能，我们可以通过添…

人工智能 2023年12月31日
0035
图像的边缘检测-三种方法

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月17日
00120
基于ROS的自动驾驶激光雷达点云物体检测项目实战

前言：基于Apollo的preception与Autoware的lidar_apollo_cnn_seg_detect模块，并详细记录ROS系统上进行实时检测全部流程和踩坑，文章最…

人工智能 2023年6月17日
0094
二值化最佳阈值选取方法以及matlab实现

文章目录前言一、真彩色图像转换为灰值图像 * 1.转换公式 2.转换过程二、最佳阈值选取方法以及matlab实现 * 1.迭代法 2.双峰法 3.最大类间方差法 4.最大熵阈…

人工智能 2023年6月17日
00101
数据分析：新冠疫情实时数据爬取

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0078
NeRF入门知识汇总

NeRF 在2020年ECCV上名声大噪，作为best paper展示（https://www.matthewtancik.com/nerf）作者在网上收罗了NeRF的相关评说，汇…

人工智能 2023年7月23日
00125
ResNet结构

文章目录系列文章目录一、Residual net(残差网络) 二、BatchNormalization(BN) 三、ResNet结构前言 提&#…

人工智能 2023年6月17日
0079
遥感深度学习目标检测数据集整理

1、UCAS-AOD 遥感影像数据集 UCAS AOD 遥感影像数据集，用于飞机和车辆检测。具体来说，飞机数据集包括 600 张图像和 3210 架飞机，而车辆数据集包括 310…

人工智能 2023年7月12日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习中—sklearn对于鸢尾花如何进行数据集划分

所以对于一个我们已有的数据集，不能全部用作建立模型，还要有一部分数据集用来进行我们建立的模型的训练评估，这就涉及到数据集的划分，要用到这个代码进行数据集的划分：

大家都在看