python机器学习 train_test_split()函数用法解析及示例划分训练集和测试集以鸢尾数据为例入门级讲解

2023年7月5日下午4:52 • 人工智能 • 阅读 83

文章目录

train_test_split()用法
获取数据
划分训练集和测试集
完整代码脚手架

train_test_split()用法

python机器学习中常用 train_test_split()函数划分训练集和测试集，其用法语法如下：

X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size, random_state, shuffle)

变量描述X_train划分的训练集数据X_test划分的测试集数据y_train划分的训练集标签y_test划分的测试集标签参数描述train_data还未划分的数据集train_target还未划分的标签test_size分割比例，默认为
0.25

，即测试集占完整数据集的比例random_state随机数种子，应用于分割前对数据的洗牌。可以是int，RandomState实例或None，默认值=None。设成定值意味着，对于同一个数据集，只有第一次运行是随机的，随后多次分割只要rondom_state相同，则划分结果也相同。shuffle是否在分割前对完整数据进行洗牌（打乱），默认为True，打乱

以sklearn库内置的iris数据集（鸢尾数据集）为例，首先获取数据：

获取数据

from sklearn.model_selection import train_test_split

dataset = load_iris()

这里的dataset数据是 sklearn.utils.Bunch类型的数据，比较像字典

将其打印出~

print(dataset)

如下所示

python机器学习 train_test_split()函数用法解析及示例划分训练集和测试集以鸢尾数据为例入门级讲解

从中取出其data属性和target属性， X是特征数组（也称数据集），y表示类别数组（也称标签）

X = dataset.data
y = dataset.target

此例中，有四个特征（即data的4列表示4个特征），分别是鸢尾植物的萼片的长，萼片的宽，花瓣的长，花瓣的宽。
X中共150行，即150个样本，类别数据总共有150个数据(对应150个样本的类别)。

print(y)

y的150个数据如上图，其中，有0,1,2三个取值，表示三种花：

012Iris Setosa(山鸢尾)Iris Versicolour(变色鸢尾)Iris Virginica(维吉尼亚鸢尾)

使用最简单的离散化算法，以均值为阈值，使大于阈值的特征值为1，小于阈值的特征值为0.

attribute_means = X.mean(axis=0)
X_d = np.array(X >= attribute_means, dtype='int')
print(X_d)

运行结果（成功将X的数据转换为bool类型）：

划分训练集和测试集

然后就是使用train_test_split()函数将数据划分训练集和测试集了。

random_state = 10

X_train, X_test, y_train, y_test = train_test_split(X_d, y, random_state=random_state)
print("There are {} training samples".format(y_train.shape[0]))
print("There are {} testing samples".format(y_test.shape[0]))

如图得到的数据中112/38接近3:1。分割成功！

完整代码脚手架

（将上述分步的代码写在一块儿方便复制使用）：

from sklearn.model_selection import train_test_split
dataset = load_iris()

X = dataset.data
y = dataset.target

attribute_means = X.mean(axis=0)
X_d = np.array(X >= attribute_means, dtype='int')

random_state = 10
X_train, X_test, y_train, y_test = train_test_split(X_d, y, random_state=random_state)

Original: https://blog.csdn.net/weixin_48964486/article/details/122866347
Author: 侯小啾
Title: python机器学习 train_test_split()函数用法解析及示例划分训练集和测试集以鸢尾数据为例入门级讲解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/672176/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【层级多标签文本分类】Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approa

Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approac…

人工智能 2023年7月3日
0088
机器学习之线性回归（包含推导过程）

参考B站视频新手狂喜！目前B站最全最清晰的【机器学习算法】教程，从零开始详细解读，原理+代码实现，通通都在这里了！收藏慢慢学！！决策树/随机森林/聚类分析/人工智能_哔哩哔哩_bi…

人工智能 2023年6月17日
00112
图像处理——SIFT算法

SIFT算法（Scale-invariant feature transform），即尺度不变特征变换，由David Lowe提出，是一种基于局部兴趣点的算法，因此不仅对图片大小…

人工智能 2023年6月22日
00115
机器学习–单细胞聚类(二)

本篇仍旧看一篇综述机器学习和统计方法在单细胞测序数据聚类中的应用 Machine learning and statistical methods for clustering s…

人工智能 2023年6月2日
0095
DateWhale数据分析课程组队学习打卡task01

task01主要是对数据做一些基本的分析，观察一个整体，用到的python包也不多，只有一个Pandas，导入来用即可。 1.数据读入首先就是读数据，python读取数据的方式有…

人工智能 2023年7月6日
0089
[python]爬虫入门

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
00105
go使用benchmark分析json库性能

主要分析下面2个json库，判断他们的性能差异 ① github.com/valyala/fastjson② github.com/bitly/go-simplejson 假设我们…

人工智能 2023年6月27日
0092
KeyError: “None of [Int64Index([…],n dtype=‘int64‘, length=739)] are in the [columns]“

KeyError: “None of [Int64Index([ 0, 1, 2, 3, 4, 6, 7, 8, 9, 10,\n …\n 907, 908…

人工智能 2023年6月15日
00127
Tensorflow 口罩识别

Tensorflow 口罩识别 1、数据集的选择为了避免对图像繁琐的标注，我们选择一个已经人脸区域已经被分割好、类别也已经标注好的数据集。本文选择了Kaggle上的一个口罩数据库…

人工智能 2023年5月26日
00105
自然语言处理（二）：文本预处理之文本处理的基本方法

文本预处理中包含的主要环节文本处理的基本方法文本张量表示方法文本语料的数据分析文本特征处理数据增强方法文本处理的基本方法分词词性标注命名实体识别文本张量表示方法…

人工智能 2023年5月31日
00110
DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

目录 1.标题解读 2.前言 3.摘要部分 4.引言部分 5.生成模型概述 6.扩散模型的发展 7.方法部分 1.标题解读 Hierarchical Text-Conditiona…

人工智能 2023年7月30日
0072
YOLOv5改进之七：损失函数改进

前言：作为当前先进的深度学习目标检测算法YOLOv5，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，…

人工智能 2023年6月16日
00127
CPU、GPU、NPU的区别

CPU、GPU、NPU的区别 CPU CPU（CentralProcessing Unit）中央处理器，是一块超大规模的集成电路，主要逻辑架构包括控制单元Control，运算单元A…

人工智能 2023年7月12日
00164
摆平各类目标检测识别AI应用，有它就够了

本文分享自华为云社区《摆平各类目标检测识别AI应用，有它就够了！》，作者：昇腾CANN。很难想象突然有一天，开门不能刷指纹了、超速抓拍不到了、不认识的花草也扫不出来了，我们的生活…

人工智能 2023年7月12日
00103
机器学习第一章发展历史与背景

文章目录一、什么是机器学习 * 1、机器学习的发展历史和背景 – 1.1 人工智能与机器学习 1.2 机器学习的发展历程 2、机器学习的基本概念 – 2….

人工智能 2023年6月15日
00103
python利用opencv简单识别红绿灯

#先装包和环境 import cv2 from PIL import Image import numpy as np #导入视频并自定义 cor_x, cor_y = -1, -…

人工智能 2023年7月19日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

文章目录

大家都在看

python机器学习 train_test_split()函数用法解析及示例划分训练集和测试集以鸢尾数据为例入门级讲解