sklearn中的train_test_split()函数解析

2023年7月3日下午12:24 • 人工智能 • 阅读 87

sklearn中的train_test_split()函数解析

train_test_split()函数：机器学习中用于分割数据集（训练集和测试集）

X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)

参数说明：

参数含义X待划分的样本特征集y待划分的样本标签test_size默认值为none，值为0.0-1.0时表示测试集占总样本比例；值为整数时表示测试集数量train_size默认值为none，值为0.0-1.0时表示训练集占总样本比例；值为整数时表示训练集数量random_state默认值none, 随机数种子（下面详细介绍）shuffle默认值True, 表示是否在拆分前打乱数据, 若为False则stratify必须置为nonestratify默认值none，如果不是none，则以分层方式拆分数据，并将其用作类标签

返回值说明：

名称含义X_train训练数据集X_test测试数据集y_train训练标签集y_test测试标签集

>a, b = np.arange(8).reshape(4,2), range(4)

a: [[0 1]
   [2 3]
   [4 5]
   [6 7]]
 b:range(0, 4)
 >X_train,X_test,y_train,y_test = train_test_split(a,b)
 >print('训练数据集：\n{}'.format(X_train))
 >print('训练标签集：\n{}'.format(y_train))
 >print('测试数据集：\n{}'.format(X_test))
 >print('测试标签集：\n{}'.format(y_test))

第一次运行结果：
训练数据集：[[6 7] [0 1] [2 3]]
训练标签集：[3, 0, 1]
测试数据集：[[4 5]]
测试标签集：[2]
第二次运行结果：
训练数据集：[[4 5] [6 7] [2 3]]
训练标签集：[2, 3, 1]
测试数据集：[[0 1]]
测试标签集：[0]

可以看出每次运行结果的拆分方式都是随机的

X_train,X_test,y_train,y_test = train_test_split(a,b,random_state=1)

设置了random_state=1后，每次运行结果都是一样的：
训练数据集：[[4 5] [0 1] [2 3]]
训练标签集：[2, 0, 1]
测试数据集：[[6 7]]
测试标签集：[3]

shuffle说明：
能够在划分数据前打乱数据，当数据分布不均衡时，可能会导致划分后的训练集和测试集不均匀，比如测试集中的类0占了99%，类1只占了1%（像sklearn中鸢尾花数据集前50个样本都是同一类别,此时打乱数据很有必要，因此默认值为True是合理的）
stratify说明：
能够保持划分前类的分布，比如（参考文章）：
有100个样本，80个属于标签0，20个属于标签1，如果前面参数test_size=0.25，则
75个训练数据，60个标签为0，15个标签为1
25个测试数据，20个标签为0，5个标签为1

Original: https://blog.csdn.net/W153633/article/details/126312955
Author: 好好学习就改名
Title: sklearn中的train_test_split()函数解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/667569/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch——mnist手写数据识别

目录 1、pytorch自带的数据集 1.1 torchvision.datasets 1.2 MNIST数据集的介绍 2、使用Pytorch实现手写数字识别 2.1思路和流程分析…

人工智能 2023年6月16日
0070
神经网络基础知识

手上没有什么教材，都是听网课自学，好多东西都是学了忘忘了翻笔记，心里想着不如记一些电子笔记。纸质笔记不会全部搬运，这篇文章随缘记一些有意思的神经网络知识。 1 反向传播 1.1 概…

人工智能 2023年5月31日
0070
学习tensorflow过程中遇到的一些好的文章

在学习tensorflow过程中，对于一些好的资源进行整理 1.TensorFlow图变量tf.Variable的用法解析： https://blog.csdn.net/gg_18…

人工智能 2023年5月24日
0093
如何使用pandas的join来比对两个dataframe的重合度，交集

如何使用pandas的join来比对两个dataframe的重合度，交集如何理解pandas的join函数 import pandas as pd columns = [‘gen…

人工智能 2023年7月8日
0052
dataframe 条件取非_python-Pandas DataFrame获取索引匹配特定条件的…

尝试这个： compare[compare.index.get_level_values(0).month.isin([5, 6, 7])] 演示： In [45]: import…

人工智能 2023年7月9日
0083
bio和bieos哪个标注模式好_基于新标注模式的实体和关系联合抽取方法 | 每周一起读…

「每周一起读」是由 PaperWeekly 发起的协同阅读小组。我们每周精选一篇优质好文，利用在线协同工具进行精读并发起讨论，在碎片化时代坚持深度阅读。目前已成立的专题小组有：Ch…

人工智能 2023年6月10日
0095
Pytorch利用ddddocr辅助识别点选验证码

本篇文章的主要目的是识别点选验证码，其中利用ddddocr来辅助识别，这样整体识别验证码的步骤将会非常简单，具体有多简单，请看步骤首先展示一下点选验证码的数据集数据集介绍：可以…

人工智能 2023年7月26日
00169
图注意力机制GAT和图注意力网络GCN的区别

GAT 和 GCN 的核心区别在于如何收集并累和距离为 1 的邻居节点的特征表示。图卷积网络GCN 图卷积网络 Graph Convolutional Network (GCN)…

人工智能 2023年7月13日
0058
Python 中导入csv数据的三种方法

这篇文章主要介绍了Python 中导入csv数据的三种方法,内容比较简单，非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下微点阅读小编收集的文章介绍。 Python 中导入c…

人工智能 2023年7月29日
0071
python 计量经济学案例分析_python数据分析案例（三）

数据来源：https://pan.baidu.com/s/1MUqs391emlIUsf_wyX2GAg#list/path=%2F 密码：utbp 第一部分按性别/年份统计出生…

人工智能 2023年7月8日
00107
解决Anaconda3 solving environment 巨慢的方法

解决Anaconda3 solving environment 巨慢的方法，亲测有效！！！最近在做毕设辽，准备做一个基于深度学习的MOT项目，python开发，coding期间由…

人工智能 2023年7月4日
00180
解决opencv源代码编译找不到ffmpeg

系统环境：操作系统：Ubuntu18.04硬件架构：X86_64OpenCV版本：4.5.1或3.4.16 项目场景：最近在研究OpenCV结合CUVIDEC解码视频流，就使用…

人工智能 2023年7月19日
0058
AI听曲识歌！哼曲、口哨吹，都能秒识！ ⛵

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 自然语言处理实战系列：https://www…

人工智能 2023年6月4日
00158
DICE model

Dice模型 1，introduction 2，motivation and problem overview_概述 3,DICE: The Proposed Approach *…

人工智能 2023年6月1日
0091
一、数字图像处理

数字图像处理图像滤波作用：1.消除图像中混入的噪声2.为图像识别抽取出图像特征图像滤波分为线性和非线性，用算子实现。算子就是小的矩阵，比如可以从左上角开始卷积运算，每次运算都…

人工智能 2023年6月22日
0096
python、anaconda、Pytorch、TensorFlow、CUDA、gcc的对应版本关系表

欢迎大家访问类chatGPT网站：智聊对话机器人有个常识很重要，但是如果没人告诉，还真不容易知道，那就是以下这六个跟GPU计算相关的重要组件是密切关联的： python版本 Py…

人工智能 2023年5月26日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

sklearn中的train_test_split()函数解析

sklearn中的train_test_split()函数解析

大家都在看