关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

2023年7月5日下午6:40 • 人工智能 • 阅读 120

train_data：
所要划分的样本特征集

train_target：
所要划分的样本结果

test_size：
样本占比，如果是整数的话就是样本的数量

random_state：
是随机数的种子。
随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。 但填0或不填，每次都会不一样。

stratify是为了保持split前类的分布：
比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(… test_size=0.25, stratify = y_all), 那么split之后数据如下：
training: 75个数据，其中60个属于A类，15个属于B类。
testing: 25个数据，其中20个属于A类，5个属于B类。

用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。 通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配

1. x_train:
包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。
2. y_train：
这是因变量，需要此模型进行预测，其中包括针对自变量的类别标签，我们需要在训练/拟合模型时指定我们的因变量
3. x_test：
这是数据中剩余的40%的自变量部分，这些自变量将不会在训练阶段使用，并将用于进行预测，以测试模型的准确性。
4. y_test：
此数据具有测试数据的类别标签，这些标签将用于测试实际类别和预测类别之间的准确性。
5. random_state：
控制随机状态,固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

Original: https://blog.csdn.net/qq_42671928/article/details/121796069
Author: 我是真的菜啊啊
Title: 关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/672335/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LabVIEW开放神经网络交互工具包（ONNX)下载与超详细安装教程

文章目录前言一、LabVIEW开放神经网络交互工具包（ONNX)简介二、安装前的准备工作三、LabVIEW开放神经网络交互工具包（ONNX）下载四、LabVIEW开放神经…

人工智能 2023年6月24日
00163
【知识图谱】知识图谱概念

知识图谱概念人工智能技术的三个发展阶段 1、计算智能2、感知智能3、认知智能 ; 知识图谱例子知识的图表示形式包括：实体、属性、关系节点是实体，也有属性标签两个节点的边是…

人工智能 2023年6月10日
0095
perf_event 事件类型与分类

Linux 性能检测/调优之Perf_Event_He11o_Liu的专栏-CSDN博客 ref-cycles [Hardware event]alignment-faults […

人工智能 2023年7月3日
0096
【R语言数据科学】（十五）：机器学习常见评估指标

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月15日
0097
YOLO目标检测算法轻量化改进的过程记录

一、前言本文主要记录了在毕设期间关于将目标检测算法部署至嵌入式设备（jetson nano）上的过程及对YOLO算法轻量化及精度提升的一些修改策略（改的并不多，基本都是重复组合，…

人工智能 2023年6月16日
00117
海格里斯HEGERLS托盘式四向穿梭车批发定制｜24小时全自动无人化立体仓库批量托盘作业

“数智化变革，柔性化跃升”已成为仓储物流技术发展趋势，当前的物流行业正在从劳动密集型向技术密集型转变，物流系统越来越明显的向呈现出自动化、柔性化、数字化、智…

人工智能 2023年6月27日
00105
【基音频率】基音matlab基音频率计算【含Matlab源码 1384期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【基音频率】基音matlab基音频率计算【含Matlab源码 1384期】点击上面蓝色字体，直接付费下载，即可。获取代…

人工智能 2023年5月25日
0089
【Opencv小项目 1】Opencv实现简单颜色识别

参考 Opencv简单颜色识别 Youtube教学视频 BGR HSV颜色模型步骤一、 BGR 和 HSV 颜色模型 BGR ModelBGR模型表示三种颜色通道：红、绿、蓝，…

人工智能 2023年5月26日
00122
【深度学习前沿应用】图像风格迁移

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
00107
峰值旁瓣比和积分旁瓣比说明了什么_语音特征MFCC提取(1)不了解信号也能看懂到底在干什么…

做语音识别的工作，学习的第一步应该就是特征提取。但是对于一个没学过信号处理的同学（我）来说，什么信号旁瓣、功率谱、频谱泄露都没有概念。第一步就走得异常艰难，所以经历过这份痛的我决…

人工智能 2023年5月25日
0078
Opencv学习之：将图片的值进行范围调整 cv2.normalize()

cv2.normalize() 指定将图片的值放缩到 0-255 之间 array = cv2.normalize(array,None,0,255,cv2.NORM_MINMAX…

人工智能 2023年6月23日
00123
Ubuntu22.04 在线安装 MySQL8

使用APT安装MySQL sudo apt-get -y install mysql-server 确保记住您设置的根密码。以后想设置密码的用户可以在对话框中将密码字段留空，然后按…

人工智能 2023年6月28日
00156
Ubuntu22.04 下安装驱动、CUDA、cudnn以及TensorRT

CUDA驱动和CUDA Toolkit对应版本可查阅官方文档。驱动是向下兼容的，其决定了可安装的CUDA Toolkit的最高版本。安装与CUDA Toolkit对应的pyto…

人工智能 2023年6月16日
00105
图像识别-MNIST分类问题

摘要本报告基于美国国家标准与技术研究院收集整理的MNIST手写数字数据集。在当前时代背景下，仍有大量手写数字需要处理，对它们的识别及分类是解决问题的关键。对此，本论文中练习并体会…

人工智能 2023年7月2日
00103
【ICCV2021】TOOD: Task-aligned One-stage Object Detection【待完善。。。】

太长不看版通俗来说设计了一种新的检测头加入了新的标签分配和新的loss在coco数据集上单模型取得了不错的效果。存在问题单阶段目标检测通常是通过优化两个子任务来实现的： &a…

人工智能 2023年7月12日
0081
第11章：图像金字塔

第11章：图像金字塔 * – 一、理论基础： – + 1. 向下采样： + 2. 向上采样： – 二、pyrDown函数使用： – …

人工智能 2023年6月19日
00127

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

大家都在看