关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

train_data:
所要划分的样本特征集

train_target:
所要划分的样本结果

test_size:
样本占比,如果是整数的话就是样本的数量

random_state:
是随机数的种子。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。 但填0或不填,每次都会不一样。

stratify是为了保持split前类的分布:
比如有100个数据,80个属于A类,20个属于B类。如果train_test_split(… test_size=0.25, stratify = y_all), 那么split之后数据如下:
training: 75个数据,其中60个属于A类,15个属于B类。
testing: 25个数据,其中20个属于A类,5个属于B类。

用了stratify参数,training集和testing集的类的比例是 A:B= 4:1,等同于split前的比例(80:20)。 通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配

1. x_train:
包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.4,这意味着来自完整数据的60%的观察值将用于训练/拟合模型,其余40%将用于测试模型。
2. y_train:
这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指定我们的因变量
3. x_test:
这是数据中剩余的40%的自变量部分,这些自变量将不会在训练阶段使用,并将用于进行预测,以测试模型的准确性。
4. y_test:
此数据具有测试数据的类别标签,这些标签将用于测试实际类别和预测类别之间的准确性。
5. random_state:
控制随机状态,固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

Original: https://blog.csdn.net/qq_42671928/article/details/121796069
Author: 我是真的菜啊啊
Title: 关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/672335/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球