交叉验证（Cross-Validation）

2023年5月27日下午7:43 • 人工智能 • 阅读 86

交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓”交叉”。

那么什么时候才需要交叉验证呢？ 交叉验证用在数据不是很充足的时候。如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话，我们一般随机的把数据分成三份，一份为训练集（Training Set），一份为验证集（Validation Set），最后一份为测试集（Test Set）。用训练集来训练模型，用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集，最终决定使用哪个模型以及对应参数。

一、基本方法

回到交叉验证，根据分割方法的不同，交叉验证分为以下三种类型：

[En]

Back to cross-validation, according to the different methods of segmentation, cross-validation is divided into the following three types:

第一种是 简单交叉验证，所谓的简单，是和其他交叉验证方法相对而言的。首先，我们随机的将样本数据分为两部分（比如： 70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。接着，我们再把样本打乱，重新选择训练集和测试集，继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。

第二种是 S折交叉验证（ S-Folder Cross Validation），也是经常会用到的。和第一种方法不同， S折交叉验证先将数据集 D随机划分为 S个大小相同的互斥子集，即，每次随机的选择 S-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择 S份来训练数据。若干轮（小于 S ）之后，选择损失函数评估最优的模型和参数。注意，交叉验证法评估结果的稳定性和保真性在很大程度上取决于 S取值。

图片来源：周治华的《机器学习》

[En]

Picture from: Zhou Zhihua’s “Machine Learning”

第三种是 留一交叉验证（Leave-one-out Cross Validation），它是第二种情况的特例，此时 S等于样本数 N，这样对于 N个样本，每次选择 N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题， N小于50时，我一般采用留一交叉验证。

通过反复的交叉验证，用损失函数来度量得到的模型的好坏，最终我们可以得到一个较好的模型。那这三种情况，到底我们应该选择哪一种方法呢？一句话总结，如果我们只是对数据做一个初步的模型建立，不是要做深入分析的话，简单交叉验证就可以了。否则就用S折交叉验证。在样本量少的时候，使用S折交叉验证的特例留一交叉验证。

此外还有一种比较特殊的交叉验证方式，也是用于样本量少的时候。叫做自助法(bootstrapping)。比如我们有m个样本（m较小），每次在这m个样本中随机采集一个样本，放入训练集，采样完后把样本放回。这样重复采集m次，我们得到m个样本组成的训练集。当然，这m个样本中很有可能有重复的样本数据。同时，用原始的m个样本做测试集。这样接着进行交叉验证。由于我们的训练集有重复数据，这会改变数据的分布，因而训练结果会有估计偏差，因此，此种方法不是很常用，除非数据量真的很少，比如小于20个。

; 1、保留交叉验证 hand-out cross validation

首先随机地将已给数据分为两部分：训练集和测试集 (例如，70% 训练集，30% 测试集)；
然后利用训练集在不同条件下(如不同参数个数)对模型进行训练，得到不同的模型。

[En]

Then the training set is used to train the model under various conditions (for example, different number of parameters), and different models are obtained.
在测试集上评估每个模型的测试误差，并选择测试误差最小的模型。

[En]

The test error of each model is evaluated on the test set, and the model with the smallest test error is selected.

事实上，在严格意义上，这种方法不能被认为是交叉验证，因为训练集中的样本数量总是那么大，模型看不到更多的样本，没有体现交叉验证的思想。

[En]

In fact, in a strict sense, this method can not be regarded as cross-validation, because the number of samples in the training set is always so large, the model does not see more samples, does not reflect the idea of cross-validation.

由于原始数据是随机分组的，最终测试集的精度与原始数据的分组密切相关，因此这种方法得到的结果并不令人信服。

[En]

Because the original data is grouped randomly, the accuracy of the final test set is closely related to the grouping of the original data, so the results obtained by this method are not convincing.

2、k折交叉验证 k-fold cross validation

这是应用最广泛的交叉验证方法。

[En]

This is the most widely used cross-validation method.

首先随机地将数据集切分为 k 个互不相交的大小相同的子集；
然后将 k-1 个子集当成训练集训练模型，剩下的 (held out) 一个子集当测试集测试模型；
将上一步对可能的 k 种选择重复进行 (每次挑一个不同的子集做测试集)；
这样就训练了 k 个模型，每个模型都在相应的测试集上计算测试误差，得到了 k 个测试误差，对这 k 次的测试误差取平均便得到一个交叉验证误差。这便是交叉验证的过程。

计算平均测试误差 (交叉验证误差) 来评估当前参数下的模型性能。

在模型选择时，假设模型有许多 tuning parameter 可供调参，一组 tuning parameter 便确定一个模型，计算其交叉验证误差，最后选择使得交叉验证误差最小的那一组 tuning parameter。这便是模型选择过程。

k 一般大于等于2，实际操作时一般从3开始取，只有在原始数据集样本数量小的时候才会尝试取2。

k折交叉验证可以有效的避免过拟合以及欠拟合状态的发生，最后得到的结果也比较具有说服性。

k折交叉验证最大的优点：

• 所有数据都会参与到训练和预测中，有效避免过拟合，充分体现了交叉的思想

交叉验证可能 存在 bias 或者 variance。如果我们提高切分的数量 k，variance 会上升但 bias 可能会下降。相反得，如果降低 k，bias 可能会上升但 variance 会下降。bias-variance tradeoff 是一个有趣的问题，我们希望模型的 bias 和 variance 都很低，但有时候做不到，只好权衡利弊，选取他们二者的平衡点。

通常使用10折交叉验证，当然这也取决于训练数据的样本数量。

3、留一交叉验证 leave-one-out cross validation

k折交叉验证的特殊情况，k=N，N 是数据集的样本数量，往往在数据缺乏的情况下使用。

留一交叉验证的优点是：

• 每一回合中几乎所有的样本皆用于训练模型，因此最接近原始样本的分布，这样评估所得的结果比较可靠。
• 实验过程中没有随机因素会影响实验数据，确保实验过程是可以被复制的。

缺点是：

• 计算成本高，因为需要建立的模型数量和原始数据集样本数量一致，尤其当样本数量很大的时候。可以考虑并行化训练模型减少训练时间。

总之，交叉验证对我们选择模型和模型参数是非常有帮助的。

[En]

In short, cross-validation is very helpful for us to select the model and the parameters of the model.

但以上交叉验证的方法都有一个问题，就是在数据分组的时候缺乏随机性，以 k折交叉验证为例，每个数据样本只能固定属于 k 个子集中的一个，可能会造成对于最终结果的影响。于是有人提出了 bootstrapping。

二、Bootstrapping

cv 和 bootstrapping 都是 重采样 (resampling) 的方法。机器学习中常用的 bagging 和 boosting 都是 bootstrapping 思想的应用。

bootstrapping 的思想是依靠自己的资源，称为 自助法，它是一种有放回的抽样方法。

bootstrapping 的过程如下：

数据假设要分成10组，则先设置一个采样比例，比如采样比例70%。则10组数据是每次从原始数据集中随机采样总数70%的数据构成训练集1，没有选中的样本作为测试集1；然后把数据放回，再随机采样总数70%的数据构成训练集2，没选中的作为测试集2……以此类推，放回式采样10组。
训练生成10个模型
计算平均测试误差来评估当前参数下的模型性能

除此之外，bootstrapping 在集成学习方法中也很有用。比如我们可以用经过 bootstrapping 的多组数据集构建模型 (比如决策树)，然后将这些模型打包 (bag，就像随机森林)，最后使用这些模型的最大投票结果作为我们最终的输出。

三、用途

交叉验证可以 有效评估模型的质量
交叉验证可以 有效选择在数据集上表现最好的模型
交叉验证可以 有效避免过拟合和欠拟合
• 欠拟合（Underfitting）
这意味着该模型不能获得数据集的主要信息，并且在训练集和测试集上的表示很差。

[En]

It means that the model can not get the main information of the data set, and the representation on the training set and the test set is very poor.
• 过拟合（Overfitting）
这意味着该模型不仅获得了数据集的信息，而且还提取了噪声数据的信息。该模型在训练集上表现得很好，但在测试集中表现很差。

[En]

It means that the model not only obtains the information of the data set but also extracts the information of the noise data. The model performs very well in the training set but badly in the test set.

所以可以得出一个较为草率的结论：一个最佳的ML模型在训练集和测试集上都有较好的表现。

通常，基于数据划分的交叉验证方法有多种。

[En]

In general, there are a variety of cross-validation methods based on data-based partition.

; 四、主要事件

年份事件相关论文/Reference19831983年美国统计学家杂志邀请Bradley Efron和Gail Gong提供了一篇文章，回顾了统计误差的非参数估计，主要是估计量的偏差和标准误差，或预测规则的误差率。涉及到的方法有自助法（bootstrap），刀切法（Jackknife）和交叉验证。Efron, B. & Gong, G. (1983). A Leisurely Look at the Bootstrap, the Jackknife, and Cross-Validation, The American Statistician, 37(1): 36-48.1995Kohavi也对交叉验证和自助法进行了比较Kohavi, R.(1995).A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection.Appears in the International Joint Conference on Arti cial Intelligence (IJCAI).1995Anders Krogh, Jesper Vedelsby讨论了如何结合交叉验证和模糊度来给出一个集成泛化误差（ensemble generalization error）的可靠的估计，以及这种类型的集成交叉验证（ensemble cross-validation）如何有时可以提高模型性能。Krogh, A.; Vedelsby, J. (1995). Neural Network Ensembles, Cross Validation, and Active Learning. NIPS.2003Hawkins等人通过理论论证和大量基于QSAR(Quantitative structure–activity relationship)数据集的经验研究表明，当可用样本量小于几百个时，将其中一部分分离出来作为测试集是很浪费的，而交叉验证是一个更好的选择。Hawkins, D. M.; Basak, S. C.; Mills, D. (2003).Assessing Model Fit by Cross-Validation.Journal of Chemical Information and Computer Sciences.43(2): 579-586.2010Arlot和Celisse试图将关于交叉验证的研究结果与模型选择理论的最新进展联系起来，将经验性陈述与严谨的理论结果区分开来，并根据不同问题的不同特点提供了选择最佳交叉验证程序的意见Arlot, S.; Celisse, A.(2010). A survey of cross-validation procedures for model selection. Statist. Surv. 4:

五、实例代码

在Python中使用：xtrain,xtest,ytrain,ytest = sklearn.model_selection.train_test_split()实现

Args:
data要进行划分的数据集，支持列表、数据帧、数组、矩阵
test_size 测试集所占比例，默认为0.25
train_size训练集所占比例
random_state随机数种子，用于生成重复随机数，保证实验可复现
shuffle 是否在划分数据集之前打乱数据集

使用 sklearn库实现交叉验证

import numpy as np
from sklearn import datasets
from sklearn.cross_validation import train_test_split

from sklearn.neighbors import KNeighborsClassifier
from sklearn.cross_validation import cross_val_score

def main():

    iris = datasets.load_iris()

    X = iris.data

    y = iris.target

    knn = KNeighborsClassifier(n_neighbors = 5)

    scores = cross_val_score(knn, X, y, cv = 5, scoring = 'accuracy')

    print(scores)

if __name__ == '__main__':
main()

最后输出结果

[ 0.96666667  1.          0.93333333  0.96666667  1.        ]

有了交叉验证，通过指定不同的模型参数 (上面的 knn 的参数就是 n_neighbors)，计算平均测试误差 (当然评估指标是根据问题的类型而定，acc 用于分类模型，mse 用于回归模型)，指标最好的模型对应的参数就是我们要选择的模型参数。

对于一些复杂的自定义的模型，数据集的读取并不是 sklearn 风格的，比如我最近写的一个层次分类模型，每一个层中每一个分类器的数据读取都是要到特征配置文件中找到对应的特征组再去数据集中读出来，这样很难使用 sklearn 的接口，于是我自己写了一个切分数据集的函数，来进行交叉验证。

def kfold_split(dataset, k_splits):
"""
    Split the dataset into k folds
    Args:
        dataset: the list of sample features
        k_splits: the number of folds
"""
    assert len(dataset) > 0, 'Dataset is empty!'
    cv_dataset_list = []

    dataset_size = len(dataset)
    fold_size = dataset_size / float(k_splits)
    chunked_dataset = []
    last = 0.0
    split_counter = 1
    while split_counter  k_splits:
        chunked_dataset.append(dataset[int(last):int(last + fold_size)])
        last += fold_size
        split_counter += 1
    assert len(chunked_dataset) == k_splits, 'The size of chunked_dataset should be same as k_splits!'

    for index in range(k_splits):
        testset = chunked_dataset[index]
        trainset = []
        for i in range(k_splits):
            if i == index:
                continue
            trainset += chunked_dataset[i]

        train_test = (trainset, testset)
        cv_dataset_list.append(train_test)
    return cv_dataset_list

k 折切分数据集后，在包含 k 个 (训练集，测试集) 组的列表中逐一训练、测试模型，得到 k 个模型，最后计算这些模型的平均测试误差，这样就完成了一次交叉验证。

参考资料

Original: https://blog.csdn.net/weixin_42691585/article/details/113971857
Author: 南有芙蕖
Title: 交叉验证（Cross-Validation）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527443/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu20.04安装ROS Noetic

参考ROS官网安装教程： https://wiki.ros.org/melodic/Installation/Ubuntu 在安装ROS之前建议先配置好系统的软件镜像源：打开软件和…

人工智能 2023年6月10日
0065
线性回归1

回归和预测的区别：输入变量与输出变量均为连续变量的预测问题是回归问题；输出变量为有限个离散变量的预测问题成为分类问题；数据获取为了便于分析，我们使用y = 5x+6模拟生成一些…

人工智能 2023年6月17日
0069
Python之精心整理的二十五个文本提取及NLP相关的处理案例

一、提取 PDF 内容 import PyPDF2 from PyPDF2 import PdfFileReader pdf = open("test.pdf"…

人工智能 2023年5月28日
0075
对数几率回归(Logistic Regression)

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月17日
0081
问题匹配鲁棒性评测方案总结

文章目录 1. 赛题描述与分析 * 1.1 赛题描述 1.2 赛题分析 2. 方案介绍 * 2.1 整体方案 2.2 模型方案一 2.3 模型方案二 2.4 模型方案三 2.5 后…

人工智能 2023年5月28日
0077
Yolov5+Deepsort+Slowfast实现实时动作检测

原作者对repo的介绍： Here are some details about our modification: we choose yolov5 as an object d…

人工智能 2023年7月5日
00139
深度学习入门——神经网络的正则化

神经网络中的正则化学习记录自：deeplearning.ai-andrewNG-master 在开始之前，先让我们来看看正则化模型与非正则化训练效果。非正则化模型与正则化模型的…

人工智能 2023年7月14日
0084
HCIP之BGP的路由聚合

BGP的路由聚合（类似路由汇总）自动聚合手工聚合 BGP的路由聚合（类似路由汇总） 1.抓取流量 [R1]ip ip-prefix aa permit 172.16.0.0 2…

人工智能 2023年6月27日
0058
NoveAI本地环境搭建、AI作画

鉴于按照别人的教程安装过程中遇到各种问题,极其痛苦,所以还是自己也整理总结一份. 1 diffusion vs GAN 所谓扩散算法diffusion是指先将一幅画面逐步加入噪点，…

人工智能 2023年7月26日
0060
ISP——CCM

CCM的作用如图所示，CCM(Color Correction Matrix)的作用就是通过一个3X3的矩阵使得颜色更接近人眼所感受的颜色。人眼之所以能感受到自然界的颜色是因为人…

人工智能 2023年7月28日
0092
第3章数据分析工具Pandas

1，掌握数据结构分析，索引操作及高级索引 2，掌握算术运算与数据对齐，数据排序 3，掌握统计计算与描述，层次化索引 4，掌握读写数据操作 Pandas中有两个主要的数据结…

人工智能 2023年6月11日
0091
python读取序列5之后的数据_python综合学习五之Pandas

这一节，主要深入学习Pandas的用法。一、筛选先建立一个 6X4 的矩阵数据。 dates = pd.date_range(‘20180830’, p…

人工智能 2023年7月8日
00104
Python之第八章模块和包 — 包

目录 Python之第八章模块和包 — 包 1.定义 2. _ init _ .py 作用： 3.制作包 4.导入包： 5.第三方包或模块的pip下载 Python之…

人工智能 2023年6月27日
0086
Python 爬取网页数据的两种方法

Python 爬取网页数据的两种方法 1. 概述 2. 使用pandas 爬取网页数据 * 2.1 打开网页 2.2 打开 PyCharm 编译器 3.使用urllib爬取网页数据…

人工智能 2023年7月30日
00148
Kmeans参数n_clusters_labels_centers_

KMeans重要参数：n_clusters 参数n_clusters 是 KMeans 中的 K，表示我们告诉模型要分几类。这是 Kmeans 当中唯一一个必填的参数，默认为 8 …

人工智能 2023年5月31日
00107
Windows+vs2022+cmake+opencv455

（1）Github源码：https://github.com/opencv/opencv 选择4.5.5版本。（2）下载后得到两个压缩包，解压二、CMake下载官网下载：ht…

人工智能 2023年6月19日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

交叉验证（Cross-Validation）

目录

一、基本方法

; 1、保留交叉验证 hand-out cross validation

2、k折交叉验证 k-fold cross validation

3、留一交叉验证 leave-one-out cross validation

二、Bootstrapping

三、用途

; 四、主要事件

五、实例代码

参考资料

大家都在看