什么是交叉验证

2023年12月31日下午12:01 • 人工智能 • 阅读 80

什么是交叉验证

交叉验证是机器学习中一种常用的模型评估方法。它主要用于评估模型的稳定性和泛化能力。交叉验证通过将数据集分成训练集和测试集，反复使用数据集的不同部分训练和测试模型，以得到相对准确的模型性能评估。

交叉验证是在机器学习中广泛使用的技术，因为常规的训练-测试分离方法有时会导致模型在未见过的数据上不稳定而泛化能力较差。通过交叉验证，模型能够在更大程度上利用数据，从而更好地评估模型的性能。

算法原理

交叉验证的基本原理是将数据集划分为k个互不相交的子集（通常称为“折叠”），其中一个子集作为测试集，其他k-1个子集组成训练集。然后使用这些训练集和测试集来训练和测试模型。

常见的交叉验证方法有k折交叉验证和留一交叉验证。k折交叉验证中，数据集被划分为k个相等大小的子集，其中每个子集都会被当作测试集一次。留一交叉验证是k折交叉验证的特例，当k等于数据集大小时，留一交叉验证每个样本都会单独作为测试集。

公式推导

下面给出k折交叉验证的公式推导。假设我们有一个包含m个样本的数据集$D$，我们将其划分为k个相等大小的折叠。对于每次迭代，第i个折叠被作为测试集$D_i$，其他k-1个折叠并在一起形成训练集$D_{-i}$。

根据此设置，我们可以得到模型在所有折叠上的平均性能度量。例如，如果我们使用分类准确度作为性能度量标准，则交叉验证得分可以计算为：

$$Accuracy = \frac{1}{k} \sum_{i=1}^{k} Accuracy_i$$

其中$Accuracy_i$表示第i个折叠上的分类准确度。

计算步骤

将数据集$D$划分为k个折叠。
对于每个折叠，将其作为测试集并将其他折叠组合成训练集。
使用训练集训练模型，并在相应的测试集上进行评估。
重复步骤2和3，直到每个折叠被用作测试集。
计算k个折叠上的性能度量的平均值，得到模型的交叉验证得分。

复杂Python代码示例

下面是一个使用k折交叉验证评估分类模型性能的示例。我们使用sklearn库中的cross_val_score函数来执行交叉验证。

首先，我们导入所需的库和数据集。在这个例子中，我们使用iris数据集。

import numpy as np
from sklearn import datasets
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

然后，我们创建一个K最近邻分类器，并使用cross_val_score函数执行5折交叉验证。

# 创建K最近邻分类器
knn = KNeighborsClassifier()

# 执行5折交叉验证
scores = cross_val_score(knn, X, y, cv=5)

最后，我们计算交叉验证得分的平均值。

# 计算交叉验证得分的平均值
mean_score = np.mean(scores)
print("Mean Accuracy: ", mean_score)

通过运行这段代码，我们可以得到K最近邻分类器在交叉验证中的平均准确度。

代码细节解释：

首先，我们导入numpy库，用于进行数值计算，以及datasets和cross_val_score模块。
我们加载iris数据集并将特征矩阵X和目标向量y分配给对应的变量。
接下来，我们使用KNeighborsClassifier类创建一个K最近邻分类器对象。
然后，我们调用cross_val_score函数，并传入分类器对象、特征矩阵和目标向量以及cv参数指定的折叠数（5折交叉验证）。
cross_val_score函数返回一个包含每个折叠上评估指标的数组。
最后，我们使用np.mean函数计算交叉验证得分的平均值，并将其打印出来。

这段代码演示了如何使用交叉验证来评估分类模型的性能。它可以很容易地适用于其他分类器和数据集。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821976/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用pytorch实现神经网络

章节设置：一、实现自带数据并自定义神经网络进行训练二、使用自带的模型进行训练以及测试三、用自己定义神经网络全局设定，指定了设备事实证明，即使是1650这样的显卡也会比cpu运行…

人工智能 2023年7月20日
0091
红黑树(4万字文章超详细,只为一个目的)

我写这篇文章的主要目的其次才是积累知识,主要是因为我想打一个同学的脸. 事情是这样的.我现在中学嘛,我们班上有一个同学他学了红黑树啊,就一副”不可一世”的样…

人工智能 2023年6月26日
0091
小爱同学app安卓版_小爱同学app下载安卓版-小爱同学安卓版v2.9.42-pc6手机下载…

小爱同学App是一款ai智能语音助手，拥有小米专用语音功能，可以和人一样交流，用户想看的想听的，只要告诉小爱同学就可以了，小爱就会从网络上帮助用户搜索需要的资源。功能介绍小艾是…

人工智能 2023年5月27日
00233
逻辑回归算法——乳腺癌检测

这个数据集总共从病灶造影图片中提取以下 10 个关键属性。• radius 半径即病灶中心点离边界的平均距离• texture 纹理，灰度值的标准偏差。• perimeter …

人工智能 2023年6月17日
00151
【蓝桥杯Web】第十四届蓝桥杯（Web 应用开发）模拟赛 1 期-大学组 | 精品题解

🧑‍💼 个人简介：一个不甘平庸的平凡人🍬🖥️ 蓝桥杯专栏：蓝桥杯题解/感悟🖥️ TS知识总结：十万字TS知识点总结👉 你的一键三连是我更新的最大动力❤️！📢 欢迎私信博主加入前端交…

人工智能 2023年7月31日
00233
史上最详细的Swin-Transformer 掩码机制(mask of window attentation)————shaoshuai

0、前言最近几天看了Swin-Transformer这篇论文，在看代码时对其中的掩码机制不解，尤其是看不懂代码的理解，而Swin的掩码机制又是论文的亮点之一，在查阅各方资料后终于…

人工智能 2023年6月15日
0092
理解yolov7网络结构

以下是yolov7网络结构配置的yaml，对每一层的输出加了注释。 parameters nc: 80 # number of classes depth_multiple: 1….

人工智能 2023年6月24日
00110
pyspark dataframe的常用操作

1、列重命名： train_data = train_data.toDF(‘imei’, ‘pkgName’, ‘timestamp’) 2、删除某一列： df = df.drop…

人工智能 2023年7月9日
0088
chatGPT实战之「基于你的数据库，为你智能生成SQL」

chatGPT为你生成SQL的落地效果演示这几天很很多粉丝进行了深度交流，发现大家对于SQL学习或者编写都遇到过困难，因此勇哥突发奇想是否可以借助chatGPT来帮一下大家呢？于…

人工智能 2023年7月31日
0073
OpenCV图像处理学习二十一，直方图比较方法

一.直方图比较直方图比较是对输入的两张图像进行计算得到直方图H1与H2，归一化到相同的尺度空间，然后可以通过计算H1与H2的之间的距离得到两个直方图的相似程度（每张图像都有唯一的…

人工智能 2023年7月19日
0067
机器学习——聚类

分类 vs 聚类分类：有监督学习（需要标签）；依据已知标签的数据，根据一定规则或模式，对新输入数据标记上影响标签（有明确的训练集，有人为给定标签）。聚类：无监督学习（没有…

人工智能 2023年5月31日
00148
ICASSP 2022 | 用于多模态情感识别的KS-Transformer

2020年，优必选科技与华南理工大学合作共建了”类人情感智能”联合创新实验室，在双方强强联合下，联合创新实验室在相关技术上不断取得突破。近期，该实验室的最新…

人工智能 2023年5月27日
00157
openvino 使用 yolov5模型

大家好，我是青空最近在折腾了一个yolov5的模型，然后想使用在openvino上，在这期间踩了不少的坑，记录一下。 yolov5 下载地址 https://github.com…

人工智能 2023年7月10日
00107
在Docker中使用TensorFlow（GPU版+Ubuntu 20.04）

在此前的文章【1】中，我们已经介绍了如何在Ubuntu 20.04中安装Docker。本文将介绍如何在其中使用TensorFlow（GPU）版。一、安装NVIDIA-Docker…

人工智能 2023年5月24日
00187
从零搭建Pytorch模型教程（三）搭建Transformer网络

前言本文介绍了Transformer的基本流程，分块的两种实现方式，Position Emebdding的几种实现方式，Encoder的实现方式，最后分类的两种方式，以及最重要的数…

人工智能 2023年7月22日
0059
opencv-python学习笔记-2对比度增强——研0基础学习

一、灰度直方图及绘制灰度直方图统计灰度直方图用来描述每个像素在图像矩阵中出现的次数或概率。其横坐标一般为0-255个像素值，纵坐标为该像素值对应的像素点个数。如下图所示的图像矩…

人工智能 2023年5月28日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

什么是交叉验证

什么是交叉验证

算法原理

公式推导

计算步骤

复杂Python代码示例

大家都在看