训练集、验证集以及测试集的区别

2023年6月16日上午11:37 • 人工智能 • 阅读 130

1、数据集的划分：

训练集：含有参考答案的数据，用来训练模型的已标注数据，用来建立模型，发现规律
验证集：模型训练过程中单独留出的样本集，用于调整模型的超参数和用于对模型的能力进行初步评估
测试集：用来评估模最终模型的泛化能力，但不能作为调参、选择特征等算法相关的选择的依据。已标注数据，通常做法是将标注隐藏，输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力

2、划分方法：

1、 总体数据集划分方法：
根据已有全部标注数据，随机选出一部分数据（比如70%）作为训练数据，余下的作为测试数据

2、 训练集/验证集的划分：两种方法
方法1：从训练集中，再随机选出一部分数据（比如90%）作为训练数据，余下的作为验证数据（不好）

方法2： 交叉验证法先将训练集D划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为验证集，这样就可获得k组训练/验证集，从而可进行k次训练和验证，最终返回的是这个k个测试结果的均值

通常把交叉验证法称为”k折交叉验证”, k最常用的取值是10，此时称为10折交叉验证
具体做法：
将训练集分为10份，其中9份作为训练集，1份作为验证集，做10次验证后，求平均，从而得到该模型的评分

得出几个模型的评分后，进行比较，从而得出最优的超参数

交叉验证用来选择最优的超参数，代替了原来单个验证集的功能

; 需注意

假设λ=1,2,3,4,5 分别将其带入模型，训练模型进行10折交叉验证，此时训练模型次数为50次,进行5个模型的评分比较后，选出最优的超参数后，随后需要将整体训练集（训练集+验证集）送进去，训练出最终模型
故需要训练模型 50+1 次

Original: https://blog.csdn.net/one_bird_/article/details/120877491
Author: 潇洒白羊
Title: 训练集、验证集以及测试集的区别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623796/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【神经网络】(19) ConvNeXt 代码复现，网络解析，附Tensorflow完整代码

各位同学好，今天和大家分享一下如何使用 Tensorflow 构建 ConvNeXt 卷积神经网络模型。论文地址：https://arxiv.org/pdf/2201.03545…

人工智能 2023年5月25日
0095
Visual Studio配置OpenCV之后，提示：#include＜opencv2/opencv.hpp＞无法打开源文件

问题描述 昨天按照博客[OpenCV&#…

人工智能 2023年6月18日
00101
图像分类基础

目录图像分类 * 1 CIFAR-10数据集 2 卷积神经网络（CNN） 3 CNN结构的演化 4 AlexNet网络 5 Network-in-Network网络 &#8211…

人工智能 2023年7月2日
0077
目标检测中几个算法的正负样本划分策略

参考:yolov5与Faster-RCNN 训练过程正负样本和评价指标 https://blog.csdn.net/norman_sen/article/details/12197…

人工智能 2023年7月12日
0080
GAN实现（含python代码）

目录伪代码设置初始数据的分布和生成器的初始化分布设置简单的线性运算用于后面的生成器与判别器线性函数用于很后面的生成器与判别器简单的生成器和判别器代码 * 学习率衰减的梯度…

人工智能 2023年7月15日
0070
深度学习框架能否处理大规模的标注数据和带有噪声的数据

1. 问题背景深度学习框架在处理大规模标注数据和带有噪声的数据方面的能力是一个关键问题。处理大规模标注数据是深度学习中常见的任务，如图像分类、目标检测和语义分割等。而带有噪声的数…

人工智能 2024年1月1日
0032
fairseq笔记

训练新模型以机器翻译为例子开始 Fairseq 包含多个翻译数据集的示例预处理脚本：IWSLT 2014（德语-英语）、WMT 2014（英语-法语）和 WMT 2014（英语-…

人工智能 2023年5月28日
0087
Python csv、xlsx、json、二进制(MP3) 文件读写基本使用

Python csv、xlsx、json、二进制(MP3) 文件读写基本使用文章目录 Python csv、xlsx、json、二进制(MP3) 文件读写基本使用前言一、什么…

人工智能 2023年7月3日
0051
OSPF高级配置

路由器高级 _配置_命令………………………………

人工智能 2023年6月29日
0080
数学建模实战10（时间序列回归）

销量数据预测一.Spss时间序列建模的思路二.销量数据预测 * 1.题目 2. 操作 – 【1】生成时间变量【2】画出时间序列图【3】查看建模结果【4】论文如…

人工智能 2023年6月18日
0094
[论文阅读]TPOT

[论文阅读]TPOT原文来源 Bioinformatics——CCF B 生物信息学顶刊作者实验室：宾夕法尼亚大学生物信息学研究所解决的问题提出树形pipeline优化器…

人工智能 2023年6月4日
0094
分水岭算法–语义分割

分水岭算法–语义分割一、分水岭算法：把图像中的低密度的区域（变化小）看成山谷，高密度的区域（变化大）看成山峰。开始向山谷中注入水知道不同的山谷中的水开始汇聚。为了阻止不同山谷中的…

人工智能 2023年6月22日
0076
【金融案例分析03】深度解读：光大证券乌龙指事件是怎么回事？（套利交易、基金背后的金融原理，事件的过程与定性）

文章目录基础知识1 -套利交易基础知识2–基金 Case：2013光大乌龙指事件 * 事情经过光大证券交易了什么？事件的定性证监会决定投资者赔偿计算基础知识1 -套利…

人工智能 2023年7月17日
0078
使用labelme以任意形状标注多个目标后将目标逐一抠图并保存到本地

1.使用labelme进行标注这里使用两张图片进行标注，需要注意以下几点： 1.图片的名称需要时英文字母命名； 2.标注目标的命名为类别. 标注完成直接将对应的json文件保存到…

人工智能 2023年7月19日
0091
【PyTorch】从头搭建并训练一个神经网络模型（图像分类、CNN）

目录 0. 前言 1. 使用torchvision加载数据集并做预处理 2. 定义（搭建）自己的神经网络 3. 定义损失函数（Loss Function）和优化器（Optimize…

人工智能 2023年7月21日
0064
挑灯夜战800个小时，终从外包成功上岸字节！入职那一天我眼眶湿润了

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

训练集、验证集以及测试集的区别

1、数据集的划分：

2、划分方法：

; 需注意

大家都在看