深度学习关于数据集的六大问题

2023年5月26日下午7:02 • 人工智能 • 阅读 99

问题一：数据集太小

如果数据集太小，模型将没有足够样例概括来区分特征。这将使数据过拟合，从而出现训练误差低但测试误差高的情况。

解决方案1

尝试找到更多和原始数据集来源相同的数据。

注：如果图像很相似或者你追求的就是泛化，也可用其他来源的数据。
小贴士：这并非易事，需要你投入时间和经费。在开始之前，你要先分析确定需要多少额外数据。将不同大小的数据集得出的结果做比较，然后思考一下这个问题。

解决方案2
通过为同一张图像创建多个细微变化的副本来扩充数据，可以让你以非常低的成本创造很多额外的图像。你可以试着裁剪、旋转或缩放图片，也可以添加噪音、模糊、改变图片颜色或遮挡部分内容。

注：不管怎么操作，只需保证这些数据仍代表相同类就好了。虽然这种操作很厉害，但收集更多原始数据效果好。
小贴士：这种”扩充术”不适合所有问题，比如如果你想分类黄柠檬和绿柠檬，就不需要调颜色。

; 问题二：分类质量差

这是个简单但耗时的问题，需要你浏览一遍数据集确认每个样例的标签贴得对不对。

除此以外，一定要为你的分类选择合适的粒度（granularity）。基于要解决的问题，来增加或减少你的分类。

比如，要识别猫，你可以用全局分类器先确定它是动物，之后再用动物分类器确定它是一只小猫。一个大型的模型能同时做到这两点，但分起类来也更加困难。

问题三：数据集质量差

数据质量差会导致结果的质量差。
当你的数据集中有一些样例离达标很远，比如下面这几张图像。

这些图像会干扰模型的正确分类，需要将这些图像在数据集中剔除。
虽然是个漫长枯燥的过程，但对结果的提升效果很明显。
另一个常见问题是，数据集可能是由与实际应用程序不匹配的数据组成的。如果图像来自完全不同来源，这个问题可能尤为严重。

解决方案：

尝试用相同的工具查找/构建一个数据集。

; 问题四：分类不平衡

如果每个分类的样例数量与其他类别数量差距太大，则模型可能倾向于数量占主导地位的类，因为它会让错误率变低。

解决方案1：

你可以收集更多非代表性的分类。然而这通常需要花费时较多间和金钱，也可能根本不可行。

解决方案2：

对数据进行过采样/降采样处理。这意味着你可能需要从那些比例过多的分类中移除一些样例，也可以在比例较少的类别中进行上面提到过的样例扩充处理。先扩充样例不足的分类（猫咪）这将使类别的分布更平滑

问题五：数据不平衡

如果数据没有专门的格式，或者它的值没有在特定的范围，模型处理起来可能很困难。如果图像有特定的纵横比或像素值，得到的结果会更好。

解决方案1：

裁剪或拉伸数据，使其与其他样例的格式相同，如下图所示。

解决方案2：

将数据规范化，使每个样例在相同的值范围内。

; 问题六：没有验证或测试

数据集被清理、扩充并打上标签后，就需要把它们分组了。

许多数据研究人员会将这些数据分成两组：80%用于训练，20%用于测试，这将会使发现过拟合变容易。

然而，如果在同一个测试集上尝试多个模型，情况则有所不同。选择测试精度的最佳模型，实际上是对测试集进行过拟合处理。

解决方案:

将数据集分为训练、验证和测试三组，这可以保护测试集，防止它因为所选的模型而过拟合。那这个过程就变成了:

在训练集上训练模型

在验证集上测试它们，确保它们没有过拟合

选择最佳模型，并用测试集测试，看看你的模型准确性有多高。

注：用整个数据集去训练模型，数据越多，效果越好。

Original: https://blog.csdn.net/jinchenpeng/article/details/116303017
Author: 云游四海 Jin
Title: 深度学习关于数据集的六大问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/521292/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于遗传算法求解TSP问题（旅游路径规划，Python实现，超详细，可视化，结果分析）

ps：作者是很用心写的，如果觉得不错，请给作者一点鼓励噢！（点赞收藏评论噢）基于遗传算法求解TSP问题摘要巡回旅行商问题（TSP）是组合优化中的经典问题。常见的TSP问题求解…

人工智能 2023年7月28日
0091
【论文精读】时序逻辑推理之基于梯度的参数优化 TeLEx: Passive STL Learning Using Only Positive Examples

前言:之前精读了两篇参数学习的文章, 算法的运行效果不尽人意, 并且最终也没有得出最佳参数. 这篇文章提出用优化算法来直接计算出, 因此特地读来看看. 主要参考文献:Jha, S….

人工智能 2023年7月17日
0065
基于Python实现图像分割算法

资源下载地址：https://download.csdn.net/download/sheziqiong/86763995资源下载地址：https://download.csdn….

人工智能 2023年5月26日
0053
基于yolov5-6.0版本的PCB板缺陷检测（Python/C++部署）

ubuntu 18.04 python 3.6.9 opencv 4.5.0 pytorch 1.9.0 torchvision 0.10.0 （1）解压数据集，放在yolov5-…

人工智能 2023年7月23日
0064
机器学习理论及案例分析(part3)–聚类

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0065
基于BP神经网络的多因素房屋价格预测matlab仿真

目录一、理论基础二、案例背景 1.问题描述 2.思路流程三、部分MATLAB仿真四、仿真结论分析五、参考文献一、理论基础神经网络主要由处理单元、网络拓扑结构、训练规则…

人工智能 2023年7月13日
0055
动物识别论文整理——一种基于生物特征的鱼类分类模型

论文简介论文中文翻译:《一种基于生物特征的鱼类分类模型》论文名称:《A biometric-based model for fish species classification…

人工智能 2023年7月3日
0053
《Python数据分析与应用》第4章Pandas统计分析（1）实训部分

《Python数据分析与应用》第4章Pandas统计分析（1）实训部分（源于大学课程python数据分析) 实训1 读取并查看P2P网络贷款数据主表的基本信息 2.利用ndim属…

人工智能 2023年7月15日
00121
BEVDet:High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 论文笔记

原文链接：https://arxiv.org/pdf/2112.11790.pdf 1 引言如下图所示，本文提出的BEVDet包含4个部分，即图像编码器（提取图像特征）、视图转换…

人工智能 2023年7月10日
0036
【机器学习】python实现吴恩达机器学习作业合集（含数据集）

学习感言：从3.7第一天开始，到今天4.4，一个多月的时间，陆续完成了听课，代码实现和总结博客，过程些许艰难，作为一个刚入门的学习者，收获了很多。总结一下这一段时间的学习过程吧。…

人工智能 2023年7月29日
0065
深度学习(四)：自己训练yolov5模型进行目标检测

自己训练yolov5模型进行目标检测流程 * 工程开始 – 问题总结流程跟yolo系列一样，检测训练过程包括了4步：搜集数据集数据集的标注，分类以及清洗进行训练…

人工智能 2023年7月12日
0069
封装一个丝滑的聊天框组件

需求背景应公司业务要求，需要做个聊天机器人，要适应不同的业务场景，大概就跟淘宝客服类似，发送消息，机器人自动回复。话不多说，直接开撸技术栈： react（hooks写法） +…

人工智能 2023年7月29日
0068
pytorch安装详细步骤

文章目录（一）win—配置tensorflow-GPU （二）安装 pytorch * 2.1 创建虚拟环境 2.2正式安装pytorch 2.3 验证是否安装成功（三）本文参…

人工智能 2023年7月21日
0076
机器学习简述

目录 1. 多项式回归 2. 训练和测试 3. 多元回归多项式回归如果您的数据点显然不适合线性回归（穿过数据点之间的直线），那么多项式回归可能是理想的选择。像线性回归一样，多…

人工智能 2023年6月17日
0080
中文NER的那些事儿1. Bert-Bilstm-CRF基线模型详解&代码实现

这个系列我们来聊聊序列标注中的中文实体识别问题，第一章让我们从当前比较通用的基准模型Bert+Bilstm+CRF说起，看看这个模型已经解决了哪些问题还有哪些问题待解决。以下模型实…

人工智能 2023年6月4日
00128
Traceback (most recent call last):异常报错解决（1.22.）

1,Error occurred when finalizing GeneratorDataset iterator: Failed precondition 内存不足，将bach…

人工智能 2023年5月23日
00136

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31