如果训练误差很低但测试误差很高，是否一定是过拟合的问题

2023年12月30日上午2:08 • 人工智能 • 阅读 42

问题介绍

在机器学习任务中，我们通常会将数据集分为训练集和测试集。训练集用于训练模型，测试集用于评估模型的性能。在训练过程中，我们会观察训练误差和测试误差的变化。经常会出现训练误差很低但测试误差很高的情况，我们称之为”过拟合”。这引发了一个问题：如果训练误差很低但测试误差很高，是否一定是过拟合的问题？

算法原理

在回答这个问题之前，我们先来了解一下过拟合。过拟合指的是模型在训练集上表现很好，但在测试集（或未见过的数据）上表现较差的现象。过拟合通常是由于模型过于复杂，过度拟合了训练集中的噪声和细节，导致在新数据上的泛化能力较差。

对于一个机器学习模型，我们可以用损失函数来衡量其性能。常见的损失函数包括均方误差（Mean Squared Error, MSE）和交叉熵损失（Cross Entropy Loss）等。

在训练过程中，我们通过最小化损失函数来不断调整模型参数，使其能够更好地拟合训练集。当训练误差减少但测试误差增加时，说明模型在训练集上过拟合了。

公式推导

我们以线性回归模型为例来推导训练误差和测试误差的公式。线性回归模型的假设函数为：
$$
h(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + … + \theta_nx_n
$$
其中，$x_1, x_2, …, x_n$是输入特征，$\theta_0, \theta_1, …, \theta_n$是模型参数。

训练误差可以用均方误差（MSE）来表示：
$$
MSE_{train} = \frac{1}{m} \sum_{i=1}^{m}(h(x^{(i)}) – y^{(i)})^2
$$
其中，$m$是训练样本数量，$(x^{(i)}, y^{(i)})$是第$i$个样本的输入特征和真实值。

测试误差可以用均方误差（MSE）来表示：
$$
MSE_{test} = \frac{1}{n} \sum_{i=1}^{n}(h(x_{test}^{(i)}) – y_{test}^{(i)})^2
$$
其中，$n$是测试样本数量，$(x_{test}^{(i)}, y_{test}^{(i)})$是第$i$个测试样本的输入特征和真实值。

计算步骤

导入数据集，将数据集划分为训练集和测试集。
定义线性回归模型，初始化模型参数。
定义损失函数（均方误差）。
定义优化算法，如梯度下降法，通过迭代计算模型参数。
在每次迭代后，计算训练误差和测试误差，并记录它们的变化。
绘制训练误差和测试误差随迭代次数的变化曲线。

Python代码示例

下面是一个使用Python实现线性回归模型的示例代码，演示了如何计算训练误差和测试误差，并绘制它们的变化曲线。

import numpy as np
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(0)
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = 2*X + 1 + np.random.normal(0, 1, (100, 1))

# 划分训练集和测试集
X_train, y_train = X[:80], y[:80]
X_test, y_test = X[80:], y[80:]

# 定义线性回归模型类
class LinearRegression:
 def __init__(self):
 self.theta = None

 def fit(self, X, y):
 X = np.insert(X, 0, 1, axis=1) # 插入常数项1
 self.theta = np.linalg.inv(X.T @ X) @ X.T @ y

 def predict(self, X):
 X = np.insert(X, 0, 1, axis=1) # 插入常数项1
 return X @ self.theta

# 定义均方误差损失函数
def mean_squared_error(y_true, y_pred):
 return np.mean((y_true - y_pred)**2)

# 初始化线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 在训练集和测试集上计算预测值
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# 计算训练误差和测试误差
train_error = mean_squared_error(y_train, y_train_pred)
test_error = mean_squared_error(y_test, y_test_pred)

# 绘制训练误差和测试误差的变化曲线
plt.plot(range(1, len(X_train) + 1), y_train - y_train_pred, 'ro', label='Training error')
plt.plot(range(len(X_train) + 1, len(X_train) + len(X_test) + 1), y_test - y_test_pred, 'bo', label='Testing error')
plt.xlabel('Data points')
plt.ylabel('Error')
plt.legend()
plt.show()

print("训练误差：", train_error)
print("测试误差：", test_error)

代码解释：
1. 首先，我们生成了一个虚拟数据集(X, y)作为示例数据。
2. 然后，将数据集划分为训练集(X_train, y_train)和测试集(X_test, y_test)。
3. 然后，定义了一个LinearRegression类来实现线性回归模型。在fit方法中，我们使用了最小二乘法来计算模型参数。在predict方法中，我们使用学习到的参数来进行预测。
4. 接下来，定义了一个mean_squared_error函数来计算均方误差损失。
5. 初始化线性回归模型，并使用训练集来训练模型。
6. 在训练集和测试集上进行预测，并计算训练误差和测试误差。
7. 最后，绘制了训练误差和测试误差随数据点变化的曲线，并打印出训练误差和测试误差的值。

结论

如果训练误差很低但测试误差很高，我们通常认为模型出现了过拟合的问题。过拟合可能是由于模型过于复杂，拟合了训练集中的噪声和细节。为了解决过拟合问题，我们可以尝试一些方法，如增加训练样本数量、降低模型复杂度、使用正则化等。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821661/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用virtuoso数据库加速读取知识图谱文件

virtuoso数据库是较为常用的知识图谱查询服务器，可以读取KG文件（如.ttl）并在本机实现SPARQL查询服务 virtuoso在安装后，加载流程是：但是，在第二步，使用r…

人工智能 2023年6月1日
0085
python opencv cv2.putText()显示中文问题

本文章的所有代码和相关文章，仅用于经验技术交流分享，禁止将相关技术应用到不正当途径，滥用技术产生的风险与本人无关。本文章是自己学习的一些记录。开始在做项目想将自己的想法输出显…

人工智能 2023年5月26日
00124
常用的图像增强方法

大规模数据集是成功应用深度神经网络的前提。例如，我们可以对图像进行不同方式的裁剪，使感兴趣的物体出现在不同位置，从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来…

人工智能 2023年5月23日
00103
Android OpenCV基础（一、OpenCV入门）

一、OpenCV概述 OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉库，它提供了很多函数，这些函数非常高效地实现了计算…

人工智能 2023年6月18日
0092
感知损失（perceptual loss）详解

本文来自收费专栏：感知损失（perceptual loss）详解_南淮北安的博客-CSDN博客_感知损失目录一.感知损失二、Loss_feature 三、Loss_style…

人工智能 2023年5月26日
00108
深度学习入门（九）——深度学习框架概览

深度学习框架概览 Caffe Theano TensorFlow Torch Pytorch MXNet cuda-convnet2 Neon Deeplearning4j CNT…

人工智能 2023年6月17日
0075
Pandas数据整理

1.Pandas中有两个主要的数据结构：Series和DataFrame。 Serise：一维的数据结构。Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组…

人工智能 2023年7月6日
0082
Day32——122.买卖股票的最佳时机II 55. 跳跃游戏 45.跳跃游戏II +第二天复习

赶上进度，冲冲冲一、买卖股票的最佳时机II 二、跳跃游戏解题思路：三、跳跃游戏|| 生命能与世俗相契合，才能不朽，生命的整体是象征的，因为他是有意义的. ——《日瓦戈医生》 …

人工智能 2023年6月30日
0082
遗传算法系列 | 多种群遗传算法(matlab)

多种群遗传算法 MPGA 本文是作者遗传算法系列之篇四，前面已经系统地讲解了遗传算法基本原理以及简单应用系列一 —— 标准遗传算法原理及程序实现系列二 —— 遗传算法应用于TSP…

人工智能 2023年6月15日
00110
Tensorflow和Keras版本对照及环境安装

在安装tensorflow环境的时候，一定要先弄清楚对应的版本对应的情况，不要上来就 pip install tensorflow， pip install keras。最后发现全…

人工智能 2023年6月16日
00113
pygame外星人入侵

✅作者简介：大家好我是hacker707,大家可以叫我hacker，新星计划第三季python赛道Top1🥇🥇🥇📃个人主页：hacker707的csdn博客🔥系列专栏：python…

人工智能 2023年7月6日
0055
WangDeLiangReview2018 – (5.4)说话人分离

【WangDeLiangOverview2018】 Supervised Speech Separation Based on Deep Learning: An Overview…

人工智能 2023年5月27日
0072
西安电子科技大学微电子学院生产实习报告

一、工艺原理硅（Si)晶圆与含有氧化物质的气体，例如水汽和氧气在高温下进行化学反应，而在硅片表面产生一层致密的二氧化硅(SiO2)薄膜。氧化工艺是将硅片置于通有氧气气氛的高温环…

人工智能 2023年6月6日
0064
财务分析不再是难题，Smartbi教你财务数据人都该学习的分析方法

财务报表天天做，可是财务分析并不是所有会计都能做的。在制作财务分析前，我们首先要做的就是站在领导的角度去思考，他们想看到什么样的财务汇报！是一堆密密麻麻的财务数据吗？他们需…

人工智能 2023年7月17日
0072
机器学习初学者不可错过的ModelScope开源模型社区

文章目录 ModelScope开源模型社区 * 快速入门及环境安装模型库下载数据集达摩卡通化模型 * 模型介绍下载模型文件快速入手达摩人像抠图 * 在线抠图本地抠图 …

人工智能 2023年6月24日
0087
【深度学习】肺结节分割项目实战二：分割肺实质

在后续训练模型的时候如果直接使用原始的肺部CT图像，其中的非肺区域会对训练造成干扰，因此我们需要提取分割肺实质。这一部分参考了kaggle上的教程。从这张CT图像中可以看出扫描器…

人工智能 2023年5月31日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31