什么是过拟合

2023年12月31日上午11:26 • 人工智能 • 阅读 44

什么是过拟合？

过拟合（Overfitting）是指机器学习模型在训练数据上的表现非常好，但在新的、未见过的数据上表现较差的现象。简单来说，过拟合就是模型在训练集上“死记硬背”了所有样本的特征，失去了泛化能力。过拟合通常是由于模型过于复杂、训练数据过少或者数据非常嘈杂而引起的。

过拟合问题是实际应用中常见的问题，因为目标是找到一个能够对未见过的数据进行准确预测的模型，而非仅仅在训练数据上表现好。

算法原理

过拟合的原因在于模型的复杂度过高导致其对训练数据中的噪声或者异常样本过于敏感。为了解决过拟合问题，常用的方法是控制模型的复杂度。

在机器学习中，我们经常使用原始的数据（样本集）进行训练，并通过一个函数来表示模型，即模型通过函数对输入进行映射到输出。对于监督学习任务，我们可以使用损失函数来度量模型预测结果与实际结果之间的差距。在训练过程中，我们的目标是找到最佳的模型参数，使得损失函数的值最小化。

对于一个过拟合的模型，它在训练数据上的损失函数值会非常小，但在未见过的数据上的损失函数值则会较大。这是因为过拟合的模型对训练数据过于敏感，训练数据中的噪声或者异常样本被模型所记住，导致模型在新数据上产生错误的预测。

公式推导

为了更好地理解过拟合的原因，我们可以使用线性回归模型作为例子进行推导。假设我们有一个线性回归模型的假设函数表示为：

$$h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + … + \theta_nx_n$$

其中，$x_1, x_2, …, x_n$ 是训练样本的特征，$\theta_0, \theta_1, …, \theta_n$ 是模型的参数。

我们使用最小二乘法来求解模型的最佳参数。最小二乘法的损失函数为：

$$J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) – y^{(i)})^2$$

其中，$m$ 是训练样本的数量，$x^{(i)}$ 是第 $i$ 个训练样本的特征向量，$y^{(i)}$ 是第 $i$ 个训练样本的目标值。

我们的目标是最小化损失函数 $J(\theta)$。通过梯度下降算法，我们可以逐步更新参数 $\theta$ 来寻找最优解。

计算步骤

以下是使用梯度下降算法来计算线性回归模型的参数的步骤：

初始化参数 $\theta$ 为一个随机值。
计算模型的预测值 $h_\theta(x^{(i)})$。
计算损失函数的梯度 $\frac{\partial J(\theta)}{\partial \theta}$。
使用学习率来更新参数：$\theta := \theta – \alpha \frac{\partial J(\theta)}{\partial \theta}$，其中 $\alpha$ 是学习率。
重复步骤 2-4 直到收敛或达到最大迭代次数。

复杂Python代码示例

下面是一个简单的线性回归模型的过拟合示例，使用了一个虚拟的数据集：

import numpy as np
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(0)
X = np.linspace(-5, 5, 100).reshape(-1, 1)
y = 0.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X**2 + X + np.random.randn(100, 1)

# 添加高次特征
def add_high_order_features(X, degree):
 X_poly = np.concatenate([X**i for i in range(1, degree+1)], axis=1)
 return X_poly

X_poly = add_high_order_features(X, degree=10)

# 拟合模型
theta = np.linalg.inv(X_poly.T @ X_poly) @ X_poly.T @ y

# 绘制数据点
plt.scatter(X, y)

# 绘制拟合曲线
X_test = np.linspace(-5, 5, 100).reshape(-1, 1)
X_test_poly = add_high_order_features(X_test, degree=10)
y_pred = X_test_poly @ theta
plt.plot(X_test, y_pred, color='red')

plt.xlabel('X')
plt.ylabel('y')
plt.title('Polynomial Regression')
plt.show()

代码解释：

首先，我们使用 numpy 库生成了一个虚拟的数据集 X 和 y，其中 X 是输入特征，y 是目标值。
然后，我们定义了一个函数 add_high_order_features 来添加高次特征。在这个示例中，我们将特征 X 添加了 10 次方的高次特征。
接下来，我们使用最小二乘法求解出线性回归模型的参数 theta。
最后，我们使用 matplotlib 库绘制了数据点和拟合曲线。

在这个示例中，我们通过添加高次特征来模拟过拟合的情况。我们可以看到，拟合曲线（红色曲线）过于贴近训练数据，在训练数据之外的区域预测效果较差，说明模型过拟合了训练数据。

注意：这只是一个简单的示例，实际中过拟合问题可能更复杂，需要结合其他方法进行调优，例如正则化、交叉验证等。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821964/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

小样本·信息抽取关系分类复现-3 常用代码集-marker

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月27日
0079
粒子群算法Python代码实现

1.引言粒子群优化算法起源于对鸟群觅食活动的分析。鸟群在觅食的时候通常会毫无征兆的聚拢，分散，以及改变飞行的轨迹，但是在不同个体之间会十分默契的保持距离。所以粒子群优化算法模拟鸟…

人工智能 2023年7月27日
0053
主成分计算权重

一、案例背景案例说明与研究目的研究调查100家公司2010-2013年关于财务方面的具体数据，这些财务指标维度分别为盈利能力、偿债能力、运营能力、发展能力以及公司治理。其中每个…

人工智能 2023年6月18日
0083
【SVM分类】基于matlab改进的人工蜂群算法优化SVM分类【含Matlab源码 1833期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【SVM分类】基于matlab改进的人工蜂群算法优化SVM分类【含Matlab源码 1833期】获取代码方式2：付费专…

人工智能 2023年7月1日
0099
【Python数据分析】pandas常用基础数据分析代码

目录一、获取老番茄数据二、python数据分析 1、读取数据源 2、查看数据概况 3、查看异常值 4.1、查看最大值（max函数） 4.2、查看最小值（min函数） 5.1、查…

人工智能 2023年7月7日
0078
ACL-BioNLP 2020 | 耶鲁大学实践成果：生物医药知识图谱嵌入模型基准测试

今天给大家介绍的是耶鲁大学医学信息学中心主任Brandt教授实验室和爱丁堡大学的博士生联合发表在ACL-BioNLP 2020发表的文章”Benchmark and B…

人工智能 2023年6月1日
0072
大律法OTSU【详细】（python实现）

文章目录一、前言 * 图像的灰度直方图 – 计算直方图 + 1.使用opencv的函数 2. 使用Numpy函数二、 OTSU算法简介三、数学原理四、 py…

人工智能 2023年6月18日
0098
Python中缺失值的填充

0 常用方法在Python中最常用的处理数据格式为DataFrame格式，当数据为其他格式时可以使用pandas包中的.DataFrame方法转化为该格式。此处以原数据…

人工智能 2023年7月15日
0082
注意力机制学习（一）——通道注意力与pytorch案例

文章目录一、通道注意力机制简介二、通道注意力机制pytorch代码 * 1. 单独使用通道注意力机制的小案例 2. 使用通道注意力机制的小案例一、通道注意力机制简介下面的图…

人工智能 2023年7月14日
0062
基于MATLAB的多边形最小外接矩形计算

MATLAB自带有关于计算二值区域最小外接矩形的函数—— regionprops。但是此函数只能计算平行于坐标轴的矩形，而这样求得的外接矩形有时并非真正意义上的’最小&…

人工智能 2023年6月21日
0076
python 梦幻西游_tensorflow实践：梦幻西游人物弹窗识别（二）

由上一篇的思路我们可以定义以下的具体实现步骤本篇将围绕窗口捕获、屏幕截图、截图切分讲述screen.py代码环境描述C:\Users\SF>ver Microsoft W…

人工智能 2023年5月26日
0080
图机器学习（Graph Machine Learning）- 第二章图机器学习简介 Graph Machine Learning

第二章图机器学习简介 Graph Machine Learning 文章目录第二章图机器学习简介 Graph Machine Learning 前言 1. 环境要求Techn…

人工智能 2023年6月16日
0084
关于如何用LSTM算法处理多样本数据（tensorflow）

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月25日
00108
TensorBoard的最全使用教程：看这篇就够了

机器学习通常涉及在训练期间可视化和度量模型的性能。有许多工具可用于此任务。在本文中，我们将重点介绍 TensorFlow 的开源工具套件，称为 TensorBoard，虽然他是Te…

人工智能 2023年5月26日
0077
基于Caffe ResNet-50网络实现图片分类（仅推理）的实验复现

摘要：本实验主要是以基于Caffe ResNet-50网络实现图片分类（仅推理）为例，学习如何在已经具备预训练模型的情况下，将该模型部署到昇腾AI处理器上进行推理。本文分享自华为…

人工智能 2023年6月30日
00108
AI语音交互机器人，揭秘你不知道的隐藏功能

✦能力介绍✦ AI语音交互机器人 AI语音交互机器人基于语音听写、文本转语音、语义理解等AI语音交互技术，通过智能交互的形式代替人工与目标用户进行智能通话。可广泛应用于政…

人工智能 2023年5月25日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31