是否可以通过增加模型复杂性来避免欠拟合

2023年12月30日上午1:41 • 人工智能 • 阅读 29

问题背景

在机器学习中，欠拟合是指模型无法表达数据的复杂性，导致模型在训练集和测试集上均表现不佳的现象。欠拟合通常是由于模型过于简单，无法捕捉到数据的非线性关系或者细微的模式。而增加模型的复杂性，例如增加模型的参数、引入更高阶的特征等，可以有效地缓解欠拟合问题。

本文将介绍如何通过增加模型复杂性来避免欠拟合问题。我们将以多项式回归模型为例进行说明。

算法原理

多项式回归是一种将自变量的高次幂引入线性回归模型的方法。通过引入更高阶的特征，多项式回归可以更好地拟合非线性关系。多项式回归的数学表达式如下：

$$
y = \theta_0 + \theta_1x + \theta_2x^2 + \theta_3x^3 + … + \theta_dx^d
$$

其中，$y$是因变量，$x$是自变量，$\theta_0, \theta_1, …, \theta_d$是模型的参数，$d$是多项式的最高次数。

公式推导

假设我们有$m$个训练样本，表示为$(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), …, (x^{(m)}, y^{(m)})$。我们的目标是找到一组最优的参数$\theta_0, \theta_1, …, \theta_d$，使得模型的预测值和真实值之间的误差最小化。我们可以使用最小二乘法来求解这个问题。

最小二乘法的目标是最小化损失函数$J(\theta)$，定义为预测值与真实值之间的平方误差的均值。对于多项式回归，损失函数的表达式如下：

$$
J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) – y^{(i)})^2
$$

其中，$h_{\theta}(x^{(i)})$是模型对第$i$个样本的预测值，定义为：

$$
h_{\theta}(x^{(i)}) = \theta_0 + \theta_1x^{(i)} + \theta_2(x^{(i)})^2 + \theta_3(x^{(i)})^3 + … + \theta_d(x^{(i)})^d
$$

为了最小化损失函数$J(\theta)$，我们需要对参数$\theta_0, \theta_1, …, \theta_d$进行求解，使得偏导数$\frac{\partial J(\theta)}{\partial \theta_k}$（$k=0,1,…,d$）等于0。

计算步骤

初始化模型参数$\theta_0, \theta_1, …, \theta_d$为0或者随机值。
使用梯度下降法，迭代更新参数$\theta_0, \theta_1, …, \theta_d$，使得损失函数$J(\theta)$最小化。
重复步骤2直到达到迭代次数或者收敛。

Python代码示例

下面是一个使用多项式回归来拟合数据的Python代码示例。我们首先生成一个带有噪声的虚拟数据集，然后使用多项式回归来拟合这个数据集。

import numpy as np
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(0)
X = np.linspace(-2, 2, 100).reshape(-1, 1)
y = 4 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X**3 - 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X**2 + 2 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X + np.random.normal(0, 1, size=X.shape)

# 多项式回归
d = 3 # 多项式的最高次数

# 添加高阶特征
def add_higher_order_features(X, d):
 X_higher = np.ones_like(X)
 for i in range(1, d+1):
 X_higher = np.concatenate((X_higher, X**i), axis=1)
 return X_higher

X_higher = add_higher_order_features(X, d)

# 初始化参数
theta = np.zeros((d + 1, 1))

# 定义损失函数
def loss_function(X, y, theta):
 m = X.shape[0]
 h_theta = np.dot(X, theta)
 loss = np.mean((h_theta - y)**2) / 2
 return loss

# 定义梯度下降函数
def gradient_descent(X, y, theta, learning_rate, num_iterations):
 m = X.shape[0]
 losses = []
 for i in range(num_iterations):
 h_theta = np.dot(X, theta)
 error = h_theta - y
 gradient = np.dot(X.T, error) / m
 theta -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls gradient
 loss = loss_function(X, y, theta)
 losses.append(loss)
 return theta, losses

# 执行梯度下降算法
learning_rate = 0.01
num_iterations = 1000

theta_final, losses = gradient_descent(X_higher, y, theta, learning_rate, num_iterations)

# 绘制拟合曲线和原始数据点
X_plot = np.linspace(-2, 2, 100).reshape(-1, 1)
X_plot_higher = add_higher_order_features(X_plot, d)
y_plot = np.dot(X_plot_higher, theta_final)

plt.scatter(X, y, color='blue', label='Original Data')
plt.plot(X_plot, y_plot, color='red', label='Fitted Curve')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

代码细节解释

我们使用numpy库生成虚拟数据集，并添加高阶特征X_higher。
初始化参数theta为0。
定义损失函数loss_function，计算预测值与真实值之间的平方误差的均值。
定义梯度下降函数gradient_descent，使用梯度下降法更新参数theta，并记录每次迭代的损失值。
执行梯度下降算法，得到最优参数theta_final和损失值列表losses。
绘制拟合曲线和原始数据点。

通过增加模型复杂性，我们可以看到最终拟合曲线能够更好地拟合原始数据，从而避免了欠拟合的问题。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821653/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【论文阅读】MPViT : Multi-Path Vision Transformer for Dense Prediction

发表年份：2021.12发表单位：Electronics and Telecommunications Research Institute (ETRI), South Korea…

人工智能 2023年7月12日
0057
数字图像处理自学笔记 (武汉大学贾永红)

学习目标：数字图像处理(仅以自己现有知识和能力进行了一点点总结,图片都是网课截图) 学习内容： mooc课程数字图像处理武汉大学贾永红(第六次开课) 第一章——绪论数字图…

人工智能 2023年6月18日
0065
论文阅读：弱基础小白跑通PCN源码过程随记

论文名： PCN: Point Completion Network源码： _ https://github.com/wentaoyuan/pcn_一些杂乱的记录：1.一定要记得c…

人工智能 2023年5月25日
00110
三元音音频分析以及三基色熵的计算

什么是元音？百度百科中所解释的”元音” 元音（Vowel），又称母音，是音素的一种，与辅音相对，是在发音过程中由气流通过口腔而不受阻碍发出的音。元音发音…

人工智能 2023年5月27日
0091
统计学习导论（ISLR）（四）：分类算法

统计学习导论(ISLR) 🌸个人主页：JoJo的数据分析历险记 📝个人介绍：小编大四统计在读，目前保研到统计学top3高校继续攻读统计研究生 💌如果文章对你有帮助，欢迎 *关注、…

人工智能 2023年7月2日
00103
一、语音合成与自回归模型

Continuous Wavelet Transform（CWT）：为了更好的预测音高曲线的变化，作者引入CWT进行Pitch Spectrogram的提取，由于直接在一维音高曲…

人工智能 2023年6月17日
0061
超分算法ESRT：Transformer for Single Image Super-Resolution

这篇文章网络结构ESRT（ Efficient Super-Resolution Transformer）还是蛮复杂的，是一个CNN和Transformer结合的结构。文章提出了一…

人工智能 2023年6月17日
00122
论文笔记-Exploring Plain Vision Transformer Backbones for Object Detection

论文链接：https://arxiv.org/pdf/2203.16527.pdf 目录摘要引言方法简单特征金字塔 Backbone 调整实验 1、一个简单的特征金字塔就…

人工智能 2023年7月9日
0077
tensorflow 1.X迁移至tensorflow2 代码写法

把tensorflow 1.X中的代码，迁移到tensorflow2中。一些常见的改写经验。包括sess，tf.placeholder， tf.InteractiveSession…

人工智能 2023年5月24日
0085
【h5文件读取】h5文件读取——深度学习数据集常用

数据集的常用格式：h5 深度学习搞了很长时间，其中开源的代码中经常用到大型数据集，里面的数据类型是h5格式，这个格式困扰我挺长时间，因为隔离还拿不到实验室的程序，只好硬着头皮再琢磨…

人工智能 2023年6月23日
0067
0716蔚来计算机视觉岗笔试选择题

简介蔚来的笔试时长一共90分钟，分为两部分，第一部分为15道选择题，第二部分为三道编程题。选择题 1. BERT模型 BERT是一个无监督的模型 2. Reset网络 Res…

人工智能 2023年5月26日
00138
Bert模型做多标签文本分类

参考链接我们现在来说，怎么把Bert应用到多标签文本分类的问题上。注意，本文的重点是Bert的应用，对多标签文本分类的介绍并不全面对应单标签文本分类来说，例如二元的文本分类，我…

人工智能 2023年7月22日
0063
DBSCAN聚类算法详解

欢迎关注”生信修炼手册”! DBSCAN全称如下 Density-Based Spatial Clustering of Applications with…

人工智能 2023年6月1日
0062
双系统ubuntu18+melodic+zed双目相机运行orbslam2

最近为实现ORB-SLAM2算法，在电脑上安装了双系统ubuntu18+zed相机的驱动，在此作好记录：记录一下安装双系统中内存的分配，我的移动硬盘256G: 分区内存的大小swa…

人工智能 2023年6月10日
00108
Autoformer pytorch代码解读（1）进入attention的计算之前的步骤 transformer学习笔记

目录 1.最一开始的输入和encoder之前的处理 2.得到seasonal和trend 3.拼接得到seasonal和trend 4.对原始的向量进行编码得到输出 5.接下来进入…

人工智能 2023年6月16日
0077
目标检测常用库MMCV安装中遇到的问题总结

我看很多教程说mmcv是只支持linux，支持windows版本较少，所以很难和torch、cuda匹配上，所以报错较多难安装。今天试了一下，遇到的和想到的报错问题基本如下：一、…

人工智能 2023年6月4日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31