（六）多项式回归

2023年6月23日下午8:52 • 人工智能 • 阅读 83

文章目录

前言
1. 一个例子
2. 多项式回归模型
3. 代码实现

前言

这篇文章介绍多项式回归。

一个例子

线性回归可以很好地拟合线性分布的数据，但是对于非线性的数据却派不上用场，例如下面的数据：

这是一个简单的例子，它只有一个特征，输出变量 y y y 仅仅是关于这一个特征 x x x 的函数，但是线性回归却无法拟合它。之前学习了一种 局部加权线性回归算法，它自然可以很好地拟合这样的数据分布，但是那种算法要求对每一种预测都要重新训练参数，它的拟合效果的确非常好，但是有一个很大的缺点就是时间代价太大。

观察这样的数据分布，发现线性函数无法拟合它，那么非线性函数呢？例如二次函数能否拟合它？如果二次函数拟合效果不好，那么三次函数能不能较好地拟合它？二次函数是一种对称的函数，上述图形并不对称，因此二次函数的拟合效果也未必好，不过可以从数据分布中看出，二次函数的拟合应该是要比一次函数（线性函数）好的。次数上升后，拟合效果会好一些，那么三次函数呢？熟悉三次函数的人可能会看出，只要三次函数的四个系数选取恰当，那么这个三次函数就比较接近数据分布。根据泰勒公式我们可以知道，如果一个函数 n n n 阶连续可导，那么我们可以用 n n n 阶多项式来逼近这个函数。这也给了我们启发，使用多项式来拟合非线性的数据分布！

; 2. 多项式回归模型

如果想对输出变量 y y y 和特征向量 x = ( x 0 , x 1 , ⋯ , x n ) = ( 1 , x 1 , ⋯ , x n ) x=(x_0,x_1,\cdots,x_n)=(1,x_1,\cdots,x_n)x =(x 0 ,x 1 ,⋯,x n )=(1 ,x 1 ,⋯,x n ) 作回归，根据上面的启发，我们想用一个多项式函数来预测 y y y ，假设我们使用 2 阶多项式来预测 y y y ，也就是说我们想寻找参数 θ \theta θ 使：
y = θ 0 + ∑ i = 1 n θ i x i + ∑ i ⩽ j θ i j x i x j y=\theta 0+\sum{i=1}^n{\theta ix_i}+\sum{i\leqslant j}{\theta {ij}x_ix_j}y =θ0 +i =1 ∑n θi x i +i ⩽j ∑θi j x i x j
我们只有特征 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots ,x_n x 1 ,x 2 ,⋯,x n ，要想获得特征的平方呢，怎么做呢？很简单！只需要把训练集中每个特征取 2 2 2 次方就可以了。获得 x i x j x_ix_j x i x j 的方法也就是将 x i x_i x i 列和 x j x_j x j 列相乘。也就是说，我们有 m m m 个训练样本，矩阵 X X X 为：
X = ( 1 x 1 ( 1 ) ⋯ x n ( 1 ) 1 x 1 ( 2 ) ⋯ x n ( 2 ) ⋮ ⋮ ⋱ ⋮ 1 x 1 ( m ) ⋯ x n ( m ) ) X=\left( \begin{matrix} 1& x{1}^{\left( 1 \right)}& \cdots& x_{n}^{\left( 1 \right)}\ 1& x_{1}^{\left( 2 \right)}& \cdots& x_{n}^{\left( 2 \right)}\ \vdots& \vdots& \ddots& \vdots\ 1& x_{1}^{\left( m \right)}& \cdots& x_{n}^{\left( m \right)}\ \end{matrix} \right)X =⎝⎜⎜⎜⎜⎛1 1 ⋮1 x 1 (1 )x 1 (2 )⋮x 1 (m )⋯⋯⋱⋯x n (1 )x n (2 )⋮x n (m )⎠⎟⎟⎟⎟⎞
我们只需要把矩阵 X X X 的除了第 1 1 1 列之外的所有列取平方后和所有列两两相乘后形成的新列加入到这个矩阵中即可，这样就会形成一个新的矩阵 X n e w X_{new}X n e w ，然后用这个矩阵当作原来的矩阵，使用普通的线性回归训练参数就可以了，使用正规方程解法就是：
θ = ( X n e w T X n e w ) − 1 X n e w T y \theta =\left( X_{new}^{T}X_{new} \right) ^{-1}X_{new}^{T}y θ=(X n e w T X n e w )−1 X n e w T y
同样也可以使用梯度下降等解法，和普通的线性回归一模一样。这就是多项式回归。

上面介绍了二阶多项式回归的方法，更高阶的多项式回归同理。如果数据使用比较低阶的多项式就可以较好的拟合，那么多项式回归便是一个较好的方法，但是如果低阶多项式不能很好地拟合数据，需要次数较高的多项式来拟合，那么这时会导致新构造的矩阵特征维度太大，这将不利于训练。

代码实现

代码中分别使用了一次函数（普通的线性回归）、二次函数和三次函数来拟合上述实例：

import numpy as np
import matplotlib.pyplot as plt

def CreateData():
    X = np.arange(0,10,0.3)
    y = np.empty(X.shape[0])
    for i in range(X.shape[0]):
        y[i] = 1.1*X[i]**3 - 10*X[i]**2 + X[i] + np.random.uniform(-10,10)
    return X[:,np.newaxis], y

X, y = CreateData()
X = np.insert(X, 0, 1, axis = 1)

plt.scatter(X[:,1], y, marker = 'x')

theta = np.dot(np.linalg.inv(np.dot(X.T, X)), np.dot(X.T, y))

t = np.linspace(-1, 11, 100)
plt.plot(t, theta[0] + theta[1] * t, c = 'blue')

col_new = X[:,1]**2
X = np.hstack([X, col_new[:,np.newaxis]])
theta = np.dot(np.linalg.inv(np.dot(X.T, X)), np.dot(X.T, y))

t = np.linspace(-1, 11, 100)
plt.plot(t, theta[0] + theta[1] * t + theta[2] * t**2, c = 'yellow')

col_new = X[:,1]**3
X = np.hstack([X, col_new[:,np.newaxis]])
theta = np.dot(np.linalg.inv(np.dot(X.T, X)), np.dot(X.T, y))

t = np.linspace(-1, 11, 100)
plt.plot(t, theta[0] + theta[1] * t + theta[2] * t**2 + theta[3] * t**3, c = 'red')

plt.legend([r"$y=\theta_0+\theta_1x$",
            r"$y=\theta_0+\theta_1x+\theta_2x^2$",
            r"$y=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$"])
plt.show()

拟合结果如下：

显然，可以看出，一次函数根本没用，二次函数拟合较一次函数来说效果好些，但是也可以明显感到欠拟合，三次函数的拟合效果明显较好。这里没有使用更高阶多项式拟合，由于高阶多项式的逼近能力会变高，因此对于高阶多项式，就要考虑到过拟合的问题，选择合适的阶数在使用该算法时很重要。

Original: https://blog.csdn.net/qq_54434938/article/details/124648537
Author: AI研究者
Title: （六）多项式回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/647886/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python3-pandas 数据结构 Series、DataFrame 基础

Pandas 应用Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据），这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型…

人工智能 2023年7月8日
0076
面向知识图谱的信息抽取

面向知识图谱的信息抽取人工智能技术与咨询点击蓝字 · 关注我们来源：《数据挖掘,》，作者赵海霞等关键词: 知识图谱；信息抽取；实体抽取；关系抽取；开放域摘要：摘要:…

人工智能 2023年6月1日
0073
智能传感器芯片行业下游市场应用前景分析预测及市场需求结构分析

智能传感器芯片行业下游市场应用前景分析预测及市场需求结构分析（1）智能传感器芯片领域发展现状：智能传感器芯片的主要用途是探测周边环境事件或者物理量的变化，并将变化信息采集、变换…

人工智能 2023年6月11日
0059
UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL

简介 Text2SQL（也称为NL2SQL）是一项将用户的自然语句转为可执行 SQL 语句的技术，对改善用户与数据库之间的交互方式有很大意义。Text2SQL的本质，是将用户的自然…

人工智能 2023年5月28日
0094
ubuntu20.10报错问题

ubuntu20.10报错问题container error: cgroup subsystem devices not found https://blog.csdn.net/R…

人工智能 2023年5月25日
0050
从0开始学视觉（5）——利用yolov5训练自己的目标检测模型

目录 1.下载源码 2. 环境的配置和依赖库的安装 3. 数据集和预训练权重的准备 4.训练自己的模型 5. 启用tensorbord查看参数 6.测试集 1.下载源码首先打开y…

人工智能 2023年7月10日
00115
Pandas学习笔记

Pandas学习笔记导入库 import pandas as pd 读取文件数据 df = pd.read_csv("data/dogName.csv") S…

人工智能 2023年7月8日
0080
深度学习之文本分类总结

一、文本分类概况文本分类是NLP中的最基础的一个任务，很多场景中都涉及到，比如对话机器人、搜索推荐、情绪识别、内容理解，企业风控，质量检测等方向。在对话机器人中，一般的文本分类任…

人工智能 2023年6月16日
0091
【OpenCV-Python】：图像的傅里叶变换与逆傅里叶变换

✨博客主页：米开朗琪罗~🎈✨博主爱好：羽毛球🏸✨年轻人要：Living for the moment（活在当下）！💪🏆推荐专栏：【图像处理】【千锤百炼Python】【深度学习】【排…

人工智能 2023年6月18日
0086
超详细！手把手带你轻松用 MMSegmentation 跑语义分割数据集

在带你轻松掌握 MMSegmentation 整体构建流程一文中，我们带大家认识了 MMSegmentation 的整体框架，分享了 MMSegmentation 中已经复现的主流…

人工智能 2023年6月23日
0073
报错与解决 | AttributeError: ‘Series‘ object has no attribute ‘set_value‘

文章目录代码简要介绍报错修改方法太不容易了！不断debug，终于调通了！分享一下解决这个问题的办法。代码简要介绍 创建Seri…

人工智能 2023年7月4日
0071
谈一谈AI对人工的取代

文章目录 * – AI绘画现在达到了什么水平？易用性怎么样？ – 缘起：2015年用文字画画 – 2021年 Dalle 与开源社区的程序员…

人工智能 2023年6月24日
00103
在特征转换中，可以使用Logistic算法进行特征的离散化或二值化处理

问题：如何使用Logistic算法进行特征的离散化或二值化处理？介绍：在特征转换过程中，离散化和二值化是常用的处理方法之一。离散化是将连续变量转换为离散的变量，而二值化则是将变…

人工智能 2023年12月31日
0052
数字化转型六图法：算法地图

通过数据分析提高销售水平和服务质量，越来越受到企业重视。算法在数据分析中占据重要地位。决策树、逻辑回归与线性回归、交叉验证的运用可以帮助企业在精准营销、用户画像、监测预警等方面提高…

人工智能 2023年7月17日
0057
R语言单因素方差分析（One-Way ANOVA）实战：探索性数据分析（EDA）、单因素方差分析模型结果解读（检查模型假设）、分析不同分组的差异TukeyHSD、单因素方差分析的结果总结

R语言单因素方差分析（One-Way ANOVA）实战：探索性数据分析（EDA）、单因素方差分析模型结果解读（检查模型假设）、分析不同分组的差异TukeyHSD、单因素方差分析的结…

人工智能 2023年6月19日
00431
MobileNetv3网络详解、使用pytorch搭建模型并基于迁移学习训练

1.MobileNetv3网络详解提出了 MobileNetv3-Large和 MobileNetv3-Small两种不同大小的网络结构，主要的区别是通道数的变化与bneck的…

人工智能 2023年7月12日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

（六）多项式回归

文章目录

大家都在看