05机器学习–多项式回归与模型泛化及python实现

2023年6月17日下午12:39 • 人工智能 • 阅读 88

①什么是多项式回归

②scikit-learn中的多项式回归和Pipelin

⑧解决过拟合问题–模型正则化2–LASSO回归

①什么是多项式回归

我们把

看做是这个式子的一个特征，x为另外一个特征，从这个角度来看，这个式子其实还是一个线性回归；但是单从x的角度来说，这是一个非线性方程，这就是多项式回归；相当于我们为我们的样本多增加了特征，但是这个特征就是我们样本原来样本的多项式项，用线性回归的思路更好的拟合原来的数据，但是本质上求出来的是非线性曲线，对数据集升维

import numpy as np
import matplotlib.pyplot as plt

x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

plt.scatter(x, y)
plt.show()

结果输出：

首先用线性回归拟合一下

import numpy as np
import matplotlib.pyplot as plt

x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

plt.scatter(x, y)
plt.show()

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X, y)
y_predict = lin_reg.predict(X)

plt.scatter(x, y)
plt.plot(x, y_predict, color='r')
plt.show()

结果输出：

改进一下，多项式回归（添加一个特征）

import numpy as np
import matplotlib.pyplot as plt

x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

plt.scatter(x, y)
plt.show()

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X, y)
y_predict = lin_reg.predict(X)

plt.scatter(x, y)
plt.plot(x, y_predict, color='r')
plt.show()

X2 = np.hstack([X, X**2])

lin_reg2 = LinearRegression()
lin_reg2.fit(X2, y)
y_predict2 = lin_reg2.predict(X2)

plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)], color='r')
plt.show()

结果输出：

②scikit-learn中的多项式回归和Pipelin

import numpy as np
import matplotlib.pyplot as plt

x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2)  # 为原本的数据集添加最多几次幂的特征
poly.fit(X)
X2 = poly.transform(X)  # 转换为多项式特征，有三列，从0次幂一直到2次幂

from sklearn.linear_model import LinearRegression
lin_reg2 = LinearRegression()
lin_reg2.fit(X2, y)
y_predict2 = lin_reg2.predict(X2)

plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)], color='r')
plt.show()

结果输出：

关于PolynomialFeatures

本身有两个特征，升维到3个特征时

PolynomialFeatures(degree=3)时，最终会生成十列（0次幂、1次幂、2次幂、3次幂）

Pipeline方法：（没有专门的多项式回归类，用这个方法可以简单的创建自己的多项式回归类）

import numpy as np
import matplotlib.pyplot as plt

x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

poly_reg = Pipeline([                        # 按着每一个步骤依次进行
    ("poly", PolynomialFeatures(degree=2)),  # 多项式特征
    ("std_scaler", StandardScaler()),  # 数据归一化
    ("lin_reg", LinearRegression())  # 回归
])

poly_reg.fit(X, y)
y_predict = poly_reg.predict(X)

plt.scatter(x, y)
plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
plt.show()

结果输出：

③过拟合与欠拟合

看一个夸张的例子，给上面的数据增加特征到100个

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error

np.random.seed(666)
x = np.random.uniform(-3.0, 3.0, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, size=100)

使用多项式回归
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

def PolynomialRegression(degree):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lin_reg", LinearRegression())
    ])

poly100_reg = PolynomialRegression(degree=100)
poly100_reg.fit(X, y)

y100_predict = poly100_reg.predict(X)
mean_squared_error(y, y100_predict)

plt.scatter(x, y)
plt.plot(np.sort(x), y100_predict[np.argsort(x)], color='r')
plt.show()

结果输出：（过拟合，个人理解：他在你给定的数据集上拟合很完美，但是预测的效果会差很多）

欠拟合：算法所训练的模型不能完整的表述数据关系

过拟合：算法所训练的模型过多的表达了数据间的噪音关系

泛化能力：根据训练数据得到上面的曲线，但是他在预测新的数据的时候，其实准确率很差，也说他泛化能力很差。

我们真正需要的是模型的泛化能力很好。

训练数据集与测试数据集的目的就是为了解决泛化能力不强的问题

④验证数据集与交叉验证

问题：对测试数据集过拟合了怎么办？我们一直都在针对测试集进行调参

解决方法：

数据集分为训练集、验证集（测试模型效果）、测试集（不参与模型的创建过程、模拟未知数据）

测试数据集衡量模型最终效能，验证集用来调参

问题：过拟合验证集怎么办？

解决方法：

交叉验证，把训练集分成k份，让k份数据分别去做验证集，剩下的就当做训练集，每一种组合都可以得到一个模型，把所有模型的性能平均值作为最终的新能结果，之后在判断是否调参

import numpy as np
from sklearn import datasets
手写识别数据集
digits = datasets.load_digits()
X = digits.data
y = digits.target
划分训练集测试集的方法
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=666)
观察kNN的效果
from sklearn.neighbors import KNeighborsClassifier

best_k, best_p, best_score = 0, 0, 0
for k in range(2, 11):
    for p in range(1, 6):
        knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=k, p=p)
        knn_clf.fit(X_train, y_train)
        score = knn_clf.score(X_test, y_test)
        if score > best_score:
            best_k, best_p, best_score = k, p, score
print("训练集与测试集的效果：")
print("Best K =", best_k)
print("Best P =", best_p)
print("Best Score =", best_score)

交叉验证的方法
from sklearn.model_selection import cross_val_score  # 默认分成五份交叉验证
                                            # 手动限制的话可以添加参数cv比如cv=5分成五份

knn_clf = KNeighborsClassifier()
cross_val_score(knn_clf, X_train, y_train)
观察kNN的效果
best_k, best_p, best_score = 0, 0, 0
for k in range(2, 11):
    for p in range(1, 6):
        knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=k, p=p)
        scores = cross_val_score(knn_clf, X_train, y_train)  # 每一次的分数
        score = np.mean(scores)  # 取均值
        if score > best_score:
            best_k, best_p, best_score = k, p, score
print("交叉验证的效果：")
print("Best K =", best_k)
print("Best P =", best_p)
print("Best Score =", best_score)

结果输出：

两个方法的结果有区别，但是我们更相信交叉验证的结果，交叉验证通常不会过拟合某一组数据，所以平均来讲分数会低一些

⑤回顾网格搜索

网格搜索的本质就是交叉验证调参

import numpy as np
from sklearn import datasets
手写识别数据集
digits = datasets.load_digits()
X = digits.data
y = digits.target
划分训练集测试集的方法
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=666)

from sklearn.neighbors import KNeighborsClassifier

交叉验证的方法
from sklearn.model_selection import cross_val_score

knn_clf = KNeighborsClassifier()
cross_val_score(knn_clf, X_train, y_train)
网格搜索
from sklearn.model_selection import GridSearchCV  # CV就是交叉验证的意思

param_grid = [
    {
        'weights': ['distance'],
        'n_neighbors': [i for i in range(2, 11)],
        'p': [i for i in range(1, 6)]               # 5 * 9 = 45组参数，每组分成5份
    }
]

grid_search = GridSearchCV(knn_clf, param_grid, verbose=1)
grid_search.fit(X_train, y_train)

print(grid_search.best_score_)  # 最佳分数
print(grid_search.best_params_)  # 最佳参数

best_knn_clf = grid_search.best_estimator_  # 最佳参数对应的最佳分类器
print(best_knn_clf.score(X_test, y_test))

结果输出：

交叉验证的缺点是比较慢，但是最终找到的参数比较信赖，极端情况：留一法（LOO-CV），训练数据集有几个样本就分成几份，训练m-1份，留1份进行验证，缺点是计算量巨大（一般不使用）

⑥偏差方差权衡

左下角就是偏差，右上角就是方差，上面一组就是低偏差，下面一组就是高偏差，左边一组就是低方差，右边一组就是高方差

模型误差：偏差+方差+不可避免的误差（不可避免）

高偏差：比如欠拟合

高方差：比如模型太过复杂，kNN天生就是高方差（对数据特别敏感），参数学习一般都是高方差，一般可以减少数据维度，降噪，增加数据规模解决

两者一般是相互矛盾的，需要取一个权衡

⑦解决过拟合问题–模型正则化1–岭回归

思路：限制系数的大小（像上面过拟合的那个例子，会发现拟合的曲线非常弯曲，所以每一个特征的系数都会很大）

解决方法：改变损失函数

优化后，需要考虑让每theta尽可能小，阿尔法表示权重，不同的数据取值不同

岭回归实现

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)
x = np.random.uniform(-3.0, 3.0, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x + 3 + np.random.normal(0, 1, size=100)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

def PolynomialRegression(degree):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lin_reg", LinearRegression())
    ])

from sklearn.model_selection import train_test_split

np.random.seed(666)
X_train, X_test, y_train, y_test = train_test_split(X, y)

from sklearn.metrics import mean_squared_error

poly_reg = PolynomialRegression(degree=20)
poly_reg.fit(X_train, y_train)

y_poly_predict = poly_reg.predict(X_test)
print('均方误差')
print(mean_squared_error(y_test, y_poly_predict))  # 均方误差，显然过拟合了

X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
y_plot = poly_reg.predict(X_plot)

封装绘制函数
def plot_model(model):
    X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
    y_plot = model.predict(X_plot)

    plt.scatter(x, y)
    plt.plot(X_plot[:, 0], y_plot, color='r')
    plt.axis([-3, 3, 0, 6])
    plt.show()

plot_model(poly_reg)

岭回归
from sklearn.linear_model import Ridge

def RidgeRegression(degree, alpha):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("ridge_reg", Ridge(alpha=alpha))  # 比重
    ])

ridge1_reg = RidgeRegression(20, 0.0001)
ridge1_reg.fit(X_train, y_train)

y1_predict = ridge1_reg.predict(X_test)
print('岭回归均方误差')
print(mean_squared_error(y_test, y1_predict))

plot_model(ridge1_reg)

调整alpha
ridge2_reg = RidgeRegression(20, 1)
ridge2_reg.fit(X_train, y_train)

y2_predict = ridge2_reg.predict(X_test)
print('岭回归均方误差')
print(mean_squared_error(y_test, y2_predict))

plot_model(ridge2_reg)
再调整alpha
ridge3_reg = RidgeRegression(20, 100)
ridge3_reg.fit(X_train, y_train)

y3_predict = ridge3_reg.predict(X_test)
print('岭回归均方误差')
print(mean_squared_error(y_test, y3_predict))

plot_model(ridge3_reg)

结果输出：

过拟合情况

岭回归

提高比重

在提高比重

⑧解决过拟合问题–模型正则化2–LASSO回归

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)
x = np.random.uniform(-3.0, 3.0, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x + 3 + np.random.normal(0, 1, size=100)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

def PolynomialRegression(degree):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lin_reg", LinearRegression())
    ])

from sklearn.model_selection import train_test_split

np.random.seed(666)
X_train, X_test, y_train, y_test = train_test_split(X, y)

from sklearn.metrics import mean_squared_error

poly_reg = PolynomialRegression(degree=20)
poly_reg.fit(X_train, y_train)

y_poly_predict = poly_reg.predict(X_test)
print('均方误差')
print(mean_squared_error(y_test, y_poly_predict))  # 均方误差，显然过拟合了

X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
y_plot = poly_reg.predict(X_plot)

封装绘制函数
def plot_model(model):
    X_plot = np.linspace(-3, 3, 100).reshape(100, 1)
    y_plot = model.predict(X_plot)

    plt.scatter(x, y)
    plt.plot(X_plot[:, 0], y_plot, color='r')
    plt.axis([-3, 3, 0, 6])
    plt.show()

plot_model(poly_reg)

LASSO回归
from sklearn.linear_model import Lasso

def LassoRegression(degree, alpha):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("lasso_reg", Lasso(alpha=alpha))
    ])

lasso1_reg = LassoRegression(20, 0.01)
lasso1_reg.fit(X_train, y_train)

y1_predict = lasso1_reg.predict(X_test)
print('LASSO回归均方误差')
print(mean_squared_error(y_test, y1_predict))

plot_model(lasso1_reg)

LASSO回归输出：

了解：LASSO回归趋向于使一部分theta为0（相当于选择了一些特征），可以当做特征选择用，可能错误的忽略掉一些有用的特征，还是岭回归更可靠一些

扩展：

L0正则：希望theta的个数尽量小

弹性网：

Original: https://blog.csdn.net/weixin_44446756/article/details/124244346
Author: 小徐爱吃_山楂锅盔
Title: 05机器学习–多项式回归与模型泛化及python实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630147/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【计算机视觉】03数字图像处理基础：图像增强（灰度/点运算、直方图修正、平滑/滤波、锐化）

目录 1. 图像增强算法概述 1.1 图像增强方法分类 2. 图像灰度变换（点运算） 2.1 灰度变换的作用 2.2 灰度线性变换 2.3 灰度分段线性变换 2.4 对数变换（非线…

人工智能 2023年7月28日
0097
DBSCAN聚类算法的实现

DBSCAN聚类算法的实现 1. 作者介绍 2.关于理论方面的知识介绍 * 2.1 DBSCAN算法介绍 2.2 鸢尾花数据集介绍 3．实验过程 * 3.1 实验代码 3.2 实现…

人工智能 2023年5月31日
0073
互动之音产品简介-基于语音控制与交互的场景化应用探索

目录演示地址产品简介工作方式场景分析弊端与优势场景拓展结束语演示地址语音互动智慧城市，全程语音操作大屏产品演示_哔哩哔哩_bilibili 产品简介该系统的核心…

人工智能 2023年5月25日
0070
红外无人机数据集（voc格式）

最近做红外无人机目标检测，整理了两个数据集，简单介绍一下。已经完成了VOC格式的转换，可以直接使用！！！！！ 1.面目标数据集在CVPR2020 Anti-UAV反无人机挑战赛提…

人工智能 2023年5月26日
10198
OpenCV笔记：cv2.VideoCapture 完成视频的跳帧输出操作

背景我开始关注这个问题，是在使用 PaddleOCR + OpenCV 进行视频文字识别的时候，因为OpenCV 需要循环读取视频的每一帧进行解析，这就导致视频播放特别卡顿。由于…

人工智能 2023年7月27日
0079
在你自学计算机的路上，哪些书籍对你的帮助最大?

适合自学的这些专业计算机书: Python Python编程快速上手让繁琐工作自动化第2版在本书中，你将学习利用Python编程在几分钟内完成手动需要几小时的工作，无须事先具…

人工智能 2023年6月29日
0083
anaconda安装教程-手把手教你安装

文章目录 anaconda安装教程 * 一、anaconda安装包的下载二、anaconda安装过程三、验证anaconda安装是否成功 anaconda安装教程 ; 一、an…

人工智能 2023年7月4日
00103
NLP十大Baseline论文简述(十) – sgm

多标签文本分类是自然语言处理的重要任务，多标签文本分类可以用到文本分类，推荐以及信息检索中。但是目前的多标签文本分类模型存在两个问题：没有注意到标签之间的相关性以及不同文本对于不…

人工智能 2023年5月31日
0079
机器学习中的数学——常用概率分布（五）：高斯分布（Gaussian分布）/正态分布（Normal分布）

分类目录：《机器学习中的数学》总目录相关文章：· 常用概率分布（一）：伯努利分布（Bernoulli分布）· 常用概率分布（二）：范畴分布（Multinoulli分布）· 常用概率…

人工智能 2023年6月16日
0084
EXCEL批量合并多个CSV工作簿

在基于VBA不能合并，powerquery合并失败之后选择的方法（网上有powerquery合并的操作步骤，可自行搜索）注意：本文提供的2种方法出来的数据结果仍需手动处理第一…

人工智能 2023年7月15日
0068
深度学习 Transformer架构解析

文章目录一、Transformer背景介绍 * 1.1 Transformer的诞生 1.2 Transformer的优势 1.3 Transformer的市场二、Transf…

人工智能 2023年7月31日
0054
【目标检测】yolo系列yolo x学习笔记(2021年旷视)

目录一、速度和检测效果二、yoloX的改进点 2.1 Decoupled Head(解耦头) 2.2数据增强：Mosaic + MixUp 2.3 Anchor Free 2….

人工智能 2023年7月12日
0052
深度学习之DCN

这篇文章介绍了一种可针对空间不变性的卷积方法，不同于常规的卷积网络种卷积核和待提取feature map是相同的(假设dilation=1)，可变形卷积(Deformable Co…

人工智能 2023年7月27日
0079
[Pytorch系列-26]：神经网络基础 – 多个带激活函数的神经元实现非线性回归

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月18日
0054
Python 用一行代码完成词频统计与分析，词频分析如此简单

文章目录 * – + 1 前言 + 2 先看效果 + 3 上源码 + * 3.1 庐山真面目（源码） * 3.2 MsgLoad类介绍（非源码） * 3.3 Words…

人工智能 2023年7月15日
0065
Pyspark特征工程–Word2Vec

Word2Vec class pyspark.ml.feature.Word2Vec(vectorSize=100, minCount=5, numPartitions=1, st…

人工智能 2023年5月28日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

05机器学习–多项式回归与模型泛化及python实现

①什么是多项式回归

②scikit-learn中的多项式回归和Pipelin

③过拟合与欠拟合

④验证数据集与交叉验证

⑤回顾网格搜索

⑥偏差方差权衡

⑦解决过拟合问题–模型正则化1–岭回归

⑧解决过拟合问题–模型正则化2–LASSO回归

大家都在看