基于内核岭回归的手写数字数据集回归问题

2023年6月18日下午1:32 • 人工智能 • 阅读 85

2.1 岭回归介绍

岭回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的，通过在损失函数中引入正则化项来达到目的。
随着模型复杂度的提升，在训练集上的效果就越好，即模型的偏差就越小；但是同时模型的方差就越大。对于岭回归的λ而言，随着λ的增大，|XTX+λI|就越大，(XTX+λI)-1就越小，模型的方差就越小；而λ越大使得β的估计值更加偏离真实值，模型的偏差就越大。所以岭回归的关键是找到一个合理的λ值来平衡模型的方差和偏差。

2.2 核函数介绍

核函数首先定义一个非线性映射函数，通过非线性映射函数将低维空间数据映射到高维空间中，然后在高维空间中再使用线性的回归方法，可以很好地解决非线性回归问题。核方法将数据映射到更高维的空间，希望在这个更高维的空间中，数据可以变得更容易分离或更好的结构化。

实验过程

3.1 数据集介绍

数据集来源与介绍：该数据集是一个回归问题。每个类的观察值数量是均等的，共有506个观察，13个输入变量和1个输出变量。每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率，一氧化氮浓度，住宅平均房间数，到中心区域的加权距离以及自住房平均房价等等。

CRIM 城镇人口犯罪率
ZN 超过25000平方英尺的住宅用地所占比例
INDUS 城镇非零售业务地区的比例
CHAS 查尔斯河虚拟变量(如果土地在河边=1；否则是0)
NOX 一氧化氮浓度(每1000万份)
RM 平均每居民房数
AGE 在1940年之前建成的所有者占用单位的比例
DIS 与五个波士顿就业中心的加权距离
RAD 辐射状公路的可达性指数
TAX 每10,000美元的全额物业税率
RTRATIO 城镇师生比例
B 1000(Bk-0.63)^2其中Bk是城镇黑人的比例
LSTAT 人口中地位较低人群的百分数
MEDV (目标变量/类别属性)以1000美元计算的自有住房的中位数

; 3.2 实验代码

1.使用岭回归找λ

train_X = x
x_train, x_test, y_train, y_test = train_test_split(train_X, y, test_size=0.3, random_state=100, shuffle=True)
def ridges(x_train, y_train):   # 目的是为了选λ
    alphas = np.arange(-10, 10, 0.1)
    coefs = []
    for alpha in alphas:
        # 获取模型 设置参数
        alpha = math.exp(alpha)
        # print(alpha)
        rr = Ridge(alpha=alpha)
        rr.fit(x_train, y_train)
        coefs.append(rr.coef_)
    fig, ax = plt.subplots()
    ax.plot(alphas, coefs)
    ax.set_ylabel('特征系数', fontsize=10)  # 纵坐标轴标题
    ax.set_xlabel('log(lambda)', fontsize=10)
    ax.set_title('岭回归岭际线', fontsize=15)  # 图形标题
    ax.set_xlim([-10, 10])
    ax.set_ylim([-10, 10])
    plt.savefig('岭回归.jpg', dpi=500, bbox_inches="tight")
    plt.show()

2.使用线性核函数与多项式核函数进行拟合和对比

def LKridge(x_train, x_test, y_train, y_test):
    # #for alpha in alphas:
    alpha = math.exp(5)
    rr = KernelRidge(alpha=alpha, kernel="linear")
    rr.fit(x_train, y_train)
    train_pred = rr.predict(x_train)
    test_pred = rr.predict(x_test)
    train_RMSE, train_mae = error(y_train, train_pred)
    test_RMSE, test_mae = error(y_test, test_pred)
    prob = '训练集：RMSE{:.4f} MAE{:.4f}\t测试集：RMSE{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae,test_RMSE,test_mae)
    fig, ax = plt.subplots()
    ax.plot(range(y_test.shape[0]), y_test, 'b', label='训练集:{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae), linewidth=1)
    ax.plot(range(y_test.shape[0]), test_pred, 'cyan', label='测试集:{:.4f} MAE{:.4f}'.format(test_RMSE,test_mae), linewidth=1)
    ax.legend(loc="lower right", fontsize=10)
    ax.tick_params(axis='both', which='major', size=5, top=False, bottom=True, labelbottom=True, direction='out')
    plt.savefig('线性核函.jpg', dpi=500, bbox_inches="tight")
    plt.show()
    print(prob)

3.选取gamma和degree，使用R2作为模型的评价指标，使用根均方误差（RMSE）和平方绝对误差（MAE）作为模型训练的评价指标。

def Optimizing(x_train, y_train):
    param_test1 = {'gamma':[1, 2, 3, 4, 5], 'degree': [1, 2]}
    alpha = math.exp(5)
    gsearch1 = GridSearchCV(estimator=KernelRidge(alpha=alpha, kernel="poly"),
                            param_grid=param_test1,
                            scoring='r2',
                            cv=5)
    gsearch1.fit(x_train, y_train)
    print('最好的参数', gsearch1.best_params_, gsearch1.best_score_)
    print('最优的R2分数', gsearch1.best_score_)

def error(y_true,y_pred):
    Rmse = np.sqrt(mean_squared_error(y_true, y_pred))# 根均方误差(RMSE)
    mse = mean_absolute_error(y_true, y_pred)    # 平均绝对误差(MAE)

    return Rmse, mse

4.结果可视化

def comparison(y_true,y_pred):# 绘制对比折线图
    fig, ax = plt.subplots()
    ax.plot(y_true.shape[0], y_true, 'b', label='原始值', linewidth=2, linestyle='-')
    ax.plot(y_true.shape[0], y_pred, 'b', label='预测值', linewidth=2, linestyle='-.')
    # ax.set_ylabel('特征系数', fontsize=10)  # 纵坐标轴标题
    # ax.set_xlabel('log(lambda)', fontsize=10)
    ax.set_title('原始值与预测值比较图', fontsize=15)  # 图形标题
    #ax.set_xlim([0, 60])
    ax.set_ylim([0, 60])

5.最后结果图需要将以下代码注释重新运行

if __name__ == '__main__':
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False  # 这两行代码解决 plt 中文显示的问题
    images_shows(boston)
    ridges(x_train, y_train)
    LKridge(x_train, x_test, y_train, y_test)
    PKridge(x_train, x_test, y_train, y_test)
    Optimizing(x_train, y_train)
    finish(x_train, x_test, y_train, y_test)

6.完整代码

from sklearn.kernel_ridge import KernelRidge
from plotly import offline
from tables import Description

from sklearn.datasets import load_boston, load_digits
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
import numpy as np
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
import math
import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator

np.random.seed(42)
boston = load_boston()
digits = load_boston()
x = digits.data
y = digits.target
def images_shows(xinxi):
    # plt.style.use('seaborn')
    x = xinxi['data']
    y = xinxi['target']
    fig, ax = plt.subplots(ncols=4, nrows=4)
    ax = ax.flatten()
    plt.ylim(0, 51)
    name = xinxi['feature_names']
    for i in range(13):
        ax[i].scatter(x[:, i], y, s=0.5, c='#006400')  # 横纵坐标和点的大小
        ax[i].set_title(str(name[i]), fontsize=8)
        ax[i].set_xlabel(name[i], fontsize=6)
        ax[i].set_ylabel('price', fontsize=6)
        ax[i].set_xticks([])
        ax[i].set_yticks([])
    for i in range(len(y)):
        ax[13].scatter(i, y[i], s=0.5, c='red')
        ax[13].set_xticks([])
        ax[13].set_yticks([])
    ax[14].set_xticks([])
    ax[14].set_yticks([])
    ax[15].set_xticks([])
    ax[15].set_yticks([])
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.show()
    plt.savefig('data.png', dpi=100, bbox_inches='tight')

train_X = x
x_train, x_test, y_train, y_test = train_test_split(train_X, y, test_size=0.3, random_state=100, shuffle=True)
def ridges(x_train, y_train):   # 目的是为了选λ
    alphas = np.arange(-10, 10, 0.1)
    coefs = []
    for alpha in alphas:
        # 获取模型 设置参数
        alpha = math.exp(alpha)
        # print(alpha)
        rr = Ridge(alpha=alpha)
        rr.fit(x_train, y_train)
        coefs.append(rr.coef_)
    fig, ax = plt.subplots()
    ax.plot(alphas, coefs)
    ax.set_ylabel('特征系数', fontsize=10)  # 纵坐标轴标题
    ax.set_xlabel('log(lambda)', fontsize=10)
    ax.set_title('岭回归岭际线', fontsize=15)  # 图形标题
    ax.set_xlim([-10, 10])
    ax.set_ylim([-10, 10])
    plt.savefig('岭回归.jpg', dpi=500, bbox_inches="tight")
    plt.show()

def LKridge(x_train, x_test, y_train, y_test):
    # #for alpha in alphas:
    alpha = math.exp(5)
    rr = KernelRidge(alpha=alpha, kernel="linear")
    rr.fit(x_train, y_train)
    train_pred = rr.predict(x_train)
    test_pred = rr.predict(x_test)
    train_RMSE, train_mae = error(y_train, train_pred)
    test_RMSE, test_mae = error(y_test, test_pred)
    prob = '训练集：RMSE{:.4f} MAE{:.4f}\t测试集：RMSE{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae,test_RMSE,test_mae)
    fig, ax = plt.subplots()
    ax.plot(range(y_test.shape[0]), y_test, 'b', label='训练集:{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae), linewidth=1)
    ax.plot(range(y_test.shape[0]), test_pred, 'cyan', label='测试集:{:.4f} MAE{:.4f}'.format(test_RMSE,test_mae), linewidth=1)
    ax.legend(loc="lower right", fontsize=10)
    ax.tick_params(axis='both', which='major', size=5, top=False, bottom=True, labelbottom=True, direction='out')
    plt.savefig('线性核函.jpg', dpi=500, bbox_inches="tight")
    plt.show()
    print(prob)

def PKridge(x_train, x_test, y_train, y_test):
    # #for alpha in alphas:
    alpha = math.exp(5)
    rr = KernelRidge(alpha=alpha, kernel="poly")    # 多项式核函数
    rr.fit(x_train, y_train)
    train_pred = rr.predict(x_train)
    test_pred = rr.predict(x_test)
    train_RMSE, train_mae = error(y_train, train_pred)
    test_RMSE, test_mae = error(y_test, test_pred)
    prob = '训练集：RMSE{:.4f} MAE{:.4f}\t测试集：RMSE{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae,test_RMSE,test_mae)
    fig, ax = plt.subplots()
    ax.plot(range(y_test.shape[0]), y_test, 'b', label='训练集:{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae), linewidth=1)
    ax.plot(range(y_test.shape[0]), test_pred, 'cyan', label='测试集:{:.4f} MAE{:.4f}'.format(test_RMSE,test_mae), linewidth=1)
    ax.legend(loc="lower right", fontsize=10)
    ax.tick_params(axis='both', which='major', size=5, top=False, bottom=True, labelbottom=True, direction='out')
    plt.savefig('多项式核函数.jpg', dpi=500, bbox_inches="tight")
    plt.show()
    print(prob)

def Optimizing(x_train, y_train):
    param_test1 = {'gamma':[1, 2, 3, 4, 5], 'degree': [1, 2]}
    alpha = math.exp(5)
    gsearch1 = GridSearchCV(estimator=KernelRidge(alpha=alpha, kernel="poly"),
                            param_grid=param_test1,
                            scoring='r2',
                            cv=5)
    gsearch1.fit(x_train, y_train)
    print('最好的参数', gsearch1.best_params_, gsearch1.best_score_)
    print('最优的R2分数', gsearch1.best_score_)

def error(y_true,y_pred):
    Rmse = np.sqrt(mean_squared_error(y_true, y_pred))# 根均方误差(RMSE)
    mse = mean_absolute_error(y_true, y_pred)    # 平均绝对误差(MAE)

    return Rmse, mse

def comparison(y_true,y_pred):# 绘制对比折线图
    fig, ax = plt.subplots()
    ax.plot(y_true.shape[0], y_true, 'b', label='原始值', linewidth=2, linestyle='-')
    ax.plot(y_true.shape[0], y_pred, 'b', label='预测值', linewidth=2, linestyle='-.')
    # ax.set_ylabel('特征系数', fontsize=10)  # 纵坐标轴标题
    # ax.set_xlabel('log(lambda)', fontsize=10)
    ax.set_title('原始值与预测值比较图', fontsize=15)  # 图形标题
    #ax.set_xlim([0, 60])
    ax.set_ylim([0, 60])
def finish(x_train, x_test, y_train, y_test):
    alpha = math.exp(5)
    rr = KernelRidge(alpha=alpha, kernel="poly", gamma=1, degree=2)    # 多项式核函数
    rr.fit(x_train, y_train)
    train_pred = rr.predict(x_train)
    test_pred = rr.predict(x_test)
    train_RMSE, train_mae = error(y_train, train_pred)
    test_RMSE, test_mae = error(y_test, test_pred)
    prob = '训练集：RMSE{:.4f} MAE{:.4f}\t测试集：RMSE{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae,test_RMSE,test_mae)
    fig, ax = plt.subplots()
    ax.plot(range(y_test.shape[0]), y_test, 'b', label='训练集:{:.4f} MAE{:.4f}'.format(train_RMSE,train_mae), linewidth=1)
    ax.plot(range(y_test.shape[0]), test_pred, 'cyan', label='测试集:{:.4f} MAE{:.4f}'.format(test_RMSE,test_mae), linewidth=1)
    ax.legend(loc="lower right", fontsize=10)
    ax.tick_params(axis='both', which='major', size=5, top=False, bottom=True, labelbottom=True, direction='out')
    plt.savefig('最终的图.jpg', dpi=500, bbox_inches="tight")
    plt.show()
    print(prob)

if __name__ == '__main__':
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False  # 这两行代码解决 plt 中文显示的问题
    images_shows(boston)
    ridges(x_train, y_train)
    LKridge(x_train, x_test, y_train, y_test)
    PKridge(x_train, x_test, y_train, y_test)
    Optimizing(x_train, y_train)
    finish(x_train, x_test, y_train, y_test)

3.3 运行结果

1.岭回归岭际线

2.多项式核函数

3.线性核函数

4.最终结果图

5.模型评价

Original: https://blog.csdn.net/m0_37758063/article/details/123806511
Author: ZHW_AI课题组
Title: 基于内核岭回归的手写数字数据集回归问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635272/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习——基于卷积神经网络的宝石分类

采用 keras.preprocessing.image.image_dataset_from_directory方法导入数据集这里由于子目录太多，采用 os.listdir获取…

人工智能 2023年6月30日
0048
制作自己的数据集

目录自制数据集，解决本领域应用编辑编辑数据增强，扩充数据集断点续训，存取模型编辑参数提取，把参数存入文本 acc/loss可视化，查看训练效果编写一个应用程序（…

人工智能 2023年7月28日
0037
K210神经网络的训练以及出现内存不足的情况memory not enough解决方案

目录介绍开始训练训练完成 memory not enough报错解决方案一：解决方案二：介绍最近在搞K210神经网络搭建识别数字，在烧入代码的时候就有很多坑，记录一下…

人工智能 2023年6月24日
00103
2022-12-15 c++总结

根据之前学习的进行总结，温故而知新，理解有误请大佬们评论区指正，感谢～基本概念理解在整个代码编译过程中，除了语言上的标准外，对编译的概念理解通透也是必需的： #ifndef T…

人工智能 2023年7月30日
0031
【Pytorch神经网络实战案例】15 WGAN-gp模型生成Fashon-MNST模拟数据

1 WGAN-gp模型生成模拟数据案例说明使用WGAN-gp模型模拟Fashion-MNIST数据的生成，会使用到WGAN-gp模型、深度卷积GAN(DeepConvolutio…

人工智能 2023年7月13日
0052
线性神经网络-线性回归

文章目录 1.1. 线性回归 1.1.1. 线性回归的基本元素 1.1.1.1. 线性模型 1.1.1.2. 损失函数 1.1.1.3. 解析解 1.1.1.4. 小批量随机梯度下…

人工智能 2023年6月18日
0066
NMF降维算法与聚类模型的综合运用

NMF降维算法与聚类模型的综合运用 * – 前言 – 一：NMF算法 – 二：NMF算法的使用 – 三：NMF算法与层次聚类的综合使…

人工智能 2023年6月2日
00103
数据驱动科技赋能，东吴证券打造数据中台“九大能力”

公司简介东吴证券股份有限公司作为首家上市的地级市券商，扎根苏州，布局全国，树立”坚持根据地、融入长三角、服务中小微”战略导向，致力于为实体经济增添活力，为…

人工智能 2023年6月11日
0080
DataFrame写入hdf文件失败：object header message is too large

现象使用hdf5文件的API，直接把DataFrame写入hdf文件： import pandas as pd df = pd.DataFrame(index=index, co…

人工智能 2023年7月8日
0076
CART决策树算法的Python实现（注释详细）

一、CART决策树算法简介 CART（Classification And Regression Trees 分类回归树）算法是一种树构建算法，既可以用于分类任务，又可以用于回归。…

人工智能 2023年7月5日
0065
本地pytorch代码迁移至华为云ModelArts平台训练

本地pytorch代码迁移至华为云ModelArts平台训练上传代码和数据集至华为云OBS 注册华为云OBS账号并使用AK登录。参考这篇文件OBS账号注册和登录修改pytor…

人工智能 2023年7月2日
0047
seaborn

hue : 对属于不同类别的曲线添加不同颜色style : 对属于不同类别的曲线添加不同类型的线条样式size : 对属于不同类别的曲线改变其大小col : 以行呈现 row : …

人工智能 2023年6月1日
0074
NeRF神经辐射场学习笔记（一）——NeRF论文翻译以及原理解读

NeRF神经辐射场学习笔记（一）——NeRF论文翻译以及原理解读声明论文概述 Neural Radiance Field Scene Representation（NeRF场景…

人工智能 2023年6月23日
00117
SwinIR实战：详细记录SwinIR的训练过程

文章目录 SwinIR实战：详细记录SwinIR的训练过程。下载训练代码数据集训练完整的代码： SwinIR实战：详细记录SwinIR的训练过程。论文地址：https:/…

人工智能 2023年6月23日
0097
神经网络-张量

向量数据：2D张量，形状为(samples,features) 其为最常见的数据。对这种数据集，每个数据点都被编码为一个向量，因此一个数据批量就被编码为2D张量（即向量组成的数组）…

人工智能 2023年7月14日
0056
超级详细易懂的GhostNet解析

GhostNet的不完全解析 CVPR2020 & IJCV2022(the extended version)Noah’s Ark Lab, Huawei T…

人工智能 2023年5月26日
0095

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30