岭回归模型|机器学习|回归算法

2023年6月17日上午11:19 • 人工智能 • 阅读 131

1.岭回归模型

1.1背景

对于回归问题来说，它们的基本内容基本上都是相同的，所以岭回归模型与线性回归模型类似：
y = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + . . . θ n x n {\color{Violet}y = θ_{0}x_{0}+θ_{1}x_{1}+θ_{2}x_{2}+…θ_{n}x_{n}}y =θ0 x 0 +θ1 x 1 +θ2 x 2 +…θn x n 它们的差别主要体现在损失函数的构造上。

对于有些矩阵，矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大，这种矩阵称为”病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说，如果主元（即对角线上的元素）上的元素很小，在计算时就会表现出病态的特征。

而岭回归模型使用改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。

1.2损失函数

岭回归模型的损失函数构造如下：
J ( θ ) = 1 2 m ∑ i = 1 m ( y i − w x i ) 2 + λ 2 ∑ j = 1 n θ j 2 {\color{Violet}J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(y_{i}-wx_{i})^{2}+\frac{\lambda}{2}\sum_{j=1}^{n}\theta_{j}^{2}}J (θ)=2 m 1 i =1 ∑m (y i −w x i )2 +2 λj =1 ∑n θj 2

且：
∑ j = 1 n θ j 2 ≤ λ {\color{Violet}\sum_{j=1}^{n}\theta _{j}^{2} ≤ \lambda}j =1 ∑n θj 2 ≤λ

上式中的 𝑤 {\color{Red}𝑤}w 是长度为 𝑛 {\color{Red}𝑛}n 的向量，不包括截距项的系数 θ 0 {\color{Red}θ_{0}}θ0 。m {\color{Red}m}m为样本数；𝑛 {\color{Red}𝑛}n 为特征数。同样可以使用矩阵进行简化表达式，结果如下：
J ( θ ) = 1 2 ( Y − Y ^ ) 2 + λ 2 θ 2 {\color{Violet}J(\theta)=\frac{1}{2}(Y-\hat Y)^{2}+\frac{\lambda}{2}\theta ^{2}}J (θ)=2 1 (Y −Y ^)2 +2 λθ2

我们对上式 θ {\color{Red}\theta}θ 进行求得，令求导后的式子等于0，可以求得最优解，转换后可以得到 θ {\color{Red}\theta}θ 的表达式为：
θ = ( X T X + λ I ) − 1 ( X T Y ) {\color{Violet}\theta = (X^{T}X+\lambda I)^{-1}(X^{T}Y)}θ=(X T X +λI )−1 (X T Y )

其中 λ {\color{Red}\lambda}λ 做为传入的参数我们需要设置它的值，而 I {\color{Red}I}I 为单位矩阵，相对于线性回归模型来说此模型添加了 λ I {\color{Red}\lambda I}λI 这一项，此举可以保证 X T X {\color{Red}X^{T}X}X T X 可逆，所以总得来说可以解决病态矩阵的问题。

2.相关代码

2.1RidgeRegression类

import numpy as np

class RidgeRegression :
    def __init__(self):
        '''初始化线性回归模型，最终要求得theta'''
        self.theta = None

    def fit(self,xMat,yMat,lam=0.2):
        xMat=np.mat(xMat)
        yMat=np.mat(yMat).T
        xTx = xMat.T*xMat
        denom = xTx + np.eye(np.shape(xMat)[1])*lam

        if np.linalg.det(denom) == 0.0:
            print("这个矩阵是奇异的，不可求逆")
            return
        self.theta = denom.I * (xMat.T*yMat)

    def predict(self,test_data):
        test_data=np.mat(test_data)
        y_predict=test_data*self.theta

        return y_predict

2.2求解代码

import pandas as pd
import numpy as np

data = pd.read_csv('/data/shixunfiles/11996b194a005626887e927dd336f390_1577324743961.csv')

X = data.iloc[:,:-1].values
y = data.iloc[:,-1].values

X = np.hstack((np.ones((X.shape[0],1)),X))

rr = RidgeRegression()
rr.fit(X,y)

ypredict = rr.predict(X)

这里展示了csv中一些数据，下标从0-6的列表示的是每个特征点的特征值，下标为7的列表示每个特征点对应的标签。注意此时我们需要添加一列x0，值都为1。

2.3绘图代码

import matplotlib.pyplot as plt
import seaborn as sns;
sns.set()

plt.scatter(range(200),y[:200],s=20)
plt.plot(range(200),ypredict[:200],color='black')

3.直接调库使用

∙ \bullet ∙ 实际在使用时，不需要自己实现岭回归的模型，此时我们直接调库即可；

∙ \bullet ∙ 格式为： from sklearn.linear_model import Ridge

∙ \bullet ∙ 调用时： ridge = Ridge(alpha=1.0)

∙ \bullet ∙ 常用方法如下：

方法格式含义fit(X,y)拟合岭回归模型，X为特征值矩阵，y为标签向量predict(X)得到模型预测的结果向量，X为输入特征值矩阵

Original: https://blog.csdn.net/weixin_46308081/article/details/120381294
Author: 桃陉
Title: 岭回归模型|机器学习|回归算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/629915/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《点燃我，温暖你》理工男神李峋同款C语言版本爱心

近期很火的《点燃我，温暖你》很火,里面的 _爱心代码_也很惊艳，但是程序员看了觉得尬的扣脚，网上也有他其他的语言爱心源码，但都不是C语言的，用语言描述一下，就是好多爱心，然后从…

人工智能 2023年6月28日
00152
ubuntu18.04（LINUX）运行YOLOV5+训练VOC数据集/自己的数据集

YOLOV5 中文Github网址： https://github.com/wudashuo/yolov5 YOLOV5相关文件百度网盘连接：链接: https://pan.ba…

人工智能 2023年7月12日
00114
热门算法总结 —— AP聚类

1、算法简介（1）概述：AP聚类是在2007年的《Clustering by Passing Messages Between Data Points》一文中首次提出的一种新的聚…

人工智能 2023年6月19日
0074
Livox雷达驱动程序发布点云格式CustomMsg、PointCloud2、pcl::PointXYZI、pcl::PointXYZINormal解析

Livox ROS驱动程序专门&#x75…

人工智能 2023年7月27日
0088
ExifTool常用使用方法

ExifTool下载和工具用法链接https://www.rmnof.com/article/exiftool-introduction/ 记录用到的命令查看JPG图片信息 ex…

人工智能 2023年5月28日
0086
论文阅读笔记–Data-Free Knowledge Distillation for Heterogeneous Federated Learning（FEDGEN）

链接：https://arxiv.org/abs/2105.10056v2这篇文章发表在ICML 2021，讲的是如何解决联邦学习中的数据异构问题。作者认为现有的知识蒸馏（Know…

人工智能 2023年6月16日
0071
【PyTorch教程】04-详解torchvision0.13中的预训练模型加载的更新及报错的解决方法(2022年最新)

本期目录加载预训练模型(有重大更新) * 1. 新老版本写法对比 2. 新写法的好处 ; 加载预训练模型(有重大更新) 相信最近 (2022年7月) 安装或者更新了 PyTorc…

人工智能 2023年7月24日
0066
docker学习笔记

文章目录一基本概念二安装三使用 * 架构配置镜像加速器服务命令镜像命令 – 查看镜像搜索镜像下载镜像删除镜像容器命令 – 创建容器…

人工智能 2023年6月30日
00125
OpenCV4-图像二值化

OpenCV4-图像二值化图像二值化 1.环境配置 OpenCV版本：OpenCV4.1 2.图像二值化二值图像：图像中的像素灰度值无论在什么数据类型中都只有最大值和最小值两种…

人工智能 2023年6月22日
00123
卷积神经网络有哪些应用,卷积神经网络有何用途

什么是卷积神经网络？为什么它们很重要卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单…

人工智能 2023年6月16日
0097
轨迹（形状）相似性判断与度量方法

目录 0. 综述一、基于点方法EDR，LCSS，DTW * – 1.1 Eucilid 欧式距离 1.2 LCSS 1.3 DTW距离（动态时间规整）二、基于形状的…

人工智能 2023年7月27日
0052
Docker安装tensorflow

本文环境：操作系统：Windows 10 21H1 虚拟机：Virtual Box 6.1.30 r148432 Linux 发行版：Ubuntu Focal 20.04 (LT…

人工智能 2023年5月23日
0074
深度学习笔记——现阶段的目标检测器结构解析（Neck[FPN,PANet,Bi-FPN],Head[rpn,yolo…]）

目录 1. 概述 2. 经典Neck的回顾 2.1 FPN(特征金字塔结构) 2.2 PANet 2.2.1 创建了自下而上的路径增强 2.2.2 Adaptive Feature…

人工智能 2023年7月9日
0092
pandas基于日期信息（time or date）生成季度信息（quarter）实战：pandas基于日期信息列生成季度信息列、dt.quarter生成季度信息、dt.to_period生成季度信息

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月8日
0080
图像拼接（Image Stiching）方向论文微总结

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0048
1519_AURIX TC275 SRI总线部分相关寄存器的梳理

全部学习汇总： GreyZhang/g_TC275: happy hacking for TC275! (github.com) 这一次我会看一些关于SRI寄存器的描述相关文档，但…

人工智能 2023年6月26日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31