如何搞懂机器学习中的线性回归模型？机器学习系列之线性回归基础篇

2023年6月18日下午2:56 • 人工智能 • 阅读 70

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！
感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家分享哦。

为什么我们需要学习线性回归呢？

线性回归是解决回归类问题最常使用的算法模型，其算法思想和基本原理都是由多元统计分析发展而来，但在数据挖掘和机器学习领域中，也是不可多得的行之有效的算法模型。一方面，线性回归蕴藏的机器学习思想非常值得借鉴和学习，并且随着时间发展，在线性回归的基础上还诞生了许多功能强大的非线性模型。

可见，学习线性回归确实非常重要。

首先是关于输出结果的对比，分类模型最终输出结果为离散变量，而离散变量本身包含信息量较少，其本身并不具备代数运算性质，因此其评价指标体系也较为简单，最常用的就是混淆矩阵以及ROC曲线。而回归问题最终输出的是连续变量，其本身不仅能够代数运算，且还具有更”精致”的方法，希望对事物运行的更底层原理进行挖掘。即回归问题的模型更加全面、完善的描绘了事物客观规律，从而能够得到更加细粒度的结论。因此，回归问题的模型往往更加复杂，建模所需要数据所提供的信息量也越多，进而在建模过程中可能遇到的问题也越多。

2 线性回归与机器学习

我们在进行机器学习算法学习过程中，仍然需要对线性回归这个统计分析算法进行系统深入的学习。但这里需要说明的是，线性回归的建模思想有很多理解的角度，此处我们并不需要从统计学的角度来理解、掌握和应用线性回归算法，很多时候，利用机器学习的思维来理解线性回归，会是一种更好的理解方法，这也将是我们这部分内容讲解线性回归的切入角度。

3 线性回归的机器学习表示方法

3.1 核心逻辑

任何机器学习算法首先都有一个最底层的核心逻辑，当我们在利用机器学习思维理解线性回归的时候，首先也是要探究其底层逻辑。值得庆辛的是，虽然线性回归源于统计分析，但其算法底层逻辑和机器学习算法高度契合。

在给定n个属性描绘的客观事物z = ( x 1 , x 2 , . . . , x n ) z=(x_1,x_2,…,x_n)z =(x 1 ,x 2 ,…,x n )中，每个都用于描绘某一次观测时事物在某个维度表现出来的数值属性值。当我们在建立机器学习模型捕捉事物运行的客观规律时，本质上是希望能够综合这些维度的属性值来描绘事物最终运行结果，而最简单的综合这些属性的方法就是对其进行加权求和汇总，这即是线性回归的方程式表达形式：y ^ = w 0 + w 1 x i 1 + w 2 x i 2 + . . . + + w n x i n \hat y=w_0+w_1x_{i1}+w_2x_{i2}+…++w_nx_{in}y ^=w 0 +w 1 x i 1 +w 2 x i 2 +…++w n x i n w w w被统称为模型的参数，其中w 0 w_0 w 0 被称为截距(intercept)，w 1 w_1 w 1 ~w n w_n w n 被称为回归系数(regression coeffiffifficient)，有时也是使用β \beta β或者θ \theta θ来表示。这个表达式，其实就和我们小学时就无比熟悉的y = a x + b y=ax+b y =a x +b是同样的性质。其中x i 1 x_{i1}x i 1 是我们的目标变量，也就是标签。是样本i i i上的特征不同特征。如果考虑我们有m个样本，则回归结果可以被写作：y ^ = w 0 + w 1 x 1 + w 2 x 2 + . . . + + w n x n \hat y=w_0+w_1x_{1}+w_2x_{2}+…++w_nx_{n}y ^=w 0 +w 1 x 1 +w 2 x 2 +…++w n x n 其中y y y是包含了m个全部的样本的回归结果的列向量（结构为(m,1)，由于只有⼀列，以列的形式表示，所以叫做列向量）。注意，我们通常使用粗体的小写字母来表示列向量，粗体的大写字母表示矩阵或者行列式。我们可以使用矩阵来表示这个方程，其中可以被看做是⼀个结构为(n+1,1)的列矩阵，是⼀个结构为(m,n+1)的特征矩阵，则有：[ y ^ 1 y ^ 2 y ^ 3 . . . y ^ m ] = [ 1 x 11 x 12 x 13 . . . x 1 n 1 x 21 x 22 x 23 . . . x 2 n 1 x 31 x 32 x 33 . . . x 3 n . . . 1 x m 1 x m 2 x m 3 . . . x m n ] ∗ [ w ^ 1 w ^ 2 w ^ 3 . . . w ^ n ] \begin{bmatrix} \hat y_1 \ \hat y_2 \ \hat y_3 \ … \ \hat y_m \ \end{bmatrix}=\begin{bmatrix} 1 & x_{11} & x_{12} & x_{13} & … & x_{1n} \ 1 & x_{21} & x_{22} & x_{23} & … & x_{2n} \ 1 & x_{31} & x_{32} & x_{33} & … & x_{3n} \ … \ 1 & x_{m1} & x_{m2} & x_{m3} & … & x_{mn}\end{bmatrix} * \begin{bmatrix} \hat w_1 \ \hat w_2 \ \hat w_3 \ … \ \hat w_n \ \end{bmatrix}⎣⎢⎢⎢⎢⎡y ^1 y ^2 y ^3 …y ^m ⎦⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎡1 1 1 …1 x 1 1 x 2 1 x 3 1 x m 1 x 1 2 x 2 2 x 3 2 x m 2 x 1 3 x 2 3 x 3 3 x m 3 …………x 1 n x 2 n x 3 n x m n ⎦⎥⎥⎥⎥⎤∗⎣⎢⎢⎢⎢⎡w ^1 w ^2 w ^3 …w ^n ⎦⎥⎥⎥⎥⎤y ^ = X w \hat y = Xw y ^=X w线性回归的任务，就是构造⼀个预测函数来映射输入的特征矩阵和标签值的线性关系，这个预测函数在不同的教材上写法不同，可能写作 f ( x ) f(x)f (x )，y w ( x ) y_w(x)y w (x ) ，或者h ( x ) h(x)h (x )等等形式，但无论如何，这个 预测函数的本质就是我们需要构建的模型。

3.2 优化目标

对于线性回归而言，预测函数y ^ = X w \hat y = Xw y ^=X w就是我们的模型，在机器学习我们也称作 “决策数”。其中只有w w w是未知的，所以线性回归原理的核心就是找出模型的参数向量w w w 。但我们怎样才能够求解出参数向量呢？我们需要依赖一个重要概念： 损失函数。

在之前的算法学习中，我们提到过两种模型表现：在训练集上的表现，和在测试集上的表现。我们建模，是追求模型在测试集上的表现最优，因此模型的评估指标往往是⽤来衡量模型在测试集上的表现的。然而，线性回归有着基于训练数据求解参数的需求，并且希望训练出来的模型能够尽可能地拟合训练数据，即模型在训练集上的预测准确率越靠近100%越好。

因此，我们使用 损失函数这个评估指标，来衡量系数为w w w的模型拟合训练集时产生的信息损失的大小，并以此衡量参数w w w的优劣。如果用一组参数建模后，模型在训练集上表现良好，那我们就说模型拟合过程中的损失很小，损失函数的值很小，这一组参数就优秀；相反，如果模型在训练集上表现糟糕，损失函数就会很大，模型就训练不足，效果较差，这一组参数也就比较差。即是说，我们在求解参数w w w时，追求损失函数最小，让模型在训练数据上的拟合效果最优，即预测准确率尽量靠近100%。

（注意：对于非参数模型没有损失函数，比如KNN、决策树）

对于有监督学习算法而言，建模都是依据有标签的数据集，回归类问题则是对客观事物的⼀个定量判别。这里以y i y_i y i 作为第i i i行数据的标签，且y i y_i y i 为连续变量，x i x_i x i 为第i i i行特征值所组成的向量，则线性回归建模优化方向就是希望模型判别的y ^ i \hat y_i y ^i 尽可能地接近实际的y i y_i y i 。而对于连续型变量而言，邻近度度量方法可采用S S E SSE S S E来进行计算， S S E SSE S S E称作「残差平方和」，也称作「误差平方和」或者「离差平方和」。

因此我们的优化目标可用下述方程来进行表示：m i n w ∑ i = 1 m ( y i − y ^ i ) 2 = m i n w ∑ i = 1 m ( y i − X i w ) 2 \underset {w}{min}\sum_{i=1}^{m}{(y_i-\hat y_i)^2}=\underset {w}{min}\sum_{i=1}^{m}{(y_i-X_iw)^2}w min i =1 ∑m (y i −y ^i )2 =w min i =1 ∑m (y i −X i w )2来看⼀个简单的⼩例子。假设现在w w w为[1,2]这样⼀个向量，求解出的模型为y = x 1 + 2 x 2 y=x_1+2x_2 y =x 1 +2 x 2 。

样本特征1特征2真实标签010.531-10.52

则我们的损失函数的值就是：( 3 − ( 1 ∗ 1 + 2 ∗ 0.5 ) ) 2 + ( 2 − ( 1 ∗ ( − 1 ) + 2 ∗ 0.5 ) ) 2 ( y 1 − y ^ 1 ) 2 + ( y 2 − y ^ 2 ) 2 (3-(11+20.5))^2+(2-(1(-1)+20.5))^2 \ (y_1- \hat y_1)^2 + (y_2- \hat y_2)^2 (3 −(1 ∗1 +2 ∗0 .5 ))2 +(2 −(1 ∗(−1 )+2 ∗0 .5 ))2 (y 1 −y ^1 )2 +(y 2 −y ^2 )2

3.3 最小二乘法

现在问题转换成了求解S S E SSE S S E最小化的参数向量w w w，这种通过最小化真实值和预测值之间的S S E SSE S S E来求解参数的方法叫做最小二乘法。

3.3.1 回顾一元线性回归的求解过程

下面我们来用代码尝试一下。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

np.random.seed(420)
x = np.random.rand(50) * 10
x

np.random.seed(420)
y = 2 * x - 5 + np.random.randn(50)

plt.plot(x,y,'o')

现在对上图数据进行拟合：

from sklearn.linear_model import LinearRegression

lr = LinearRegression(fit_intercept=True)

x2 = x.reshape(-1,1)

lr.fit(x2, y)

xfit = np.linspace(0,10,100)

xfit2 = xfit.reshape(-1,1)

yfit = lr.predict(xfit2)

plt.plot(xfit,yfit)

plt.plot(x,y,'o')

看上去效果还是不错的。

假设该拟合直线为y ^ = w 0 + w 1 x \hat y = w_0+w_1x y ^=w 0 +w 1 x。现在我们的目标是使得该拟合直线的总的残差和达到最小，也就是最小化 S S E SSE S S E。

我们令该直线是以均值为核心的「均值回归」，即散点的 x ˉ \bar x x ˉ 和 y ˉ \bar y y ˉ 必经过这条直线：y ˉ = w 0 + w 1 x ˉ \bar y = w_0+w_1 \bar x y ˉ=w 0 +w 1 x ˉ对于真实值y来说，我们可以得到：y = w 0 + w 1 x + ϵ y = w_0+w_1 x + \epsilon y =w 0 +w 1 x +ϵ这里的ϵ \epsilon ϵ即为「残差」，对其进行变形，则残差平⽅和S S E SSE S S E就为：∑ ϵ 2 = ∑ ( y − w 0 − w 1 x ) 2 \sum{\epsilon^2=\sum (y-w_0-w_1x)^2}∑ϵ2 =∑(y −w 0 −w 1 x )2要求得残差平方和最小值，我们通过微积分求偏导算其极值来解决。这⾥我们计算残差最小对应的参数w 1 w_1 w 1 ：

此时，使得S S E SSE S S E最小的量w ^ 0 \hat w_0 w ^0 ，w ^ 1 \hat w_1 w ^1 称为总体参数w 0 w_0 w 0 ，w 1 w_1 w 1 的最小⼆乘估计值，预测⽅程 y ^ = w ^ 0 + w ^ 1 x \hat y = \hat w_0+\hat w_1x y ^=w ^0 +w ^1 x 称为最小⼆乘直线。

3.3.2 多元线性回归求解参数

更⼀般的情形，还记得我们刚才举的小例子么？如果我们有两列特征属性，则损失函数为：( y 1 − y ^ 1 ) 2 + ( y 2 − y ^ 2 ) 2 (y_1-\hat y_1)^2+(y_2-\hat y_2)^2 (y 1 −y ^1 )2 +(y 2 −y ^2 )2这样的形式如果矩阵来表达，可以写成：[ ( y 1 − y ^ 1 ) ( y 2 − y ^ 2 ) ] ∗ [ ( y 1 − y ^ 1 ) ( y 2 − y ^ 2 ) ] = ( y − X w ) T ( y − X w ) \begin{bmatrix} (y_1-\hat y_1)(y_2-\hat y_2) \ \end{bmatrix}*\begin{bmatrix} (y_1-\hat y_1) \ (y_2-\hat y_2) \ \end{bmatrix} \ =(y-Xw)^T(y-Xw)[(y 1 −y ^1 )(y 2 −y ^2 )]∗[(y 1 −y ^1 )(y 2 −y ^2 )]=(y −X w )T (y −X w )矩阵相乘是对应未知元素相乘相加，就会得到和上面的式子一模一样的结果。

可得到：

我们让求导后的一阶导数为0：

到了这里，我们希望能够将w w w留在等式的左边，其他与特征矩阵有关的部分都放到等式的右边，如此就可以求出w w w的最优解了。这个功能非常容易实现，只需要我们左乘X T X X^TX X T X的逆矩阵就可以。
在这里， 逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。我们将会在后面详细讲解多重共线性这个主题。

假设矩阵的逆是存在的，此时我们的w w w就是我们参数的最优解。求解出这个参数向量，我们就解出了我们的X w Xw X w，也就能够计算出我们的预测值y ^ \hat y y ^了。

; 结束语

如果看到这里开始有点乱了，没有关系，本次介绍线性回归的重点是在于让你从机器学习的角度来理解和使用线性回归，如果统计学的知识你感觉不好掌握的话，可以后面再多花点时间去巩固，无须自我否定。

在下一篇文章中，我会详细讲解如何利用Python实现线性回归，以及如何评估回归模型的好坏，当然也会进一步介绍多重共线性及其应用，也欢迎大家关注我下面推荐的专栏。

机器学习系列往期回顾

💙 你真的了解分类模型评估指标都有哪些吗？【附Python代码实现】
🖤 一文带你用Python玩转决策树 ❤️画出决策树&各种参数详细说明❤️决策树的优缺点又有哪些？
🧡 开始学习机器学习时你必须要了解的模型有哪些？机器学习系列之决策树进阶篇
💚 开始学习机器学习时你必须要了解的模型有哪些？机器学习系列之决策树基础篇
❤️ 以❤️简单易懂❤️的语言带你搞懂有监督学习算法【附Python代码详解】机器学习系列之KNN篇
💜 开始学习机器学习之前你必须要了解的知识有哪些？机器学习系列入门篇

往期内容回顾

🖤 我和关注我的前1000个粉丝”合影”啦！收集前1000个粉丝进行了一系列数据分析，收获满满
💚 MySQL必须掌握的技能有哪些？超细长文带你掌握MySQL【建议收藏】
💜 Hive必须了解的技能有哪些？万字博客带你掌握Hive❤️【建议收藏】

关注我，了解更多相关知识！

CSDN @报告，今天也有好好学习

Original: https://blog.csdn.net/qq_44186838/article/details/120249503
Author: 报告，今天也有好好学习
Title: 如何搞懂机器学习中的线性回归模型？机器学习系列之线性回归基础篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635548/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

py2neo-neo4j同名节点合并以及neo4j配置等问题

py2neo-neo4j同名节点合并以及neo4j配置等问题 1.neo4j配置问题 2.neo4j同名节点合并问题 3.neo4j节点更换标签问题最近赶毕业论文，需要用neo4…

人工智能 2023年6月1日
00124
知识图谱的入门学习笔记

知识图谱的入门学习笔记开放资源 1.知识图谱与知识表示学习 * 1.1 知识图谱 1.2 知识表示学习 2 知识表示学习的典型模型及训练 * 2.1 TransE模型 2.2 T…

人工智能 2023年6月1日
0081
刘二大人 PyTorch深度学习实践笔记 P9 多分类问题

刘二大人 PyTorch深度学习实践笔记 P9 多分类问题 P9 多分类问题 * 1、softmax函数 2、作业：CrossEntropyLoss vs NULLoss &#8…

人工智能 2023年7月23日
0057
计算机毕业设计SSM大学生网上书店【附源码数据库】

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+ Eclispe（IntelliJ IDEA,Ecli…

人工智能 2023年6月27日
0089
java 语音识别源码_简单语音识别源码

package com.coderqi.publicutil.voice; import android.app.Activity; import android.content….

人工智能 2023年5月27日
0072
MySQL8.0.30安装教程

目录一、下载安装包二、安装配置三、环境配置一、下载安装包 1.官网下载 2. 镜像下载（速度更快）二、安装牢记安装目录！以后配置环境变量或删除时会用到。软件安装地址和…

人工智能 2023年7月30日
0066
Docker从入门到进阶之进阶操作(6) —— 【在docker上运行gitlab】

上一章节讲了使用docker来做nginx的负载均衡，这一章节讲【在docker上运行gitlab】在本章节中，将为您演示如何在docker上运行gitlab GitLab 是一…

人工智能 2023年6月29日
0096
（2022）异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》

文章目录 * – 原文地址 – 初识 – 相知 – 回顾原文地址 https://arxiv.org/abs/2112.11573…

人工智能 2023年6月2日
00112
用FLIR热数据集跑yolov5 个人踩坑大全

版本：yolov5-v5.0环境：python3.8+anaconda3_2020.7+cuda10.1.105数据集：FLIR_ADAS_1_3.tar 1、问题：ImportE…

人工智能 2023年7月9日
00103
centernet代码解读-mutipose

前言： centernet可实现目标检测，人体姿态估计，3D检测，本文针对人体姿态估计代码进行解读。文章核心思想，使用热力图表示物体关键点及中心点，及使用中心点到关键点的矢量对检测…

人工智能 2023年7月10日
0068
【paper笔记】Learning Intents behind Interactions with Knowledge Graph

文章基本信息 Learning Intents behind Interactions with Knowledge Graph WWW2021 CCF-A 论文地址: KGIN …

人工智能 2023年6月10日
0072
CUDA安装教程

浅谈CUDA和CUDNN windows系统下安装CUDA 和 CUDNN 我真的会谢，之前电脑上有cuda11.0，一直正常使用，无奈有个课程教学使用的10.2，不知为何他的代码…

人工智能 2023年5月23日
00113
【cartographer_ros】八：官方Demo参数配置和效果

上一节介绍cartographer的主要配置参数。本节会研究一下这些参数改动，对算法的影响和效果，cartographer的调参一直是一个比较复杂的过程。 (1):调整本地 SLA…

人工智能 2023年6月4日
00111
数据预处理和特征选择

背景介绍结合网上一些相关资料，我们整理输出了这篇文章，本文说明了数据的重要性以及数据在各个环节和领域地位。更重要的是，这篇文章会详尽的讲解数据预处理和特征选择的原理及方法细节。 …

人工智能 2023年7月15日
0083
对于人工智能与教育的汇报问答Q&A整理20201124

Q:人工智能在教育上的应用有什么弊端？A:资料连接（1）智能技术层面上，人工智能教育技术尚未成熟，教育难题破解还存在许多问题，目前市场上的很多产品仍不够智能，学习数据稀疏、学习模…

人工智能 2023年5月27日
0095
【opencv-python】霍夫圆检测

霍夫变换检测直线的原理是利用累加器找到最大的( ρ , θ ) (ρ,θ)(ρ,θ)数对，如文章所述。圆形的数学表达式为( x − x c e n t e r ) 2 + ( y …

人工智能 2023年7月20日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31