【统计学笔记】第12章多元线性回归

2023年6月18日下午1:20 • 人工智能 • 阅读 98

书籍：《统计学（第六版）》
书籍作者：贾俊平

索引 💬 专业名词：方便查找，解释说明 📌 专业名词 🔒 公式推导：解释说明 🔑 公式记忆：方便查找 📖 摘抄 🗣 案例
12.1.1 多元回归模型与回归方程 📌 多元回归模型 设因变量为y，k个自变量分别为x 1 ， x 2 ， … ， x k ， x_1，x_2，…，x_k，x 1 ，x 2 ，…，x k ，描述因变量y如何依赖于自变量和误差项ε的方程称为多元回归模型。其一般形式可表示为： y = β 0 + β 1 x 1 + β 2 x 2 , … , β k x k + ε y=β_0+β_1x_1+β_2x_2,…,β_kx_k+\varepsilon y =β0 +β1 x 1 +β2 x 2 ,…,βk x k +ε 式中，β 0 ， β 1 ， β 2 ， … ， β k β_0，β_1，β_2，…，β_k β0 ，β1 ，β2 ，…，βk 是模型的参数，ε为误差项。 📖 误差项的3个基本假定
（1）误差项ε是一个期望值为0的随机变量，即E(ε)=0。
（2）对于自变量x1，x2，…，xk的所有值，ε的方差σ2都相同。
（3）误差项ε是一个服从正态分布的随机变量，且相互独立，即ε ∼ N ( 0 ， σ 2 ) ε\sim{N(0，σ2)}ε∼N (0 ，σ2 )。 📌 多元回归方程
描述了因变量y的期望值与自变量x1，x2，…，xk之间的关系。公式如下： E ( y ) = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k E(y)=β_0+β_1x_1+β_2x_2+…+β_kx_k E (y )=β0 +β1 x 1 +β2 x 2 +…+βk x k
12.1.2 估计的多元回归方程 📌 估计的多元回归方程 当用样本统计量β ^ 0 ， β ^ 1 ， β ^ 2 ， … ， β ^ k \hat{β}_0，\hat{β}_1，\hat{β}_2，…，\hat{β}_k β^0 ，β^1 ，β^2 ，…，β^k 去估计回归方程中的未知参数β0，β1，β2，…，βk；其公式为： E ( y ) = β ^ 0 + β ^ 1 x 1 + β ^ 2 x 2 + … + β ^ k x k E(y)=\hat{β}_0+\hat{β}_1x_1+\hat{β}_2x_2+…+\hat{β}_kx_k E (y )=β^0 +β^1 x 1 +β^2 x 2 +…+β^k x k
12.1.3 参数的最小二乘估计 📖 使用最小二乘法求解，由于求解计算较难，故使用excel求解 *【工具】-【回归】
12.2.1 多重判定系数 🔑 判定系数-R 2 R^2 R 2
判定系数是对估计的回归方程拟合优度的度量，其公式如下： R 2 = S S R S S T = ∑ ( y ^ i − y ˉ i ) 2 ∑ ( y i − y ˉ i ) 2 R^2=\frac{SSR}{SST} =\frac{ \sum{(\hat{y}i-\bar{y}_i)}^2 }{ \sum{(y_i-\bar{y}_i)}^2 }R 2 =S S T S S R =∑(y i −y ˉi )2 ∑(y ^i −y ˉi )2 判定系数就是：回归平方和/总平方和；判定系数越接近1，说明回归直线的拟合效果越好；反之。判定系数的实际意义：在y取值的变动中，有R 2 R^2 R 2（这是个百分比）的部分可以由x与y之间的线性关系来解释；即y中有R 2 R^2 R 2是由x决定的。 📌 多重判定系数-R 2 R^2 R 2
多重判定系数是多元回归中的回归平方和占总平方和的比例。
反映了因变量y的变差中被估计的回归方程所解释的比例。 📖 多重判定系数的注意事项
自变量个数的增加将影响到因变量中被估计的回归方程所解释的变差数量。故当自变量越多，预测误差会越小，R 2 R^2 R 2变大。为了避免这个问题，可以使用调整的多重判定系数。 R 2 R^2 R 2的平方根称为多重相关系数，也称为复相关系数，度量了因变量同k个自变量的相关程度。 📌 调整的多重判定系数
为了避免增加自变量而高估R 2 R^2 R 2，使用样本量n和自变量个数的k去调整R 2 R^2 R 2，这种方式下的系数为调整的多重判定系数，记为R α 2 R\alpha^2 R α2 ，公式为： R α 2 = 1 − ( 1 − R 2 ) ( n − 1 n − k − 1 ) R_\alpha^2=1-(1-R^2)(\frac{ n-1 }{ n-k-1 })R α2 =1 −(1 −R 2 )(n −k −1 n −1 )
12.2.2 估计标准误差 🔑 估计标准误差的公式为： s e = ∑ ( y i − y ^ i ) 2 n − 2 = S S E n − 2 = M S E s_e=\sqrt{\frac{ \sum{(y_i-\hat{y}_i)^2} }{ n-2 }} =\sqrt{\frac{ SSE }{ n-2 }} =\sqrt{MSE}s e =n −2 ∑(y i −y ^i )2 =n −2 S S E =M S E 与一元线性回归完全一样。

☑️ 线性关系检验
检验因变量y与k个自变量之间的线性关系是否显著，也称为总体显著性检验。

☑️ 回归系数检验
检验自变量对因变量的影响是否显著，也是检查变量之间有没有线性关系的。
如果β i = 0 \beta_i=0 βi =0，那么两个变量之间没有线性关系；
如果β i ≠ 0 \beta_i≠0 βi =0，那么两个变量之间有线性关系。

12.3.1 多重共线性及其所产生的问题 📌 多重共线性
当回归模型中两个或两个以上的自变量彼此相关时，称回归模型中存在多重共线性。 📖 多重共线性引起的问题
变量之间高度相关时，可能会使回归的结果混乱；
可能对参数估计值的正负号产生影响；
12.3.2 多重共线性的判别 ☑️ 存在多重共线性的判断情形
（1）模型中各对自变量之间显著相关；
（2）当模型的线性关系检验（F检验）显著时，几乎所有回归系数βi的t检验却不显著；
（3）回归系数的正负号与预期的相反。
（4）容忍度（tolerance）越小，多重共线性越严重；方差扩大因子（variance inflation factor，VIF）越大，多重共线性越严重。 📖 解释说明
- 容忍度：1 − R i 2 1-R_i^2 1 −R i 2 ，即1-（该自变量为因变量而其他k-1个自变量为预测变量时，所得到的的线性回归模型的判定系数）；
- 通常认为容忍度小于0.1时，存在严重的多重共线性；
- 方差扩大因子：V I F = 1 1 − R i 2 VIF=\frac{1}{1-R_i^2}V I F =1 −R i 2 1 ，即容忍度的倒数；
- 通常认为VIF大于10时，存在严重的多重共线性。
12.3.3 多重共线性问题的处理 📖 处理思路（1）将一个或多个相关的自变量从模型中剔除，使保留的自变量尽可能不相关；（2）如果要在模型中保留所有的自变量，需要：①避免根据t统计量对单个参数β进行检验；②对因变量y值的推断（估计或预测）限定在自变量样本值的范围内。 📖 多重共线性问题带来的问题主要是：对单个回归系数的解释和检验。在求因变量的置信区间和预测区间时不会受其影响，但需要保证估计和预测的自变量范围在样本数据的范围以内。
因此，如果是为了估计或预测，可以保留所有的自变量。在建立多元线性回归模型时，不要试图引入更多的自变量，除非确实有必要。

📖 将一个或一个以上的自变量引入到回归模型中时，是否使得残差平方和（SSE）有显著减少。

如果增加一个自变量使残差平方和（SSE）的减少是显著的，则说明有必要将这个自变量引入回归模型，否则，就没有必要将这个自变量引入回归模型。

确定在模型中引入自变量x i x_i x i 是否使残差平方和（SSE）有显著减少的方法，就是使用F统计量的值作为一个标准，以此来确定是在模型中增加一个自变量，还是从模型中剔除一个自变量。

方法：向前选择、向后剔除、逐步回归、最优子集等。

📖 向前选择
从模型中没有自变量开始，增加F统计量的值最大的自变量，直至增加的自变量不能导致SSE显著增加为止。

📖 向后剔除
先对因变量拟合包括所有k个自变量的线性回归模型，去掉使模型SSE值减小最少的自变量，直到剔除一个自变量不会使SSE显著减小为止，同样使用F检验。

📖 逐步回归是将向前选择和向后剔除结合起来筛选自变量的方法。

不过在增加了一个自变量后，它会对模型中所有的变量进行考察，看看有没有可能剔除某个自变量。

逐步回归法在前面步骤中增加的自变量在后面的步骤中有可能被剔除，而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中。

Original: https://blog.csdn.net/weixin_46704989/article/details/123062193
Author: 好好学习的星熊
Title: 【统计学笔记】第12章多元线性回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635240/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

torch的DataLoader 浅析

torch的DataLoader主要是用来装载数据，就是给定已知的数据集，把数据集装载进DataLoaer，然后送入深度学习网络进行训练。先看一下它的声明吧。（官方声明，pytor…

人工智能 2023年7月22日
0063
层次聚类算法的实现

目录 1.作者介绍 2．层次聚类算法介绍 * 2.1 层次聚类算法原理 2.2 层次聚类算法步骤 2.3 层次聚类算法分类 3．层次聚类算法实现(代码如下) * 3.1 相关包导入…

人工智能 2023年5月31日
0096
基于数据挖掘的入侵检测系统实验

一、实验背景及意义：数据挖掘算法可以挖掘隐藏于大数据中的信息。入侵数据也具有大数据的特点，数据挖掘的许多方法可以应用于入侵检测，如聚类、分类、关联分析、序列分析方法。 &#822…

人工智能 2023年7月16日
0070
异质网络模型HetGNN论文总结理解

论文题目：Heterogeneous Graph Neural Network 论文来源：KDD 2019 论文链接：https://www3.nd.edu/~dial/publi…

人工智能 2023年7月14日
0070
手把手教你安装CUDA（一看就会）

1.背景学习深度学习的话,肯定需要安装PyTorch和TensorFlow,安装这两个深度学习框架之前得安装CUDA. CUDA是什么? CUDA是一个并行计算平台和编程模型，能…

人工智能 2023年6月16日
00105
深度学习模型特征可视化(以yolov4为例)

一般来说，深度学习模型中的特征可视化分为两种：GAM/Grad_GAM、特征图可视化。 * – + 一、GAM/Grad_GAM可视化 + 二、特征图可视化一、GAM…

人工智能 2023年7月6日
0088
【ROS进阶篇】第八讲（上） URDF文件的语法详解

【ROS进阶篇】第八讲（上） URDF文件的语法详解文章目录【ROS进阶篇】第八讲（上） URDF文件的语法详解前言 * 一、URDF的基本概念二、link标签 &#821…

人工智能 2023年6月24日
0083
神经网络各种评判指标

神经网络评判指标及关系一. IOU * 1. 什么是IOU（IntersecTIon over Union）二. 什么是准确率，精确率，召回率 * 1. 基本概念 2. 准确率…

人工智能 2023年6月15日
00143
信奥中的数学：斐波那契数列

Original: https://blog.csdn.net/dllglvzhenfeng/article/details/127808271Author: dllglvzhen…

人工智能 2023年6月28日
0084
JAVA初阶——程序逻辑控制

目录一、顺序结构二、分支结构 1、if语句（1）、if语句（2）、if ~ else语句（3）、if ~ else if ~ else语句 2、switch语句三、循环…

人工智能 2023年6月29日
00110
目标检测_利用tensorflow2官方案例-自定义训练目标进行人眼识别

我的数据集：说明：我的数据集一共1035张，并非通过手动标记得到，因此不包含xml文件包含：图片文件，train.csv,test.csv。（图片位置，标记位置，目标名称等）数…

人工智能 2023年5月26日
0095
NLP之文本分类(四)—多标签分类初探

0. 背景主要是参考网上资源针对多标签分类大概描述，主要是数据集评估方法，网上开源代码阅读，多标签分类主要问题描述 1. 多标签分类多标签学习[MLL]由一个样例和一个集合…

人工智能 2023年6月16日
0088
使用pandas进行读取、合并、写入csv文件

文章目录导包读取csv文件——pd.read_csv(‘path’) 合并csv文件——pd.merge(文件1，文件2，on = [共同的列名]) 写入csv文件——data…

人工智能 2023年7月7日
0065
Pandas总结与思维导图

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。利器之一：Series它是一种类似…

人工智能 2023年7月7日
00100
Ubuntu18.04用Zed结合yolo进行目标检测

配置环境： cuda11.3 +cudnn+zed sdk+opencv 安装yolov4：下载darknet 终端输入如下命令： git clone https://githu…

人工智能 2023年7月9日
0099
深度学习-通过Resnet18实现CIFAR10数据分类

文章目录 * – + * 1. CIFAR10数据集 * 2. Resnet18 * 3. 迁移学习 * 4. 代码实现 * – 4.1 导入程序所需的包 …

人工智能 2023年6月30日
00118

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【统计学笔记】第12章 多元线性回归

大家都在看

【统计学笔记】第12章多元线性回归