统计学习 | 多重线性回归 Multiple Linear Regression

概念

回归模型通过对观测数据拟合一条直线来描述变量之间的关系。回归估计一个因变量如何随着自变量的变化而变化。

多重线性回归是用来估计两个或多个自变量和一个因变量之间的关系。

!!!此处注意区分

1)简单(simple)线性回归 :1个自变量,1个因变量

2)多因素(multivariable)或多重(multiple)线性回归:多个自变量,1个因变量

3)多元或多变量(multivariate)线性回归:1个自变量,多个因变量

方差齐性(同方差) : 我们的预测误差的大小在自变量的值之间没有显著的变化。

观察的独立性: 数据集中的观察数据采用统计学上有效的方法收集,变量之间没有隐藏的关系。

在多线性回归模型中,有可能一些自变量实际上是相互关联的,所以在开发回归模型之前检查这些是很重要的。如果两个自变量的相关性太高(r2 > 0.6) ,那么在回归模型中只能使用其中的一个。

正态性: 数据服从正态分布。

线性: 通过数据点的最佳拟合线是一条直线,而不是一条曲线或某种分组因子。

多重线性回归的公式如下:

统计学习 | 多重线性回归 Multiple Linear Regression
  • Y = 因变量的预测值
  • B0 = y 截距(当所有其他参数都设置为0时 y 的值)
  • E = 模型误差(也就是我们对 y 的估计有多少变化)

为了找到每个独立变量的最佳拟合线,多个线性回归计算出以下三个因素:

  • 导致整体模型误差最小的回归系数。
  • 整体模型的 t- 统计量。
  • 相关的 p 值(如果独立变量和因变量之间没有关系的零假设为真,t 统计量偶然出现的可能性有多大)。

然后计算模型中各回归系数的 t- 统计量和 p- 值。

如何利用R进行多重线性回归

具体操作及代码见链接:Multiple Linear Regression | A Quick and Simple Guide (scribbr.com)

解读及展示结果

要查看模型的结果,可以使用 summary ()函数:

这个函数从线性模型中提取最重要的参数,并将它们放入一个表中,如下所示:

统计学习 | 多重线性回归 Multiple Linear Regression

估计列是估计效果,也称为回归系数或 r2值。表中的估计数字告诉我们,骑车上班每增加1% ,心脏病发病率就会下降0.2% ,而吸烟每增加1% ,心脏病发病率就会上升17% 。

Error 列显示估计值的标准误差。这个数字显示了回归系数估计值周围有多大的变化。

T 值列显示测试统计信息。除非另有说明,线性回归中使用的测试统计量是双边 t 检验的 t 值。测试统计数据越大,结果出现偶然性的可能性就越小。

Pr (> | t |)列显示 p 值。这表明,如果参数没有影响的原假设为真,那么计算出的 t- 值出现的可能性有多大。

因为这些数值非常低(在这两种情况下都是 p < 0.001) ,我们可以拒绝零假设,得出骑车上班和吸烟都可能影响心脏病发病率的结论。

对统计学数据的解读在我们对500个城镇的调查中,我们发现骑自行车上班的频率与心脏病的发病频率、吸烟的频率和心脏病的发病频率之间存在显著的关系(p < 0.001)。具体来说,我们发现骑自行车的人每增加1% ,心脏病发病率就下降0.2% (± 0.0014) ,吸烟的人每增加1% ,心脏病发病率就上升0.178% (± 0.0035)。

利用多重线性回归控制混淆

由于多元线性回归分析允许我们估计一个给定的自变量和结果之间的关联,并保持所有其他变量不变,它提供了一种方法来调整(或考虑)潜在的混杂变量已包括在模型中。

假设我们有一个危险因素或暴露变量,我们用 x1表示(例如,X1 = 肥胖或 X1 = 治疗) ,用一个结果或因变量表示 y。我们可以把风险因素(自变量)和因变量联系起来,估计出一个简单线性回归方程式,如下:

统计学习 | 多重线性回归 Multiple Linear Regression

其中 b1是估计的回归系数,量化了风险因素和结果之间的关联。

假设我们现在想要评估第三个变量(例如,年龄)是否是一个混淆因素。我们用 x 2表示潜在的混淆因素,然后按照以下方式估计多重线性回归方程:

统计学习 | 多重线性回归 Multiple Linear Regression

在多线性回归方程中,b 1是估计的回归系数,它量化了风险因子 x 1和结果之间的关联,并根据 x 2进行了调整(b 2是估计的回归系数,量化了潜在的混淆因素和结果之间的关联)。如前所述,一些研究人员在对潜在的混淆因素进行调整后,通过评估与风险因素(即相关度量)相关的回归系数的变化程度来评估混淆。在这个例子中,我们比较了简单线性回归模型中的 b 1和多线性回归模型中的 b 1。作为经验法则,如果来自简单线性回归模型的回归系数变化超过10% ,那么 x2就被认为是一个混淆因素。

一旦一个变量被确定为混杂因素,我们就可以使用多重线性回归分析来估计风险因素和针对混杂因素的结果调整之间的关联。与风险因素相关的回归系数的显著性检验可用于评估在考虑一个或多个混杂变量后,风险因素之间的关联是否具有统计显著性。

具体实例

Obesity, Brain Volume, and White Matter Microstructure at MRI: A Cross-sectional UK Biobank Study
【背景】肥胖与加速认知能力衰退和痴呆的风险增加有关,这暗示了潜在的神经生物学变化。
【目的】在普通人群中进行MRI检查,研究肥胖与大脑结构( 整体和区域脑容量,以及脑白质微结构)之间的关系。
【材料与方法】2014年3月一-2018年1月, 在英国生物银行的前瞻性观察性研究中,有12087名参与者[52.8% (6 381/12 087名)为女性;年龄45~ 76岁,平均62岁]进行了3.0 T多参数脑MRI检查[即三维T扩散张量成像(DTI) ]。 通过体阻抗法测定总体脂百分比。体积测量包括大脑体积、灰质体积、白质体积、皮质下灰质结构体积和区域皮质体积。采用DTI的各向异性分数(FA) 和平均扩散率(MD)对整体和具体区域微观结构进行评价。以全身脂肪量为决定因素,以脑体积为结果变量进行线性回归分析,效果评估以标准化β值表示。
【结果】平均体质量指数(BMI) 为(26.6+4.4) kg/m2,男性平均全身脂肪量为(24.4+5.5) %,女性平均全身脂肪量为(35.5+6.5) %。在男性中,除杏仁核体积外,全身脂肪量与所有皮质下灰质体积(丘脑、尾状核、壳核、苍白球、海马和伏隔核)负相关。在女性中,全身脂肪量与苍白球体积呈负相关。在女性和男性中,全身脂肪量与整体FA呈正相关(女性与男性,全身脂肪量每变化一个标准差,整体FA值变化为0.05与0.07标准差; P

统计学习 | 多重线性回归 Multiple Linear Regression

统计学习 | 多重线性回归 Multiple Linear Regression

统计学习 | 多重线性回归 Multiple Linear Regression

参考资料

  1. Multiple Linear Regression | A Quick and Simple Guide (scribbr.com)
  2. Multiple Linear Regression Analysis (bu.edu)
  3. Obesity, Brain Volume, and White Matter Microstructure at MRI: A Cross-sectional UK Biobank Study | Radiology (rsna.org)

Original: https://blog.csdn.net/Pengjy11/article/details/123602345
Author: Peng_jy_
Title: 统计学习 | 多重线性回归 Multiple Linear Regression

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/634800/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球