统计学习 | 多重线性回归 Multiple Linear Regression

2023年6月18日上午11:35 • 人工智能 • 阅读 153

概念

回归模型通过对观测数据拟合一条直线来描述变量之间的关系。回归估计一个因变量如何随着自变量的变化而变化。

多重线性回归是用来估计两个或多个自变量和一个因变量之间的关系。

!!!此处注意区分

1）简单（simple）线性回归：1个自变量，1个因变量

2）多因素（multivariable）或多重（multiple）线性回归：多个自变量，1个因变量

3）多元或多变量（multivariate）线性回归：1个自变量，多个因变量

方差齐性(同方差) : 我们的预测误差的大小在自变量的值之间没有显著的变化。

观察的独立性: 数据集中的观察数据采用统计学上有效的方法收集，变量之间没有隐藏的关系。

在多线性回归模型中，有可能一些自变量实际上是相互关联的，所以在开发回归模型之前检查这些是很重要的。如果两个自变量的相关性太高(r2 > 0.6) ，那么在回归模型中只能使用其中的一个。

正态性: 数据服从正态分布。

线性: 通过数据点的最佳拟合线是一条直线，而不是一条曲线或某种分组因子。

多重线性回归的公式如下:

统计学习 | 多重线性回归 Multiple Linear Regression

Y = 因变量的预测值
B0 = y 截距(当所有其他参数都设置为0时 y 的值)
E = 模型误差(也就是我们对 y 的估计有多少变化)

为了找到每个独立变量的最佳拟合线，多个线性回归计算出以下三个因素:

导致整体模型误差最小的回归系数。
整体模型的 t- 统计量。
相关的 p 值(如果独立变量和因变量之间没有关系的零假设为真，t 统计量偶然出现的可能性有多大)。

然后计算模型中各回归系数的 t- 统计量和 p- 值。

如何利用R进行多重线性回归

具体操作及代码见链接：Multiple Linear Regression | A Quick and Simple Guide (scribbr.com)

解读及展示结果

要查看模型的结果，可以使用 summary ()函数:

这个函数从线性模型中提取最重要的参数，并将它们放入一个表中，如下所示:

估计列是估计效果，也称为回归系数或 r2值。表中的估计数字告诉我们，骑车上班每增加1% ，心脏病发病率就会下降0.2% ，而吸烟每增加1% ，心脏病发病率就会上升17% 。

Error 列显示估计值的标准误差。这个数字显示了回归系数估计值周围有多大的变化。

T 值列显示测试统计信息。除非另有说明，线性回归中使用的测试统计量是双边 t 检验的 t 值。测试统计数据越大，结果出现偶然性的可能性就越小。

Pr (> | t |)列显示 p 值。这表明，如果参数没有影响的原假设为真，那么计算出的 t- 值出现的可能性有多大。

因为这些数值非常低(在这两种情况下都是 p < 0.001) ，我们可以拒绝零假设，得出骑车上班和吸烟都可能影响心脏病发病率的结论。

对统计学数据的解读在我们对500个城镇的调查中，我们发现骑自行车上班的频率与心脏病的发病频率、吸烟的频率和心脏病的发病频率之间存在显著的关系(p < 0.001)。具体来说，我们发现骑自行车的人每增加1% ，心脏病发病率就下降0.2% (± 0.0014) ，吸烟的人每增加1% ，心脏病发病率就上升0.178% (± 0.0035)。

利用多重线性回归控制混淆

由于多元线性回归分析允许我们估计一个给定的自变量和结果之间的关联，并保持所有其他变量不变，它提供了一种方法来调整(或考虑)潜在的混杂变量已包括在模型中。

假设我们有一个危险因素或暴露变量，我们用 x1表示(例如，X1 = 肥胖或 X1 = 治疗) ，用一个结果或因变量表示 y。我们可以把风险因素(自变量)和因变量联系起来，估计出一个简单线性回归方程式，如下:

其中 b1是估计的回归系数，量化了风险因素和结果之间的关联。

假设我们现在想要评估第三个变量(例如，年龄)是否是一个混淆因素。我们用 x 2表示潜在的混淆因素，然后按照以下方式估计多重线性回归方程:

在多线性回归方程中，b 1是估计的回归系数，它量化了风险因子 x 1和结果之间的关联，并根据 x 2进行了调整(b 2是估计的回归系数，量化了潜在的混淆因素和结果之间的关联)。如前所述，一些研究人员在对潜在的混淆因素进行调整后，通过评估与风险因素(即相关度量)相关的回归系数的变化程度来评估混淆。在这个例子中，我们比较了简单线性回归模型中的 b 1和多线性回归模型中的 b 1。作为经验法则，如果来自简单线性回归模型的回归系数变化超过10% ，那么 x2就被认为是一个混淆因素。

一旦一个变量被确定为混杂因素，我们就可以使用多重线性回归分析来估计风险因素和针对混杂因素的结果调整之间的关联。与风险因素相关的回归系数的显著性检验可用于评估在考虑一个或多个混杂变量后，风险因素之间的关联是否具有统计显著性。

具体实例

Obesity, Brain Volume, and White Matter Microstructure at MRI: A Cross-sectional UK Biobank Study
【背景】肥胖与加速认知能力衰退和痴呆的风险增加有关，这暗示了潜在的神经生物学变化。
【目的】在普通人群中进行MRI检查,研究肥胖与大脑结构( 整体和区域脑容量，以及脑白质微结构)之间的关系。
【材料与方法】2014年3月一-2018年1月，在英国生物银行的前瞻性观察性研究中,有12087名参与者[52.8% (6 381/12 087名)为女性;年龄45~ 76岁，平均62岁]进行了3.0 T多参数脑MRI检查[即三维T扩散张量成像(DTI) ]。通过体阻抗法测定总体脂百分比。体积测量包括大脑体积、灰质体积、白质体积、皮质下灰质结构体积和区域皮质体积。采用DTI的各向异性分数(FA) 和平均扩散率(MD)对整体和具体区域微观结构进行评价。以全身脂肪量为决定因素，以脑体积为结果变量进行线性回归分析，效果评估以标准化β值表示。
【结果】平均体质量指数(BMI) 为(26.6+4.4) kg/m2,男性平均全身脂肪量为(24.4+5.5) %，女性平均全身脂肪量为(35.5+6.5) %。在男性中，除杏仁核体积外，全身脂肪量与所有皮质下灰质体积(丘脑、尾状核、壳核、苍白球、海马和伏隔核)负相关。在女性中,全身脂肪量与苍白球体积呈负相关。在女性和男性中，全身脂肪量与整体FA呈正相关(女性与男性，全身脂肪量每变化一个标准差，整体FA值变化为0.05与0.07标准差; P

参考资料

Original: https://blog.csdn.net/Pengjy11/article/details/123602345
Author: Peng_jy_
Title: 统计学习 | 多重线性回归 Multiple Linear Regression

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634800/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV学习笔记

Lesson1:环境配置与搭建完成VS2017的安装完成OpenCV的安装完成环境的搭建 Lesson2:图片的读取和显示代码解释引入opencv包： #include …

人工智能 2023年7月20日
0050
如何使用GoldWave软件将文字转换为语音

如何使用GoldWave软件将文字转换为语音关键词：GoldWave软件、文字转语音 GoldWave：sourl.cn/UCnEDu GoldWave是一款专业数字音频处理的软…

人工智能 2023年5月25日
0098
yolov5 OpenVINO2022版 windows部署实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月20日
0054
ubuntu20.04安装rocm教程，AMD深度学习，6800xt配置pytorch、CUDA（已更新）本地安装torch

官方文档对应torch下载地址 ROCm安装配置踩坑遇到的问题安装ubuntu系统更新内核，但是在win和Ubuntu双系统的前提下（可能）导致内核更新不成功,我安装成功的内…

人工智能 2023年7月4日
00117
ICCV 2021 | High-Fidelity Pluralistic Image Completion with Transformers 阅读笔记（部分翻译）

High-Fidelity Pluralistic Image Completion with Transformers 作者：Ziyu Wan 1 ^1 1 Jingbo Zha…

人工智能 2023年5月28日
00139
第二周生活随笔——记录平凡生活中的唯一瞬间

目录 2.1 走向街头，记录生活中的感动瞬间 2.2 补充基础技术知识：认识曝光 2.3 补充基础技术知识：认识ISO 2.4 补充基础技术知识：测光模式的选择照片分享单元测验…

人工智能 2023年6月29日
0078
深度学习实战：基于CNN的猫狗图像识别

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文记录了第一个基于卷积神经网络在图像识别领域的应用：猫狗图像识别。主要内容包含：数据处理神经网络…

人工智能 2023年7月5日
0067
Python+大数据-数据处理与分析-pandas快速入门

Python+大数据-数据处理与分析-pandas快速入门 1.Pandas快速入门 1.1DataFrame和Series介绍 1） DataFrame 用来处理结构化数据（SQ…

人工智能 2023年7月8日
0073
更简单的掩码图像建模框架SimMIM介绍和PyTorch代码实现

MAE发布以来，各种使用掩码技术的自监督掩码模型在其基础之上有了更进一步的研究。在本文中我们将探索一篇和MAE同期的工作：SimMIM: A Simple Framework fo…

人工智能 2023年7月13日
0080
【Pandas】DataFrame只复制其中的某一行为多次

import pandas as pd df = pd.DataFrame(data={ ‘id’: [‘1’, ‘2’, ‘3’], ‘col1’ : [ 5, 6, 7], ‘…

人工智能 2023年7月8日
0087
基于深度学习的目标检测系统（一）

初探目标检测今天开始记录我的基于深度学习的目标检测学习利用Python实现IoU的计算，代码如下： def iou(boxA, boxB): # 计算重合部分的上、下、左、右4…

人工智能 2023年7月10日
0056
利用LSTM实现预测时间序列（股票预测）

目录 1. 作者介绍 2. tushare 简介 3. LSTM简介 * 3.1 循环神经网络 (Recurrent Neural Networks) 3.2 LSTM网络 &#8…

人工智能 2023年6月22日
0082
哈工大信息安全实验 XSS跨站脚本攻击原理与实践

XX大学XX学院《网络攻击与防御》实验报告实验报告撰写要求实验操作是教学过程中理论联系实际的重要环节，而实验报告的撰写又是知识系统化的吸收和升华过程，因此，实验报告应该体现完整…

人工智能 2023年6月4日
00134
Anaconda 修改默认虚拟环境安装位置

项目场景：使用Anaconda Prompt创建虚拟环境问题描述保存虚拟环境的默认地址是C盘，而我想将下载的虚拟环境保存到我自定义的位置。解决方案： 1、使用 conda …

人工智能 2023年6月26日
0095
LiJian-kaldi搭建在线语音识别系统资料汇总

感谢视频制作者李健和视频上传者北洋村的热心分享原视频在：https://www.bilibili.com/video/BV19a4y1h7cB大家记得三连～说明 Kaldi的…

人工智能 2023年5月25日
0073
1143 汉诺塔

题目描述 undefined 汉诺塔问题是这样的：有3根柱子A,B,C，其中A柱上有64个盘子，盘子大小不等，大的在下，小的在上。要求把这64个盘子从A柱移到C柱上，在移动过程中可…

人工智能 2023年6月27日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31