一元线性回归模型（保姆级）

2023年6月18日下午5:53 • 人工智能 • 阅读 85

提示：本文是基于最小二乘法对数据进行拟合。

一、模型建立的流程

; 二、模型原理

1.模型

我们建立一元回归模型的形式如下：

y为被解释变量（因变量），x为解释变量（自变量）；

和

是未知参数，称

为回归常数，

为回归系数，

表示其他随机因素的影响（不可观测的随机误差）。我们一般假设满足

一般我们是不考虑这个随机误差的影响的即建立如下的一元回归模型：

这是我们平常建立的一元回归模型。

2、参数和的估计

使用最小二乘法对参数进行估计。最小二乘法就是考虑观测值

与其回归值

（由于x是已知的数据，即是常数，求期望为原值）的离差越小，最小二乘法就是寻找参数两个参数的估计是

和

，使离平方和达到极小，即是参数的估计值。

于是变得到回归拟合值：

残差表达式为

由于残差有正有负，不方便考虑残差的大小，我们就对残差取平方和

于是为了使残差平方和最小，转化成二元变量求极值问题分别对参数求偏导得到

（公式太麻烦了，直接放截图了，嗷嗷~）

接着是化简方程如下

三、回归方程的显著性检验

1、t检验

t检验用于检验回归系数的显著性。原假设是

，备择假设为

，如果检验显著，则回归方程结果显著。

给定显著性水平

，双侧检验的临界值为

,当

时，拒绝原假设

所以因变量y对自变量x的一元线性回归成立；当

时，不拒绝原假设

，所以因变量y对自变量x的一元线性回归不成立。

2、F检验

F检验是根据平方和分解式直接对回归效果检验回归方程的显著性。

F检验统计量为：

3、相关系数的显著检验

使用变量x与y之间的相关系数来检验回归方程的显著性：

r的值趋向于1，证明回归方程拟合显著。

四、残差分析

1、绘画残差图分析

这里就没画例子参考的残差图了（bushi）。原理就是分别求出每个点的残差，然后将残差点的位置画在图上。

2、改进残差

一般在残差分析中，认为超过

或者

的残差为异常值。

用这两种方法对残差的异常值进行判断。

五、回归系数的区间估计

首先是对

的区间估计，

同理即可求出。

六、预测和控制

1、单值预测

2、区间预测

（1）、因变量新值的区间估计

求出预测值的均值和方差。

接着就是得到预测值的分布

当样本数量N较大时，置信区间可以为

（2）、因变量新值平均值的区间预测

到这里，一元回归模型的理论就差不多就这些了。接下来就是使用代码实现整个过程了，这里我使用了Python实现。

七、代码实现

1、导入库

导入了numpy进行矩阵运算，statmodels是进行模型拟合的库，matplotlib是画图库，pandas是读取文件和矩阵的相关计算，patsy也是模型拟合的库，scipy是pearson系数的计算库。

代码如下（示例）：

import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
import pandas as pd
from patsy import dmatrices
from statsmodels.stats.api import anova_lm
import scipy

2.读入数据

代码如下（示例）：

df = pd.read_csv('data2.1.csv')

3、计算相关系数

代码如下（示例）：

#计算相关系数
cor_matrix = df.corr(method='pearson')  # 使用皮尔逊系数计算列与列的相关性

4、模型拟合

这里有两种方法，只要学会用其中一种就可以了，当然，两种都学会也Ok。

代码如下（示例）：

#==========第一种建模方式======================================
y,X = dmatrices('y~x', data=df, return_type = 'dataframe')
#print(X)
mod = sm.OLS(y,X)
result = mod.fit()

#==========第二种建模方式（类R语言方式）======================================
result = smf.ols('y~x',data=df).fit()

print(result.summary())

通过summary可以得到一元回归的参数情况和显著性情况。

5、画图观察预测的效果

代码如下（示例）：

fig, ax = plt.subplots(figsize=(8,6))
ax.plot(df['x'], df['y'], 'o', label='data')
ax.plot(df['x'], y_fitted, 'r-',label='OLS')
ax.legend(loc='best')
plt.show()

6、方差分析和相关系数检验

代码如下（示例）：

#方差分析
table = anova_lm(result, typ=2)

print(table)

print(result.scale)

#pearson相关系数检验
cortest = scipy.stats.pearsonr(df['x'],df['y'])
print(cortest)

7、残差计算

代码如下（示例）：

#计算残差
eres = result.resid
print(eres)

fig, ax = plt.subplots(figsize=(8,6))
ax.plot(eres, 'o', label='resid')
plt.show()

8、改进残差

代码如下（示例）：

#标准化残差
stand_eres = eres/np.sqrt(result.scale)#eres.std()
print(stand_eres)

#学生化残差
infl = result.get_influence()
studentied_eres = infl.summary_table()
studentied_eres = infl.resid_studentized_internal

print(studentied_eres)

9、置信区间

代码如下（示例）：

##置信区间

confinterval = result.conf_int(alpha=0.05, cols=None)
print(confinterval)

10、新值的区间预测

代码如下（示例）：

#=========预测新值======================================================
#单值
predictvalues = result.predict(pd.DataFrame({'x': [3.5]}))
print(predictvalues)

#区间
predictions = result.get_prediction(pd.DataFrame({'x': [3.5]}))
print(predictions.summary_frame(alpha=0.05))

全部代码

import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
import pandas as pd
from patsy import dmatrices
from statsmodels.stats.api import anova_lm
import scipy

df = pd.read_csv('data2.1.csv')

计算相关系数
cor_matrix = df.corr(method='pearson')  # 使用皮尔逊系数计算列与列的相关性

result = smf.ols('y~x', data=df).fit()

#查看参数
print(result.summary())

方差分析
table = anova_lm(result, typ=2)

pearson相关系数检验
cortest = scipy.stats.pearsonr(df['x'], df['y'])
print(cortest)

计算残差
eres = result.resid

标准化残差
stand_eres = eres / np.sqrt(result.scale)  # eres.std()
print(stand_eres)

学生化残差
infl = result.get_influence()
studentied_eres = infl.resid_studentized_internal
print(studentied_eres)

##置信区间
confinterval = result.conf_int(alpha=0.05, cols=None)
print(confinterval)

单值
predictvalues = result.predict(pd.DataFrame({'x': [3.5]}))
print(predictvalues)

区间
predictions = result.get_prediction(pd.DataFrame({'x': [3.5]}))
print(predictions.summary_frame(alpha=0.05))

总结

具体的实现过程代码就已经结束了，有什么不懂的可以评论区交流啦。

看完不要忘了点个赞和关注一下,爱心bui~bui~。

Original: https://blog.csdn.net/DL11007/article/details/126982286
Author: 数据小师弟
Title: 一元线性回归模型（保姆级）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635943/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

cartographer建图，重定位及发布消息结构为nav_msgs::Odometry的odom话题

完整功能包（包含carto建图，重定位以及odom话题发布）上传至https://download.csdn.net/download/zhaohaowu/33647981众所周知…

人工智能 2023年6月11日
00228
Solving environment: failed with initial frozen solve. Retrying with flexible solve.

error1: Solving environment: failed with initial frozen solve. Retrying with flexible solv…

人工智能 2023年5月23日
00121
为什么回归直线过平均值点_看图说话之线性回归算法

一.从线性回归的故事说起相信大家都听过著名的博物学家，达尔文的大名，而今天这个故事的主人公就是他的表弟高尔顿。高尔顿是一名生理学家，在1995年的时候，他研究了1078堆父子的…

人工智能 2023年6月18日
00110
Linux环境下zookeeper的安装教程（超详细！！）

1.什么是zookeeper 2.为什么要使用zookeeper 3.zookeeper的安装与配置 3.1.环境准备 3.2.下载安装 3.3 配置 3.3.启动测试 3.4.退…

人工智能 2023年7月29日
0084
4大类11种常见的时间序列预测方法总结和代码示例

本篇文章将总结时间序列预测方法，并将所有方法分类介绍并提供相应的python代码示例，以下是本文将要介绍的方法列表： 1、使用平滑技术进行时间序列预测指数平滑 Holt-Wint…

人工智能 2023年6月26日
0079
OPTICS聚类以及python实现

一、DBSCAN的不足 DBSCAN 是基于密度聚类的代表性方法，可以识别任意形状的簇和噪音点。它的两个输入参数Eps和MinPts是全局参数，使得DBSCAN不能识别不同密度的簇…

人工智能 2023年5月31日
0079
常用数据的处理

系列文章目录第一章利用pandas模块处理数据目录系列文章目录前言一、pandas介绍二、使用步骤 1.引入库 2.读入数据 3.DataFrame常用函数前言文…

人工智能 2023年7月8日
0086
第三代人工智能即时寻优，在垃圾发电领域的应用

工业AI智能化控制系统RIDIC system垃圾发电用解决方案V5.6 技术咨询微信添加：dclyzihan 目录一、综述 4二、RIDIC system平台三、助力垃圾发电企业…

人工智能 2023年7月14日
00107
2021“华为杯”第十八届研究生数学建模D题

数学建模已结束数日，今晚刚好闲来无事，决定对这次数学建模进行一下总结。题目下发以后，和队友经过一番商讨，便决定在B和D之间选择一个，原因也很简单，本身研究方向是NLP，机器学习和…

人工智能 2023年6月16日
0078
使用tushare获取股票数据,发现经济系统中的典型事实

Tushare ID：500750 * – @[TOC](Tushare ID：500750)* 前言* 一、tushare是什么？* 二、回报率的厚尾分布特性* &#…

人工智能 2023年6月11日
00144
回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出

回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出目录 * – 回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出 &…

人工智能 2023年6月18日
0067
qlib从入门到精通（一）

1、安装： pip install pyqlib pyqlib依赖的包比较大，它的定位不只是一个量化开发包了，而是一个量化平台。从数据存储，指标计算，量化模型，回测，模型，结果分…

人工智能 2023年7月28日
0076
第四章使用 matplotlib 绘制散点图

系列文章目录第一章使用 matplotlib 绘制折线图第二章使用 matplotlib 绘制条形图第三章使用 matplotlib 绘制直方图第四章使用 matplot…

人工智能 2023年7月5日
00108
支持向量机

文章目录一、Support Vector Machine 二、距离的计算三、数据标签定义四、优化的目标五、目标函数六、拉格朗日乘子法七、SVM求解八、soft-mar…

人工智能 2023年7月3日
00110
设置pandas显示行数_Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以…

人工智能 2023年7月8日
0061
回归分析（三）—— 多元线性回归

主要内容回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析三、多元线性回归在实际经济问题中，一个变量往往受到多个变量的影响。例如，家庭消费支出，除了受家庭可支配收入的…

人工智能 2023年6月15日
00323

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一元线性回归模型（保姆级）

1.模型

2、参数 <img decoding="async" alt="一元线性回归模型（保姆级）" src="https://latex.csdn.net/eq?%5Cbeta%20_%7B0%7D"> 和 <img decoding="async" alt="一元线性回归模型（保姆级）" src="https://latex.csdn.net/eq?%5Cbeta_%7B1%7D"> 的估计

1、t检验

2、F检验

3、相关系数的显著检验

1、绘画残差图分析

2、改进残差

1、单值预测

2、区间预测

（1）、因变量新值的区间估计

（2）、因变量新值平均值的区间预测

2.读入数据

3、计算相关系数

4、模型拟合

5、画图观察预测的效果

6、方差分析和相关系数检验

7、残差计算

8、改进残差

9、置信区间

10、新值的区间预测

大家都在看

2、参数和的估计