什么是线性回归，它的基本假设是什么

2024年1月6日上午6:13 • 人工智能 • 阅读 39

什么是线性回归？

线性回归是一种统计学和机器学习中常用的算法，用于建立一个自变量（输入变量）和因变量（输出变量）之间的线性关系模型。它的目标是通过寻找最佳拟合直线来预测或解释数据。线性回归可以应用于各种问题领域，如经济学、金融学、医学等。

基本假设

线性回归有以下基本假设：
1. 线性性：自变量和因变量之间存在一个线性关系。
2. 独立性：自变量之间相互独立，即不存在多重共线性。
3. 齐次性方差：残差在各自变量的取值上具有相同的方差。
4. 正态性：残差服从正态分布。

算法原理

线性回归的目标是找到一条直线，使得所有数据点到该直线的距离之和最小化。这个距离可以用残差的平方和来衡量，称为最小二乘法。通过最小二乘法，可以得到线性回归的参数估计。

公式推导

假设我们有m个样本，每个样本有n个自变量，表示为 X = [x1, x2, …, xn]^T (n维列向量)。对于每个样本，对应的因变量表示为 y，表示为 y = [y1, y2, …, ym]^T (m维列向量)。

我们的目标是找到一个权重向量 W = [w0, w1, …, wn]^T，使得预测值 y_hat 和实际值 y 的平方差最小。其中，预测值 y_hat 表示为 y_hat = XW。

使用最小二乘法，我们的目标是最小化损失函数 J(W)，定义为：

$$J(W) = \frac{1}{2m} \sum_{i=1}^{m}(y_i – y_i^{hat})^2$$

为了最小化损失函数 J(W)，我们需要对 W 求导，并将导数置为零，得到 W 的最佳估计值。

我们首先定义 X 的扩展矩阵 X’，其中包含一列用于表示截距。X’ 的维度为 m 行 (样本数)，n+1 列 (自变量数+1)，定义为：

$$X’ = [1, X]$$

其中的1表示截距，为了计算的方便。

我们的目标是找到 W’ = [w0, w1, …, wn]，使得预测值 y_hat 和实际值 y 的平方差最小。其中，预测值 y_hat 表示为 y_hat = X’W’。

将 J(W) 对 W’ 求导并置零，可以得到最佳估计值 W’ 的闭式解 (closed-form solution)，表示为：

$$W’ = (X’^T X’)^{-1} X’^T y$$

使用这个最佳估计值 W’，我们可以对新的样本进行预测。

计算步骤

准备数据集：准备包含自变量和因变量的数据集。
特征缩放：对自变量进行特征缩放，以防止某些变量的值过大对回归结果产生过大的影响。
扩展矩阵：将自变量矩阵 X 扩展为 X’，添加一列全为1的列。
计算最佳估计值：计算最佳估计值 W’ = (X’^T X’)^{-1} X’^T y。
预测：使用最佳估计值进行预测，计算预测值 y_hat = X’W’。
模型评估：评估模型的性能，可以使用均方差 (mean squared error) 等指标进行评估。

Python代码示例

下面是一个使用 Python 进行线性回归的示例，使用虚拟数据集生成样本并进行回归分析。

import numpy as np
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(0)
m = 100 # 样本数
X = np.linspace(0, 10, m).reshape(m, 1)
y = 2*X + np.random.randn(m, 1)

# 特征缩放
X_mean = np.mean(X)
X_std = np.std(X)
X_scaled = (X - X_mean) / X_std

# 扩展矩阵
X_extended = np.concatenate((np.ones((m, 1)), X_scaled), axis=1)

# 最佳估计值
W = np.linalg.inv(X_extended.T.dot(X_extended)).dot(X_extended.T).dot(y)

# 预测
y_hat = X_extended.dot(W)

# 绘制数据和拟合直线
plt.scatter(X, y, label='Data')
plt.plot(X, y_hat, color='red', label='Linear Regression')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

代码细节解释

生成虚拟数据集：使用 np.linspace 生成 m 个样本点，表示为 X。然后，根据线性关系 y = 2*X + 噪声 生成对应的因变量 y。这里的噪声使用 np.random.randn 生成服从正态分布的随机数。
特征缩放：计算自变量 X 的均值和标准差，并进行特征缩放操作，得到 X_scaled。
扩展矩阵：使用 np.concatenate 将一列全为1的列添加到 X_scaled 头部，得到 X_extended。
最佳估计值：使用 np.linalg.inv 计算 X_extended 的逆矩阵，然后使用矩阵相乘的方式计算最佳估计值 W。
预测：使用 X_extended 和最佳估计值 W 计算预测值 y_hat。
绘图：使用 plt.scatter 绘制原始数据点，使用 plt.plot 绘制拟合直线，使用 plt.xlabel 和 plt.ylabel 设置坐标轴标签，使用 plt.legend 显示图例，并使用 plt.show 显示图形。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824205/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

八行代码实现图像分类-神一样的Mathematica

引言图像分类一直是神经网络的重要应用，热度居高不下，但是其相对复杂的代码量以及复杂的调试让很多小白望而却步。其实，Mathematica里面内置的 Classify功能可以极其…

人工智能 2023年7月2日
0073
R语言逻辑运算符（Logical Operators，大于、小于、等于、不等于、与或非、是否为真）、R语言逻辑运算符（Logical Operators）实战示例

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0083
【excel】向左匹配之vlookup、index+match、lookup

比如说现在要解决一个需求，如下图：在右边表中，通过查找值（D列），在左边表中匹配到对应的目标值（A列）。这里分析几个方法。 ; 方法一：vlookup ：将从右往左的需求转换成从左…

人工智能 2023年7月16日
00151
Joint entity recognition and relation extraction as a multi-head selection problem

; Abstract 实体识别和关系抽取比较依赖NLP工具（词性标记POS、依赖关系等），本文提出一种不需要人工或工具提取特征并且能同时进行实体和关系等候区的模型，即使用CRF抽取…

人工智能 2023年6月10日
0059
Python 最简单的实例：手机通讯录

通讯录是记录了联系人姓名和联系方式的名录，手机通讯录是最常见的通讯录之一，人们可以在通讯录中通过姓名查看相关联系人的联系方式、邮箱、地址等信息，也可以在其中新增联系人，或修改、删除…

人工智能 2023年7月4日
0090
基于MATLAB的数字图像处理-图像进行灰度化

资源下载地址：https://download.csdn.net/download/sheziqiong/85620385 一、要求 https://pan.baidu.com/s…

人工智能 2023年6月18日
0091
图像分类竞赛涨分小技巧——以智能硬件语音控制的时频图分类挑战赛为例

图像分类竞赛涨分小技巧一. 前言二. 上分小技巧 * 2.1 数据分割 2.2 数据增强 – 2.2.1 随机擦除(Random Erase) 2.2.2 混类增强…

人工智能 2023年7月16日
0088
华为机试 – We Are A Team

题目描述总共有 n 个人在机房，每个人有一个标号（1 Original: https://blog.csdn.net/qfc_128220/article/details/127…

人工智能 2023年6月29日
0053
HCIP之BGP的路由聚合

BGP的路由聚合（类似路由汇总）自动聚合手工聚合 BGP的路由聚合（类似路由汇总） 1.抓取流量 [R1]ip ip-prefix aa permit 172.16.0.0 2…

人工智能 2023年6月27日
0049
使用Yolov7遇到的一些问题的解决方法

1.CUDA内存不足我在使用yolov7中遇到了一些问题，通过查询相关的资料和网站将其一个一个解决了。首先遇到的第一个问题就是cuda的内存不足，报错内容如下所示： Runtim…

人工智能 2023年7月20日
0041
【语义分割】U-Net++

论文传送门 https://arxiv.org/pdf/1807.10165.pdf U-Net网络缺陷 U-Net 网络对病变或异常的医学图像缺乏更高的精准性。由于 U-Net …

人工智能 2023年7月13日
0056
【CV】第 3 章：使用 OpenCV 和 CNN 进行面部检测

注意级联分类器前面描述的每个强分类器形成一个级联，其中每个弱分类器代表一个阶段，以快速去除负子窗口并保留正子窗口。来自第一个分类器的肯定响应意味着已经检测到面部区域（例如，眼睛区…

人工智能 2023年6月29日
0092
相见恨晚，Git这些功能太好用了

程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-Store 作为一名开发者，想必绝大多数同学都无法绕开Git。作为一款工具，我认为…

人工智能 2023年7月31日
0072
python 中的 filter() 函数——用于过滤序列，过滤掉不符合条件的元素，返回符合条件的元素组成新列表。

filter()函数的简介和语法： filter()函数用于过滤序列，过滤掉不符合条件的元素，返回符合条件的元素组成新列表。 filter()语法如下： filter(functi…

人工智能 2023年7月4日
0074
【毕业设计】深度学习猫狗分类 – python opencv cnn

文章目录 0 前言 1 课题背景 2 使用CNN进行猫狗分类 3 数据集处理 4 神经网络的编写 5 Tensorflow计算图的构建 6 模型的训练和测试 7 预测效果 8 最后…

人工智能 2023年7月20日
0038
Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

导语 “慢品人间烟火色闲观人间岁月长” 🌙 遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得🌙。星光月夜烟花皆归你，我也归你。关于烟花🎇…

人工智能 2023年7月30日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30