线性回归是一种回归算法，它假设输入特征和输出变量之间存在线性关系。它使用最小二乘法来拟合一个直线或超平面，以便最好地描述输入和输出之间的关系

2023年12月31日上午7:45 • 人工智能 • 阅读 24

介绍

线性回归是一种用于建立输入特征和输出变量之间线性关系的回归算法。通过使用最小二乘法，它寻找一个最佳拟合的直线或超平面，以描述输入特征和输出变量之间的关系。

算法原理

线性回归算法的目标是找到一条直线或超平面，使得输入特征的线性组合与输出变量的值之间的误差最小化。这个误差可以通过最小二乘法来衡量。

最小二乘法是通过最小化残差平方和来找到最佳拟合直线或超平面的方法。残差是预测值与实际值之间的差异，平方和则是为了处理正负差异的问题。

公式推导

首先，我们定义输入特征的向量为X，输出变量的向量为y。线性回归模型可表示为：

$$y = Xw$$

其中，w是一个权重向量，表示输入特征对输出变量的影响程度。

我们的目标是找到一个最佳的w，使得预测值与实际值之间的误差最小化。我们可以定义误差函数（损失函数）为：

$$J(w) = \frac{1}{2m} \sum_{i=1}^{m}(y_i – X_iw)^2$$

这个误差函数是一个凸函数，可以通过求解梯度为零的方程来找到最小值。

为了最小化误差函数，我们需要计算它的梯度，并令其等于零。对误差函数求导，得到梯度为：

$$\nabla J(w) = \frac{1}{m} X^T(Xw – y)$$

令梯度为零，我们可以得到最佳权重向量w的解析解：

$$w = (X^TX)^{-1}X^Ty$$

计算步骤

导入所需库，并加载数据集
准备输入特征向量X和输出变量向量y
添加截距列（全为1）到X矩阵中
计算最佳权重向量w
进行预测
可选：绘制散点图和拟合直线

复杂Python代码示例

首先，我们导入所需的库和模块（numpy和matplotlib）：

import numpy as np
import matplotlib.pyplot as plt

然后，我们定义一个虚拟数据集来演示线性回归算法。假设我们有100个样本点，其中输入特征x是一个在0到1之间的随机数，输出变量y是输入特征加上一个随机噪声的线性函数关系。

np.random.seed(0)
X = np.random.rand(100, 1)
noise = np.random.randn(100, 1) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 0.1
y = 2 + 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X + noise

接下来，我们将添加一个截距列（全为1）到X矩阵中，并计算最佳权重向量w：

X_intercept = np.hstack((np.ones((X.shape[0], 1)), X))
w = np.linalg.inv(X_intercept.T.dot(X_intercept)).dot(X_intercept.T).dot(y)

然后，我们可以使用这个最佳权重向量进行预测：

y_pred = X_intercept.dot(w)

最后，我们可以绘制散点图和拟合直线，以可视化预测结果：

plt.scatter(X, y)
plt.plot(X, y_pred, color='red')
plt.show()

代码细节解释

在代码中的第一个部分，我们使用numpy库的random模块来生成一个服从均匀分布的随机输入特征X。然后，我们添加一个服从标准正态分布的随机噪声项到输出变量y中。

接下来，我们通过使用np.hstack()函数将截距列（全为1）添加到输入特征矩阵X中。这样做是为了在计算最佳权重向量w时考虑到截距项。

然后，我们使用np.linalg.inv()函数计算矩阵的逆，dot()函数进行矩阵乘法，以获得最佳权重向量w的解析解。

最后，我们使用dot()函数将输入特征矩阵X与最佳权重向量w相乘，以获得预测值y_pred。

最后，我们使用plt.scatter()函数绘制散点图，plt.plot()函数绘制拟合直线，并使用plt.show()函数显示这个图形。

这样，我们得到了一个带有散点图和拟合直线的可视化结果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821884/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mediapipe实战——导出身体节点坐标并用TensorFlow搭建LSTM网络来训练自己的手势检测模型再部署到树莓派4B

一、前言在YouTube上看到up主——Nicholas Renotte的相关教程，觉得非常有用。使用他的方法，我训练了能够检测四种手势的模型，在这里和大家分享一下。附上该up主的…

人工智能 2023年5月26日
00100
[Spark][Python]DataFrame的左右连接例子

[Spark][Python]DataFrame的左右连接例子 $ hdfs dfs -cat people.json $ hdfs dfs -cat pcodes.json $p…

人工智能 2023年6月2日
0055
【商业分析 03】疫情之下（20年初IT桔子投融资数据分析）

突如其来的疫情夹杂着鞭炮的响声使得今年的春节格外不同寻常，从吹哨人的哨声到钟南山院士的紧急呼吁，我们一代人注定成为了这次”卫生战役”的亲历者。疫情之下，各行…

人工智能 2023年6月11日
0072
21句话入门机器学习

这是一篇关于机器学习工具包Scikit-learn的入门级读物。对于程序员来说，机器学习的重要性毋庸赘言。也许你还没有开始，也许曾经失败过，都没有关系，你将在这里找到或者重拾自信。…

人工智能 2023年6月30日
0070
【学习日记】基于深度学习的轴承故障诊断学习全过程

四月完成第一篇基于深度学习的故障诊断小论文目前方向，ResNeXt，transformer，ConvNeXt 西储大学数据集，学校自有DDS数据集师兄给的西储大学10分类csv格…

人工智能 2023年7月1日
00106
整理了一份「生产管理数据分析」方案，解决90%的问题

干生产管理却不知道怎么做数据分析？开除警告！钱大把花了，员工也扩招了！别说提高生产效率，赚更多钱了，成本不上升已经是谢天谢地了！那怎么做生产管理呢？其实不难，帆软君这就来和大家…

人工智能 2023年7月17日
0052
使用深度学习进行图像分类

使用深度学习进行图像分类解决任何真实问题的重要一步是获取数据。Kaggle提供了大量不同数据科学问题的竞赛。我们将挑选一个2014年提出的问题，然后使用这个问题测试本章的深度学习…

人工智能 2023年7月22日
0051
Mobile-Unet

用Mobile-Unet网络来进行肺结节图像分割。该方法为了兼顾识别精度和计算效率，采用轻量型MobileNetV3网络作为主干网络，以实现深层特征提取，结合Unet网络来提…

人工智能 2023年7月13日
0099
yolov7使用onnx推理（带&不带NMS）

官方代码： GitHub – WongKinYiu/yolov7: Implementation of paper – YOLOv7: Trainable …

人工智能 2023年7月27日
0064
opencv 阈值处理(python)

阈值处理 * – + * 阈值处理 * – threshold函数 – + 二值化阈值处理（cv2.THRESH_BINARY） + 反二值化阈…

人工智能 2023年6月20日
0070
面经｜缺失值填补的7种方法（使用场景+Python代码）

新专栏《数据挖掘（分析）面经》第一篇：缺失值处理方法对于从事数据相关工作的小伙伴，面试的时候经常会被问到如何进行缺失值/异常值的处理，本文来梳理一下填补缺失值的7种方法。示例…

人工智能 2023年7月6日
00103
一文搞定vim，从安装到入门到精通，助你成功入门vim

一文搞定vim，从安装到入门到精通 NO.1 闲聊 NO.2 安装（不是重点！觉得这部分讲的不清楚可以去找一篇win下安装vim的文章来看，然后跳去NO.3接着看） NO3. 文章…

人工智能 2023年6月27日
0079
【笔记】PyTorch快速入门：数据准备工作

Tensors Tensors贯穿PyTorch始终和多维数组很相似，一个特点是可以硬件加速有很多方式直接给值 data = [[1,2],[3,4]] x_data = t…

人工智能 2023年6月4日
0080
解决PMML namespace URI httpwww.dmg.orgPMML-4_4 is not supported

使用pmml的方式跨平台部署机器学习模型时，在java中加载模型，出现了该错误原因：java的jar包版本与PMML文件的版本不相符，jar包的版本过低无法解析PMML文件。如果…

人工智能 2023年6月6日
0072
关于yolov5的一些说明（txt文件、训练结果分析等）

一、yolo中txt文件的说明：二、yolo跑视频、图片文件的格式：三、yolov5训练结果不好的原因： 1. 欠拟合：在训练集上表现很差，测试集上表现也很差的现象可能是欠拟…

人工智能 2023年6月23日
0062
paddlepaddle实现十二生肖的分类之数据的预处理(一)

数据集说明数据集一共包含3个目录 train、 valid和 test，每个目录都包含了12生肖(类别)的图片，通过下面的链接可以直接下载数据集数据下载地址：下载地址项目地址：…

人工智能 2023年7月2日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31