梯度下降法求解多元线性回归 — NumPy

2023年8月24日上午1:20 • Python • 阅读 58

梯度下降法求解多元线性回归问题

使用梯度下降法求解一元线性回归的方法也可以被推广到求解多元线性回归问题。

这是多元线性回归的模型：

其中的 X 和 W 都是 m+1 维的向量。

下图为它的损失函数：

它也是一个高维空间中的凸函数，因此也可以使用梯度下降法来求解。
下图为它的权值更新算法：

代入偏导数，

可以得到最终的迭代公式：

; 问题描述

依然是房价预测的问题，这是一个二元线性回归问题。

需要注意的是，如果直接使用上图中的数据 x1 和 x2 来训练模型，就会因为面积（x1）值远远大于房间（x2）值而造成在学习过程中占主导，甚至决定性的地位，这显然是不合理的。

那应该怎么解决呢？

这时候应该将各个属性值进行归一化。

归一化

归一化又被称为标准化，是将数据的值限制在一定的范围之内。

在机器学习中，对 所有属性进行归一化处理就是让它们 处于同一个范围、同一个数量级下。这样才能更加的具有合理性。

使用归一化处理后，不仅可以使得模型更快的收敛到最优解，还可以提高学习器的精度。

归一化可以分为线性归一化、线性归一化、非线性映射归一化。

1、线性归一化

线性归一化是对原始数据的线性变换，转换函数如下：

线性归一化实现对原始数据的 等比例缩放。
归一化之后，所有的数据都会被映射到 [0，1] 之间。

这种归一化方法适合于样本数据分布比较均匀，比较集中的情况， 而如果最大值或最小值不稳定，或者和绝大多数数据差距比较大的情况，使用这种方法得到的结果也会不稳定，为了避免这种情况，在实际应用中，可以使用经验常量来代替最大值和最小值。

; 2、标准差归一化

将数据集归一化为 均值为0，方差为1的标准正态分布，转换函数如下：

其中，μ是均值，σ是标准差。
标准差归一化适合于样本近似于正态分布或者最大值和最小值未知的情况，有时最大值和最小值处于孤立点的情况也适用。

3、非线性映射归一化

对原始数据的非线性变换。常用的映射方法有指数、对数和正切等。非线性映射归一化适合于数据分化比较大的情况，也就是有的数据特别大、有的比较小。通过这种非线性映射归一化后，可以使数据变的更加均匀或者有特点。

样本数据的归一化需要根据实际数据的分布情况和特点来决定采用哪种方法。

这里的数据归一化方式选择线性归一化，归一化结果如下：

import numpy as np
import matplotlib.pyplot as plt

第一步：加载数据
area 是商品房面积
area = np.array([137.97, 104.50, 100.00, 124.32, 79.20, 99.00, 124.00, 114.00,
                 106.69, 138.05, 53.75, 46.91, 68.00, 63.02, 81.26, 86.21])  # (16, )

room 是商品房房间数
room = np.array([3, 2, 2, 3, 1, 2, 3, 2,
                 2, 3, 1, 1, 1, 1, 2, 2])

第二步：样本数据归一化 —— 采用线性归一化
x1 是商品房面积归一化后的结果
x1 = (area - area.min()) / (area.max() - area.min())
x2 是商品房房间数归一化后的结果
x2 = (room - room.min()) / (room.max() - room.min())

print(x1)
"""
[0.99912223 0.63188501 0.58251042 0.84935264 0.3542901  0.57153829
 0.84584156 0.73612025 0.65591398 1.         0.07504937 0.

 0.23140224 0.17676103 0.37689269 0.43120474]
 可以看出最大值被归一化为1, 最小值被归一化为 0 。
"""
print(x2)
"""
[1.  0.5 0.5 1.  0.  0.5 1.  0.5 0.5 1.  0.  0.  0.  0.  0.5 0.5]
"""

代码实现

第一步：加载样本数据集，area，room，price

第二步：数据处理 — 样本数据归一化，X，Y

第三步：设置超参数学习率，迭代次数

第四步：设置模型参数初值 W0 (w0、w1、w2)

第五步：训练模型 W
这里的训练模型的公式如下：

第六步：结果可视化

import numpy as np
import matplotlib.pyplot as plt

设置字体
plt.rcParams['font.sans-serif'] = ['SimHei']

第一步：加载数据
area 是商品房面积
area = np.array([137.97, 104.50, 100.00, 124.32, 79.20, 99.00, 124.00, 114.00,
                 106.69, 138.05, 53.75, 46.91, 68.00, 63.02, 81.26, 86.21])  # (16, )

room 是商品房房间数
room = np.array([3, 2, 2, 3, 1, 2, 3, 2,
                 2, 3, 1, 1, 1, 1, 2, 2])

price 是样本房价
price = np.array([145.00, 110.00, 93.00, 116.00, 65.32, 104.00, 118.00, 91.00,
                  62.00, 133.00, 51.00, 45.00, 78.50, 69.65, 75.69, 95.30])

第二步：数据处理
num = len(area)

创建元素值全为1的一维数组 x0
x0 = np.ones(num)
x1 是商品房面积归一化后的结果
x1 = (area - area.min()) / (area.max() - area.min())
x2 是商品房房间数归一化后的结果
x2 = (room - room.min()) / (room.max() - room.min())

将 x0、x1、x2堆叠为形状为 (16, 3) 的二维数组
X = np.stack((x0, x1, x2), axis=1)

将 price 转换为形状为 (16, 1) 的二维数组
Y = price.reshape(-1, 1)

第三步：设置超参数 学习率，迭代次数
learn_rate = 0.0001
itar = 1000000  # 迭代次数为1000000次

display_step = 50000  # 每循环50000次显示一次训练结果

第四步：设置模型参数的初始值
np.random.seed(612)
W = np.random.randn(3, 1)

第五步：训练模型 W
mse = []  # 这是个Python列表, 用来保存每次迭代后的损失值

下面使用 for 循环来实现迭代
循环变量从 0 开始, 到 101 结束,循环 101 次, 为了描述方便, 以后就说迭代 100 次
同样, 当 i 等于 10 时, 我们就说第十次迭代
for i in range(0, itar + 1):
    # 首先计算损失函数对 W 的偏导数
    dL_dW = np.matmul(np.transpose(X), np.matmul(X, W)-Y)
    # 然后使用迭代公式更新 W
    W = W - learn_rate*dL_dW

    # 我们希望能够观察到每次迭代的结果, 判断是否收敛或者什么时候开始收敛
    # 因此需要使用每次迭代后的 W 来计算损失, 并且把它显示出来

    # 这里的 X 形状为 (16, 3), W 形状为 (3, 1), 得到 Y_PRED 的形状为 (16, 1)
    Y_PRED = np.matmul(X, W)  # 使用当前这次循环得到的W, 计算所有样本的房价的估计值
    Loss = np.mean(np.square(Y - Y_PRED)) / 2  # 使用房价的估计值和实际值计算均方误差
    mse.append(Loss)  # 把得到的均方误差加入列表 mse

    if i % display_step == 0:
        print("i：%i, Loss：%f" % (i, mse[i]))
"""
        i：0, Loss：4368.213908
        i：500000, Loss：79.871073
        i：1000000, Loss：79.871073
"""
print(W)
"""
[[51.39029673]
[48.74950958]
[28.66300756]]
"""

第六步：样本数据可视化

创建Figure对象
plt.figure(figsize=(10, 6))

plt.subplot(1, 2, 1)
plt.plot(range(0, 5000), mse[0:5000])
plt.xlabel('Iteration', color='r', fontsize=14)
plt.ylabel('Loss', color='r', fontsize=14)
plt.title("前5000次迭代的损失值变化曲线图", fontsize=14)

plt.subplot(1, 2, 2)
Y_PRED = Y_PRED.reshape(-1)
plt.plot(price, color="red", marker='o', label="销售记录")
plt.plot(Y_PRED, color="blue", marker='.', label="预测房价")
plt.xlabel('Sample', color='r', fontsize=14)
plt.ylabel('Price', color='r', fontsize=14)
plt.title("估计值 & 标签值", fontsize=14)
plt.legend(loc="upper right")

plt.suptitle("梯度下降法求解多元线性回归", fontsize=18)

将创建好的图像显示出来
plt.show()

运行结果如下：

Original: https://blog.csdn.net/xuechanba/article/details/124454804
Author: xuechanba
Title: 梯度下降法求解多元线性回归 — NumPy

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/758083/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python学习——matplotlib库——条形图（横版和竖版）

from matplotlib import pyplot as plt from matplotlib import font_manager 各种图表的显示内容和效果，都是有一…

Python 2023年9月3日
0034
pandas中如何选取某几列_【python】pandas中 loc & iloc用法及区别

在刚学习Python的时候，对于loc、iloc、at、iat、ix有点混乱，没有进行过整理和梳理。所以针对这几种用法进行一次案例的整理。本次优先整理loc和iloc SQL中的s…

Python 2023年8月16日
0041
【宝藏级】全网最全的Seaborn详细教程-数据分析必备手册（2万字总结）

数据分析必备手册-Seaborn详细教程 seaborn库 * 安装：官方文档：关系绘图 * relplot – 1. 基本使用： 2. 添加hue参数： 3. 添…

Python 2023年8月1日
0056
JWT token 相关配置 (全局配置身份认证重写Authenticate方法)

文章目录 * – 一. jwt 全局配置 – 1.settings配置 – 二. 配置jwt过期时间自定义返回的json数据 – …

Python 2023年8月3日
0033
pandas之数据的合并与分组

文章目录 * – 数据合并之merge – 数据合并之join – 示例 – 分组 – 索引和复合索引 – …

Python 2023年8月6日
0043
Python爬虫、数据清洗与可视化-4 – scrapy

新手学习日记1：简介Scrapy 是一个基于Twisted （用Python实现的基于事件驱动的网络引擎框架）的异步处理框架，是纯Python 实现的爬虫框架，其架构清晰，模块之间…

Python 2023年10月3日
0026
金融数据挖掘—科学计算语言—基础篇2

金融数据挖掘—科学计算语言—基础篇2 一、Python基础二、Numpy科学计算包（一）数组的创建与运算数组是一个同一类型的数据的有限类集合列表是由一系列按特定顺序排列的元素…

Python 2023年8月26日
0037
【2008NOIP普及组】T3. 传球游戏试题解析

【2008NOIP普及组】T3. 传球游戏试题解析时间限制: 1000 ms 内存限制: 65536 KB【题目描述】上体育课的时候，小蛮的老师经常带着同学们一起做游戏。这次，老…

Python 2023年9月29日
0028
vue.js和flask项目之间的数据传递

基础准备 flask获取前端提交数据的方式导入request包， from flask import Flask,request, request.form.get(&#8216…

Python 2023年8月11日
0049
Python实战小案例：如何读取文件并统计文件中的数值

哈喽兄弟们，今天浅浅的实战一下，如何用Python计算文件内最大数与最小数平均值~ ; 一、实战场景给定一个包含整数的文件，每行数字小于 200，统计文件中的最大最小值和平均值，…

Python 2023年11月2日
0042
pyspark–写入数据

pyspark写入数据官网通用的写数据方式如下： DataFrameWriter.save(path=None, format=None, mode=None, partitio…

Python 2023年11月7日
0035
SpringBoot入门一：基础知识（环境搭建、注解说明、创建对象方法、注入方式、集成jsp/Thymeleaf、logback日志、全局热部署、文件上传/下载、拦截器、自动配置原理等）

SpringBoot设计目的是用来简化Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，SpringB…

Python 2023年6月10日
0052
pandas 预处理

1.清除空值如果我们要删除包含空字段的行，可以使用 dropna() 方法DataFrame.dropna(axis=0, how=’any’, thre…

Python 2023年8月18日
0046
Jupyter的使用

Jupyter的使用一、开启Jupyter Notebook * – + 1、新建文件夹，名字随意（这里我新建的空文件夹为zaa），然后复制此文件夹的路径。 2 、…

Python 2023年9月27日
0082
pythonweb数据可视化_基于Python实现交互式数据可视化的工具(用于Web)

作者：Alark Joshi 翻译：陈雨琳校对：吴金笛本文2200字，建议阅读8分钟。本文将介绍实现数据可视化的软件包。这学期(2018学年春季学期)我教授了一门关于数据可…

Python 2023年9月6日
0036
python绘图颜色深浅代表数值_Python数据可视化绘图工具matplotlib浅试

数据可视化 matplotlib模块的使用 1、柱形图 1、应用场景：定性数据的分布展示说明：柱状图主要是应用在可视化数据的应用场景中例如：一个班级中学生的籍贯分布，下载一…

Python 2023年9月4日
0042

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30