【机器学习笔记1】一元线性回归模型及预测

2023年6月15日下午9:26 • 人工智能 • 阅读 96

前言：本系列为机器学习的学习笔记，参考教程链接：
# (强推|双字)2022吴恩达机器学习Deeplearning.ai课程
观点不一定完全正确，欢迎指出错误的地方。

什么是线性回归模型？

回归分析是研究自变量与因变量之间数量变化关系的一种分析方法，它主要是通过因变量

与影响它的自变量

（i=1,2,3…）之间的回归模型，衡量自变量

对因变量

的影响能力的，进而可以用来预测因变量【机器学习笔记1】一元线性回归模型及预测

的发展趋势。线性回归模型指因变量和自变量呈直线型关系的模型，是回归分析中最常用且最简单的方法，线性归回模型又分为一元线性回归模型和多元回归模型。

一元线性回归模型

一元线性回归模型即自变量只有一个的线性回归模型。

问题引入：

已知上图数据集，其中，X为自变量，Y为因变量，请预测当X为5000时Y的取值。

问题解析：

因为自变量只有一个，即让你模拟一个

,使该函数与上图自变量与应变量的变化趋势尽量满足，【机器学习笔记1】一元线性回归模型及预测

即一元线性回归函数，再用计算出的回归函数去预测值即可。难点在于，这里的w和b都是未知数，我们要做的就是推断出最合适的w和b。

代价函数（损失函数）：

如何判断w和b是否合适，我们引入了代价函数。代价函数用于判断 整体来看，每个点的实际Y值与估计Y值的差距大小。

这里先随便画一条线。

令模拟出来的自变量对应应变量的值为

,即

,则代价函数为：

其中，m为训练集样例数，第一个点下标为0。这里除以2是方便后续计算。

代价函数的图像

我们先将

简化为

,那么

此时

的图像为一个凸函数：

对应的

模拟情况：

当我们将

简化为

,此时

的图像也是一个凸函数，我们姑且借用

的图像，不过变量变为了

对应的

模拟情况：

现在将

和

合在一起，

便是一个三维碗装图像：

注：图中的和并不对应上面的例子，只是大致图像！

代价函数值越小，说明模拟值与实际值差距越小，则w，b越合适，回归函数模拟的越好。所以，当代价函数值最小时，w和b最合适。

于是问题转化为了：求

和

使得

能取到极小值。

为什么不是最小而是极小值？

这与之后要用到的算法（梯度下降法）有关，梯度下降法只能求到极小值。不过梯度下降法常用于求凸函数的极小值，而凸函数只有一个极小值，所以通常求得的是最小值。这里举个非凸函数的例子，此时用梯度下降法不一定能求得最优解。

梯度下降算法

梯度下降算法并不只用于求解线性回归问题。

梯度算法在课程中被描述为：假设你站在一个山坡上，你想最快下降到你四周最低的山谷。

即选择一个基点，以四周斜率绝对值最大的方向下降，直到下降到极小值点（此时斜率为0）停止。我们认为这个极小值点对应的w和b即为所求，一般我们选择

作为基点，即w和b开始为

，不过实际上基点怎么选都可以。

梯度下降算法公式（对于一元线性回归模型）

重复以下行为直到收敛：

其中，

被称为学习率。之后会讨论学习率

的选择。

注意：和应该同时更新！（会在代码块说明）

求偏导：

(之前代价函数除个2就是为了这里化简)

学习率a的选择

如果a很小，那么每一步都走的很小，收敛过程就会很慢。

如果a很大，

可能不会每次迭代都下降，可能错过最佳点，甚至导致发散。

关于学习率a的选择有许多种方法，这里不做专门讨论（其实是还没学到），姑且采用网上查到的一种简单的方法：在运行梯度下降法的时候会尝试一系列学习率的取值：…0.001, 0.003，0.01, 0.03，0.1, 0.3，1….尽量以三倍增长，直到找到一个合适的学习率。

关于梯度下降每一步的变化

梯度下降每一步并不是相等的，因为每一次迭代时，偏导数都会不断变化。在学习率选择合适的情况下，大概可以得到类似下图的每一步梯度变化图像。x轴为迭代次数，y轴为梯度。

可以看到最开始梯度很大，到后来慢慢接近于0。

补充：

这里解释下为什么非凸函数中找到的不一定是最优解：

我们选择1和2分别作为起点，可能到达两个极小值点，我们无法判断找到的极小值点是否是全局最小值。当然凸函数只有一个极值点，所以对于凸函数，不存在这个问题。

代码部分 – 案例实现

数据

2104.000000,1600.000000,2400.000000,1416.000000,3000.000000,1985.000000,1534.000000,1427.000000,1380.000000,1494.000000,1940.000000,2000.000000,1890.000000,4478.000000,1268.000000,2300.000000,1320.000000,1236.000000,2609.000000,3031.000000,1767.000000,1888.000000,1604.000000,1962.000000,3890.000000,1100.000000,1458.000000,2526.000000,2200.000000,2637.000000,1839.000000,1000.000000,2040.000000,3137.000000,1811.000000,1437.000000,1239.000000,2132.000000,4215.000000,2162.000000,1664.000000,2238.000000,2567.000000,1200.000000,852.000000,1852.000000,1203.000000
399.899994,329.899994,369.000000,232.000000,539.900024,299.899994,314.899994,198.998993,212.000000,242.500000,239.998993,347.000000,329.998993,699.900024,259.899994,449.899994,299.899994,199.899994,499.997986,599.000000,252.899994,255.000000,242.899994,259.899994,573.900024,249.899994,464.500000,469.000000,475.000000,299.899994,349.899994,169.899994,314.899994,579.900024,285.899994,249.899994,229.899994,345.000000,549.000000,287.000000,368.500000,329.899994,314.000000,299.000000,179.899994,299.899994,239.500000

导入数据并绘制初始图

import numpy as np
import matplotlib.pyplot as plt

data = np.loadtxt('test.txt',dtype=np.float32,delimiter=',')
x_train = data[0]
y_train = data[1]
plt.scatter(x_train,y_train,marker='o',c='r') # marker 将样式设置为o，c将颜色设置为红色
plt.ylabel('y')
plt.xlabel('x')
plt.show()

梯度计算函数

对应公式：

梯度计算函数
def compute_gradient(x,y,w,b):
    '''
    参数:
        x: x训练集
        y: y训练集
        w,b: 模型参数
    返回值:
        sum_dw: 代价函数对w的偏导数
        sum_db: 代价函数对d的偏导数
    '''

    m = x.shape[0] # 训练样例个数
    sum_dw = 0
    sum_db = 0

    for i in range(m):
        f_wb = w*x[i]+b
        dw_i = (f_wb - y[i])*x[i]
        db_i = f_wb - y[i]
        sum_dw += dw_i
        sum_db += db_i

    sum_dw = sum_dw / m
    sum_db = sum_db / m
    return sum_dw,sum_db

梯度迭代函数

对应公式：

重复以下行为直到收敛：

注：代码中是让他迭代一定次数而并非以收敛为结束判断条件。这是因为当迭代次数足够大，也无限接近收敛了。

梯度迭代函数(计算w和b)
def gradient_descent(x,y,init_w,init_b,alpha,num_iters):
    '''
    参数说明:
        x: x训练集
        y: y训练集
        init_w: w初始值
        init_b: b初始值
        alpha: 学习率
        num_iters: 迭代次数
    return:
        w,b:最终找到的w和b
    '''
    w = init_w
    b = init_b

    for i in range(num_iters):
        # 产生梯度
        sum_dw,sum_db = compute_gradient(x, y, w, b)
        # 同时更新w和b
        w = w - alpha*sum_dw
        b = b - alpha*sum_db

    return w,b

代价函数

对应公式：

这里只用于检验结果。

 # 代价函数
def compute_cost(x, y, w, b):
    m = x.shape[0]
    cost = 0

    for i in range(m):
        f_wb = w * x[i] + b
        cost = cost + (f_wb - y[i]) ** 2
    total_cost = 1 / (2 * m) * cost

    return total_cost

绘图和预测

if __name__ == '__main__':

    data = np.loadtxt('test.txt', dtype=np.float32, delimiter=',')
    x_train = data[0]
    y_train = data[1]
    plt.scatter(x_train, y_train, marker='o', c='r')  # marker 将样式设置为o，c将颜色设置为红色
    plt.ylabel('y')
    plt.xlabel('x')
    # plt.show()

    init_m = 0
    init_b = 0
    # 一些梯度下降的设置
    iterations = 100000
    tmp_alpha = 0.000000095
    w,b = gradient_descent(x_train,y_train,init_m,init_b,tmp_alpha,iterations)
    print(f"线性回归函数为:f(x) = {w}x + {b}")
    print(f"此时代价函数为:{compute_cost(x_train,y_train,w,b)}")
    print(f"预测当x = 5000是，y的值为:{w*5000+b}")
    x = np.linspace(0,5000,100)
    y = w*x+b
    plt.plot(x,y)
    plt.show()

在设置学习率alpha时，如果大了会报错，过小模拟出来的图像差距过大，这里尝试了许多次选了一个自认为比较合适的值。

结果

Original: https://blog.csdn.net/qq_52466006/article/details/126037505
Author: Twilight Sparkle.
Title: 【机器学习笔记1】一元线性回归模型及预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617607/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python 使用前馈神经网络处理IrIs数据集（BP）

本文章包含以下内容：数据: lris数据集; 模型: 前馈神经网络; 激活函数: Logistic 损失函数: 交叉嫡损失; 优化器: 梯度下降法; 评价指标 :准确率。输出层…

人工智能 2023年7月28日
0055
URL组成及对应的编程变量

URL 组成 📋格式 [协议]😕/ <域名><!–域名–>: [端&#x53E…

人工智能 2023年6月29日
0095
PointNet++上采样（Feature Propagation）

PointNet++在处理分割任务的时候需要将下采样的点还原到与输入相同的点数，便于做每个点的预测。但是在论文中只给了一个简单的描述和公式，不是很好理解，因此在这里记录一下我的理解…

人工智能 2023年7月13日
0076
经典注意力机制

2. 注意力机制的正式引入前边我们通过机器翻译任务介绍了Attention机制的整体计算。但是还有点小尾巴没有展开，就是那个注意力打分函数的计算，现在我们将来讨论这个事情。但在讲…

人工智能 2023年6月4日
0087
在ROS中实现darknet_ros(YOLO V3)检测以及训练自己的数据集

1.darknet_ros介绍 2.darknet_ros原始项目编译测试 3.yolov3训练自己的数据集 4.使用自己训练好的数据集 ————————————————版权声明：…

人工智能 2023年7月14日
0070
【实践】随机森林算法参数解释及调优（含Python代码）

前言上篇文章梳理了随机森林的各理论要点，本文首先详细解释了随机森林类的参数含义，并基于该类讲解了参数择优过程。随机森林类库包含了RandomForestClassifer类， …

人工智能 2023年7月4日
00119
matlab智能算法之遗传算法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月31日
0065
ARM64架构下安装PyTorch、TensorFlow以及python第三方库出现的错误

OSError: Could not find library geos_c or load any of its variants [‘libgeos_c.so.1’, ‘lib…

人工智能 2023年5月23日
0062
神经网络预测未来人口数量

以 1953 年、1964 年、1982 年、1990 年、2000 年、2010 年和 2020 年进行过的七次全国人口普查总人数为基础，再从国家统计局网站（国家统计局>&…

人工智能 2023年7月13日
0062
Python深度学习12——Keras实现注意力机制(self-attention)中文的文本情感分类（详细注释）

Keras封装性比较高，现在的注意力机制都是用pytorch较为多。但是使用函数API也可以实现，Keras处理文本并且转化为词向量也很方便。本文使用了一个外卖评价的数据集，标签…

人工智能 2023年7月4日
00121
R：optim()函数——回归优化案例分析

目的使用 optim()函数寻找最优的参数值，使残差平方和最小（最小二乘法）。步骤数据 R自带数据集 Indometh，有66行、3列，分别为 Subject（患者编号）， …

人工智能 2023年6月18日
00108
【算法学习】马尔可夫过程及经典例题讲解（含代码实现）

公众号关注 52DATA ，获得更多数据分析知识,感谢支持—> 文章目录 * – 马尔可夫过程 – + 1. 马尔可夫性 + 2. 马尔可夫链 + *…

人工智能 2023年7月6日
0069
一个高效且友好的TensorFlow图神经网络（GNN）框架：tf_geometric

tf_geometric 是一个高效且友好的图神经网络库，同时支持TensorFlow 1.x 和 2.x。受到 usty1s/pytorch_geometric 项目的启发，我…

人工智能 2023年5月26日
0081
数字图像处理位平面切片/压缩

一、位平面切片 1、概述位平面切片是在图像处理中使用的众所周知的技术。在图像压缩中使用位平面切片。位平面切片是将图像转换为多级二值图像。然后使用不同的算法压缩这些二进制图像。使…

人工智能 2023年6月20日
0081
互联网从业必备-历史最全互联网黑话词汇表分享

本资源整理了互联网黑话词汇表，包含”赋能、抓手、闭环、沉淀、打通”等阿里味儿词汇，分享给需要的朋友。资源整理自网络，源地址： https://github…

人工智能 2023年5月31日
00104
DiaKG：用于构建医学知识图谱的糖尿病标注数据集【命名实体识别（NER）和关系抽取（RE）】

原文：DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction 作者: Dejie…

人工智能 2023年6月1日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【机器学习笔记1】一元线性回归模型及预测

问题引入：

问题解析：

代价函数的图像

为什么不是最小而是极小值？

梯度下降算法公式（对于一元线性回归模型）

学习率a的选择

关于梯度下降每一步的变化

补充：

数据

导入数据并绘制初始图

梯度计算函数

梯度迭代函数

代价函数

绘图和预测

结果

大家都在看