机器学习 1-4节机器学习定义模型描述代价函数梯度下降多元线性回归特征缩放法均值归一化判断梯度下降是否收敛学习率多项式回归正规方程

2023年6月18日上午11:15 • 人工智能 • 阅读 83

机器学习

文章目录

机器学习
*
1.2 机器学习定义
1.3-4 机器学习的分类
2.1 模型描述（线性回归模型）
2.2-4 代价函数
2.5-6 梯度下降算法
2.7 线性回归的梯度下降
3 矩阵（涉及线性代数）
4.1 多功能/多元线性回归
4.2 多元梯度下降法
4.3 多元梯度下降法—特征缩放
4.4 多元梯度下降法—学习率
4.5 特征和多项式回归
4.6 正规方程（区别于迭代方法的直接接法）
4.7 正规方程在矩阵不可逆情况下的解决办法（选学）

1.2 机器学习定义

一个适当的学习问题定义如下：

从 经验E_中学习解决 任务T进行 性能度量P，并通过 性能度量P判断 任务T的表现因 经验E_提高，即经验E使得任务T得到性能改善。

在垃圾邮件分类问题中，
经验E指已经标记好是否为垃圾邮件的邮件；
任务T指要求程序划分是否为垃圾邮件并过滤垃圾邮件；
性能P指程序划分的垃圾邮件标签与正确标签对比的正确率；

1.3-4 机器学习的分类

监督学习：从打好标签的数据中学习，即”有正确答案”
无监督学习：给定一个无标签数据集，按不同标准划分成不同的类（聚类思想），即”开放题”
分类：离散值预测输出
回归：连续值预测输出

2.1 模型描述（线性回归模型）

在单变量线性回归问题中：

假设函数：输入x用于输出预测y的函数

机器学习 1-4节机器学习定义模型描述代价函数梯度下降多元线性回归特征缩放法均值归一化判断梯度下降是否收敛学习率多项式回归正规方程

; 2.2-4 代价函数

代价函数：平方误差和代价

为了尽可能地拟合数据，使得h(i)的值接近y(i),就要解决一个代价最小的问题，即使得

最小。( 这里的1/2m是为了开导时刚好抵消平方对优化结果无影响)

如果采用简化后的假设函数

而如果是采用原本的假设函数，则代价函数分布也是呈现类似碗装，如下图

也可以使用等高线图来绘制成下图的样子：

而我们要找到的则是这个”碗”的最深位置，为使得程序找到这个位置对应的参数，引入了梯度下降算法

2.5-6 梯度下降算法

使用梯度下降算法可以用于解决最小化任意函数的问题，也可以解决面临更多参数的问题

（起始点的不同可能会有多个不同的局部最优解）

更新规则数学定义如下图：

注：
:=表示赋值
α为学习率 始终为正决定了下降的速度以多大的速率更新这个参数θ_j
α太小，计算量大，耗时长，但是结果更精确；
α太大，计算量小，跨步大，但结果不够精确，可能跨步越过最低点和找到最低点，导致无法收敛甚至发散的局面；

如下图所示中
在参数已经处于局部最小点的位置，此时导数项为零，梯度下降法将不再更新参数
在跨过最低点的第一个点，此时斜率变大即偏导值变大导致下次更新跨步会更大，会更加远离最低点，数值越来越偏离最低点
而可以发现，越接近局部最低点时，其导数值会变得越来越小，学习率固定，则更新幅度也会也越来越小。
偏导项表示函数沿θ_j方向的变化率
梯度下降要 实现θ_0和θ_1同步更新，必须遵守左侧顺序
右侧的算法也可以解决问题但是不属于梯度下降法

; 2.7 线性回归的梯度下降

（左侧梯度下降法更新参数右侧线性回归的假设函数和平方差代价函数）

在线性回归问题中，其代价函数总是这样一个弓形函数，称为凸函数
该函数只有不存在多个局部最优解，只存在一个全局最优解
因此梯度下降法在解决线性回归问题时能很好适用总能收敛到全局最优解

在梯度下降过程中，下降轨迹垂直于等高线

3 矩阵（涉及线性代数）

矩阵向量矩阵加法乘法单位矩阵矩阵的逆

; 4.1 多功能/多元线性回归

利用矩阵知识可以将多元线性回归的假设函数公式数学表示为如下：

4.2 多元梯度下降法

4.3 多元梯度下降法—特征缩放

不同特征的数值应该在一个相似范围内
在相似范围内执行梯度下降迭代次数会变少，效率会提高
可以对一些特征进行特征缩放或者归一化处理
特征值/（最大值-最小值）

均值归一化：用特征值-均值代替原本的特征值再进行归一化
使用均值归一化是为了让进行处理后的特征值具有为0的平均值
（特征值-均值）/（最大值-最小值）
要注意 x_0不需要减均值，如果按照上述公式运算，则分母为0，无意义，则它不可能有为0的的平均值

; 4.4 多元梯度下降法—学习率

如何保证梯度下降法正常运行？
判断梯度下降算法是否收敛？

可绘制横坐标为迭代次数竖坐标为代价的图像
画出代价函数随迭代次数增加的变化曲线，进而判断是否收敛

另外也可监测迭代过程的顺利进行，及时发现异常
如下左图代价函数随着迭代次数的增加而增加的话，通常是因为学习率α设置过大
右图所示在跨过最低点的第一个点，此时斜率变大即偏导值变大导致下次更新跨步会更大，会更加远离最低点，数值越来越偏离最低点

如出现反复下降又升高的情况也要使用更小的学习率α

可进行自动的收敛测试
若上一步迭代完的代价函数的值小于设定的一个阈值（通常很小），则判断函数已经收敛。但是一般，阈值很难选到一个合适的值

如何选择合适的学习率？
在2.5-6中可知，学习率过大或者过小都影响迭代效率
可对不同的学习率，如0.001,0.003,0.01,0.03,0.1,0.3,1…，分别绘制代价函数随迭代次数增加的变化曲线，选择一个可以使得代价函数快速下降的学习率α

4.5 特征和多项式回归

选择特征
有时候定义一个新特征能更好的解决问题
比如有长和宽，定义新特征长和宽的乘积为面积，能更好的解决预测住房价格问题
多项式回归
使用多项式函数进行多元线性回归有时可以更好的拟合数据
分别使用变量x的一次方，二次方，三次方来充当x_1，x_2，x_3，要注意进行特征缩放

; 4.6 正规方程（区别于迭代方法的直接接法）

正规方程：不同于梯度下降法的层层迭代，一次性求得最优参数解
主要思想是代价函数分别对不同参数求偏导

求解参数可参考西瓜书和南瓜书内容如下

X矩阵是一个m行x(n+1)列 m为样本数 n为特征数+1
Y矩阵是一个mx1的向量

如果使用特征方程法，则不需要进行特征缩放

梯度下降法缺点：需要进行多次选择合适的学习率，需要进行多次迭代优点：在特征变量多的情况下可以运行的很好，通常n上万或更多时优先考虑梯度下降法
正规方程优点：容易实现不需要迭代或其他步骤缺点：在特征变量多的情况下需要求解大矩阵相乘，计算量很大，实现很慢，通常n小于一万时优先考虑正规方程法
根据具体的算法和特征数目大小来选择适合的算法求参

4.7 正规方程在矩阵不可逆情况下的解决办法（选学）

不可逆矩阵又称奇异矩阵或者退化矩阵
不可逆原因：包含了多余特征，两个特征之间有线性关系，或者特征个数过多，m

———————————正在更新中—————————————

Original: https://blog.csdn.net/Ding__d/article/details/125978493
Author: 小丁今天学机器学习了吗
Title: 机器学习 1-4节机器学习定义模型描述代价函数梯度下降多元线性回归特征缩放法均值归一化判断梯度下降是否收敛学习率多项式回归正规方程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634710/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【GPU加速】安装pycuda异常：Failed to build pycuda ERROR: Could not build wheels for pycuda, which is requir

异常：ERROR: Could not build wheels for pycuda, which is required to install pyproject.toml-b…

人工智能 2023年7月6日
0060
复现pointnet++在windows10+pytorch1.x上的分类，来自课程白勇老师的点云处理精讲

1 序言未设置虚拟机和linux环境，使用了anaconda 创建python环境，根据白勇老师的课程进行学习，本人之前未系统学过python，边摸索边学习。后面发现白老师给的代码…

人工智能 2023年7月1日
0048
毕业设计深度学习机器视觉人脸识别系统 – opencv python

文章目录 0 前言 1 机器学习-人脸识别过程 * 人脸检测人脸对其人脸特征向量化人脸识别 2 深度学习-人脸识别过程 * 人脸检测人脸识别 – + Metri…

人工智能 2023年7月20日
0074
几种常用电流互感器采样电路

我们知道，采样电流信号最简单的方法就是通过采样电阻将电流信号转换为电压信号，然后再进行放大、采样即可。直流信号一般都可以这样处理，但是对于电流互感器出来的交流信号，不能直接输入到单…

人工智能 2023年7月27日
0097
Maix Bit、K210超详细资料【保姆级教程】【学习与上手Maix Bit这一篇文章就够啦】

介绍：K210 号称最强单片机，其最突出的特点是可以达到1TOPS算力，这是树莓派4无法比拟的，所以目前用它来做视觉方面的项目是最佳的选择。OpenMV提供了机器视觉功能最核心和最…

人工智能 2023年7月4日
0080
Transformer之十万个为什么？

目录 1、什么是自注意力self-attention？ 2、Transformer为什么需要进行Multi-head Attention? 3、self-attention为什么要…

人工智能 2023年5月28日
0073
断点运行的参数_断点回归设计(RDD)及其在STATA软件的实现过程

计量经济学公众号发布《面板数据门限回归模型及扩展》的文章后，关注公众号的朋友提出门限模型和断点回归有什么区别？门限模型解决的问题是，门限变量达到某一数值后，其对应的解释变量和被解释…

人工智能 2023年6月18日
0072
2022年学习笔记——Simulink实现神经网络在线训练(附Matlab代码）

Matlab自带的神经网络工具包已封装好不便于调试中间参数，且Simulink的工具包也只能用于样本离线的在线训练。本次搭建了一个简单的基于Simulink的8层神经网络在线训练，…

人工智能 2023年7月13日
0073
TensorRT 概述、原理、Linux下安装

聊聊TensorRT 随着传统的高性能计算和新兴的深度学习在百度、京东等大型的互联网企业的普及发展，作为训练和推理载体的GPU也被越来越多的使用。 NVDIA本着让大家能更好地利用…

人工智能 2023年6月28日
00107
条件随机场（CRF）的详细解释

条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。近年来在…

人工智能 2023年5月27日
0081
Python快速刷题网站——牛客网数据分析篇（一）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主 pytho…

人工智能 2023年7月6日
0066
MXNet在算法方面有哪些特点和优势

MXNet在算法方面的特点和优势 MXNet是一个开源的深度学习库，旨在提供高性能、高可扩展性和易用性，以支持各种机器学习任务。它拥有许多特点和优势，使其成为深度学习领域的热门选择…

人工智能 2024年1月1日
0035
ECCV 2022 旷视入选论文亮点解读（上）

近日，欧洲计算机视觉国际会议 ECCV 2022（European Conference on Computer Vision）发布了论文录用结果。本届 ECCV 2022论文有效…

人工智能 2023年6月16日
0061
【OpenCV 例程300篇】01. 图像的读取（cv2.imread）

专栏地址：『youcans 的 OpenCV 例程300篇 – 总目录』01. 图像的读取（cv2.imread）02. 图像的保存（cv2.imwrite）03. 图…

人工智能 2023年5月26日
00159
猿创征文｜Python快速刷题网站——牛客网数据分析篇（十四）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主前言本文…

人工智能 2023年7月14日
0072
PyTorch 详细常用图像数据集加载及预处理（三种）

前言： from torch.utils.data import Dataset from torchvision import datasets from torch.utils…

人工智能 2023年6月15日
00116

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习 1-4节 机器学习定义 模型描述 代价函数 梯度下降 多元线性回归 特征缩放法 均值归一化 判断梯度下降是否收敛 学习率 多项式回归 正规方程