[机器学习与scikit-learn-28]：算法-回归-评估指标详解

2023年6月18日下午3:19 • 人工智能 • 阅读 69

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/123546987

第1章最小二乘的误差公式

最小二乘法也可以叫做最小平方和，其目的就是通过最小化该误差的平方和，使得拟合对象或拟合函数无限接近目标对象。

这个函数也可以用于机器学习的loss损失函数。

第2章残差和与MAE

2.1 残差与残差和

最小二乘是误差函数，是一个表达式，是一种表达误差的方法。

在评估指标里，定义了专门的名词来表达误差。

残差在数理统计中是指实际观察值与估计值（拟合值）之间的差。

“残差”蕴含了有关模型基本假设的重要信息。

如果回归模型正确的话，我们可以将残差看作误差的观测值。

它应符合模型的假设条件，且具有误差的一些性质。

利用残差所提供的信息，来考察模型假设的合理性及数据的可靠性称为残差分析。

残差：Yi – Y的绝对值

残差和：所有样本的点的残差的 绝对值和。

2.2 绝对均值误差MAE (L1误差）

MAE （Mean absolute error）：均值绝对误差或绝对均值误差。

MAE是目标值和预测值之差的绝对值之和的平均。

其只衡量了预测值误差的平均模长，而不考虑方向，

第3章残差平方和与MSE

SSE（Sum of Sqaured Error，误差平方和）

RSS（Residual Sum of Squares 残差平方和）

它们都表示所有样本的残差的和。

这与最小二乘的表达式一致的。

RSS残差平方和，它的本质是我们的所有预测值与所有真实值之间的差异的累计和。

它是从第一种最小二乘的角度来评估我们回归的效果的，

所以RSS既是我们的损失函数，也是我们回归类模型的模型评估指标之一。

但是，RSS有着致命的缺点：

（1）它是一个无界的和，可以无限地大

样本数越多，该值越大。

（2）不同样本数量之间无法通过RSS进行比较

这是因为RSS是所有样本的残差的累计和

（3）无最小值边界

我们只知道，我们想要求解最小的RSS，从RSS的公式来看，它不能为负，所以RSS越接近0越好，但我们没有一个概念，究竟多小才算好，多接近0才算好？且随着样本数的增加，该最小值也在增加。

3.2 均方误差MSE（L2误差）

为了应对上述状况，经常使用RSS的变体，均方误差MSE（mean squared error）来衡量我们的预测值和真实值的差异。

MSE（mean squared error）：均方误差 = RSS/样本数，是平均残差值。

均方误差，本质是在RSS的基础上除以了样本总量，得到了每个样本量上的平均误差。

有了平均误差，我们就可以将平均误差和我们的标签的取值范围在一起比较，以此获得一个较为可靠的评估依据。

有了平均误差MSE，误差的比较就与样本总数无关了。

3.3 交叉验证评估指标

第4章范数与误差

（1）范数的定义

（2）误差与范数

MAE与残差和：属于一范数。

MSE与RSS： 严格意义上讲，还不完全属于二范数，因为二范数不需要平方，且RSS和MSE都没有开根号，粗略讲，可以认为MSE与RSS属于L2范数。

第5章 R^2指标

5.1 MSE和MAE不足

（1）平均误差屏蔽了局部的偏差过大

MSE和MAE属于平均误差，平均误差屏蔽了局部的偏差过大的情形。

上述图示展示，平均误差可能很小，但在误差过大区，误差太大。

MSE和MAE是累加和，是加法运算，误差大和误差小的值，是同等权重，没有放大，也没有缩小，且采用累加后之后的平均，比如样本数是1000，即使误差较大，经过平均后，误差值会被缩小1000倍，因此最终的误差值，无法体现这种局部异常。

因此，我们需要一种方式，把这种 局部异常进行 放大。

（2）不同样本+不同模型之间无法比较

MSE和MAE都是平均指标都属于绝对误差，而不是相对误差, 这些误差值并不一定小于1，是可以大于1的，它适应于相同样本，不同模型之间的比较。无法适用于不同样本，不同于模型之间的比较。因此，我们需要一种相对误差来表达模型的预测效果

5.2 决定系数R2指标

分子：反应的是模型的预测值与样本标签值之间的误差。

分母：反应的是模型的预测值与均值之间的误差，反应的发散程度。

根据 R-Squared 的取值，来判断模型的好坏，其取值范围为[0,1]：

随着样本数量的增加，分子分母都同时增加，因此，他们是相对指标，不是绝对指标。

一般来说，R-Squared 越大，R越接近1，表示模型拟合效果越好。

一般来说，R-Squared 越小， R越接近0，表示模型拟合效果越差。

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/123546987

Original: https://blog.csdn.net/HiWangWenBing/article/details/123546987
Author: 文火冰糖的硅基工坊
Title: [机器学习与scikit-learn-28]：算法-回归-评估指标详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635606/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人工智能基础：机器学习常见的算法介绍

目录监督学习 1.1 分类 1.2 回归无监督学习 2.1 聚类 2.2 降维 3、半监督学习 4、迁移学习 5、强化学习（ReinforcementLearning， RL）…

人工智能 2023年6月26日
0079
JS原型对象

引入：我们先用构造函数来创建一个对象 function Student(name,age,gender){ this.name = name; this.age = age; th…

人工智能 2023年6月26日
0086
在AI算法部署过程中，如何处理模型的更新和迭代问题

问题背景在AI算法部署过程中，模型的更新和迭代是一个关键的问题。随着数据的变化和模型的性能提升，我们需要不断地更新模型参数，以保证模型的准确性和性能。介绍在模型的更新和迭代中…

人工智能 2024年1月4日
0087
[BEV系列]BEVFormer: Learning Bird’s-Eye-ViewRepresentation from Multi-Camera Images viaSpatiotemporal

论文链接：https://arxiv.org/pdf/2203.17270v1.pdf代码链接：https://github.com/zhiqi-li/BEVFormer 摘要（A…

人工智能 2023年7月9日
0088
深度学习框架如何处理大规模数据集和高维度的特征

Introduction 在深度学习中处理大规模数据集和高维度特征是一个重要的问题。许多深度学习框架具有专门的工具和算法来处理这些情况。在本文中，我们将以一个口语化的方式详细解决这…

人工智能 2024年1月1日
0042
一文看懂流程挖掘是如何工作的？

随着数字化转型的日益深化，越来越多的工作需要通过IT系统来完成。这使得企业的绝大多数工作都被完整地记录下来，并以事件日志的形式存储在各个系统中，成为各大企业宝贵的数字资产之一。每个…

人工智能 2023年7月18日
00106
人脸识别 (1 – 1) OpenCV+FaceNet实现

参考以下英文教程： OpenCV Face Recognition – PyImageSearch 一、所需代码安装 1.1、OpenCV OpenCV Tutoria…

人工智能 2023年7月19日
0050
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年6月23日
00155
电信保温杯笔记——NLP经典论文：TextRNN

电信保温杯笔记——NLP经典论文：TextRNN 论文介绍文章部分翻译 * Abstract 2 Recurrent Neural Network for Specific-T…

人工智能 2023年5月31日
0073
python pandas dataframe 常用数据处理操作

新建dataframe对象 data = {} df = pd.DataFrame(data = data) 表格导入dataframe对象 df = pd.read_exel(‘…

人工智能 2023年7月7日
0079
使用BERT+BiGRU对京东手机评论进行情感分析

1. 设置参数，使模型结果具有可重现性（非必须）确定性操作通常比非确定性操作慢，因此您的模型的单次运行性能可能会降低。但是，确定性可以通过促进实验、调试和回归测试来节省开发时间。…

人工智能 2023年6月30日
0076
【物体检测快速入门系列 | 01 】基于Tensorflow2.x Object Detection API构建自定义物体检测器

这是机器未来的第1篇文章原文首发地址:https://blog.csdn.net/RobotFutures/article/details/124745966 CSDN话题挑战赛…

人工智能 2023年6月23日
0064
【安信可ESP32-A1S音频开发板①】Linux开发环境搭建，带你快速入门

文章目录 * – 一、前言 – 二、环境搭建 – + * 2.1 获取sdk * 2.2 下载工具链 * 2.3 设置SDK路径和编译环境的变量…

人工智能 2023年5月25日
0085
降维算法实战项目（1）—使用PCA对二维数据降维（Python代码+数据集）

一、PCA算法 PCA算法为主成分分析算法，在数据集中找到”主成分”，可以用于压缩数据维度。我们将首先通过一个2D数据集进行实验，以获得关于PCA如何工作…

人工智能 2023年6月15日
00197
MATLAB示例——图像中圆的识别与判断

目录 * – 一、基本介绍 – 二、程序代码 – + 2.1 加载图像 + 2.2 灰度化与二值化 + 2.3 形态学处理 + 2.4 寻找边界…

人工智能 2023年5月26日
0098
玩机搞机—-安卓全机型修改开机动画步骤教程

前面解析了下开机第一屏的一些常识，今天来说说开机动画方面。基本所有的安卓机型都有开机动画从安卓4.0或者更早截止到目前的安卓13版本。安卓开机顺序简单的来说就是开机第一屏&#8…

人工智能 2023年6月29日
00132

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[机器学习与scikit-learn-28]：算法-回归-评估指标详解

第1章 最小二乘的误差公式

第2章 残差和与MAE

2.1 残差与 残差和

2.2 绝对均值误差MAE (L1误差）

第3章 残差平方和与MSE

3.2 均方误差MSE（L2误差）

3.3 交叉验证评估指标

第4章 范数与误差

第5章 R^2指标

5.1 MSE和MAE不足

5.2 决定系数R2指标

大家都在看

第1章最小二乘的误差公式

第2章残差和与MAE

2.1 残差与残差和

第3章残差平方和与MSE

第4章范数与误差