机器学习常见评价指标

2023年6月16日上午12:07 • 人工智能 • 阅读 110

机器学习常见评价指标

0 引言

\qquad在建模的时候，不论是一般机器学习还是深度学习，都要有评价指标进行模型效果的衡量，评价指标是对于一个模型效果的数值型量化。一般来说，评价指标分为分类问题和回归问题，下面就分别介绍两类问题的评价指标。

1 分类问题常见评价指标

1.1 基础知识

分类问题中，又可以分为二分类和多分类问题：

二分类问题：accuracy、precision、recall、F1-score、AUC、ROC曲线
多分类问题：accuracy、宏平均、微平均、F1-score

在介绍各评价指标的计算方法之前，还要介绍一下TP(True Positive, 真阳性)、TN(True Negative, 真阴性)、FP(False Positive, 假阳性)、FN(False Negative, 假阴性)

FP 表示将实际标签为负的样本判断为正的样本数量或者比例；
FN 表示将实际标签为正的样本判断为负的样本数量或者比例；
TN 表示将实际标签为负的样本判断为负的样本数量或者比例。

有时候很容易记混，所以我自己有个记忆方法：第一个字母代表是否判断正确，第二个字母代表样本的预测值。

; 1.2 各指标计算方法

现在网上很多人把precision和accuracy、精确率和准确率混为一谈，这是不对的，如图所示：

1.2.1 准确率(Accuracy)

准确率(Accuracy)表示所有的预测样本中，预测正确的比例，计算方法如下：

A c c u r a c y ( 准确率 ) = T P + T N T P + F P + F N + T N Accuracy(准确率)={TP+TN\over{TP+FP+FN+TN}}A c c u r a c y (准确率)=T P +F P +F N +T N T P +T N

1.2.2 精确率(Precision)

精确率(Precision)表示预测为正样本的样本中，实际为正样本的比例。精确率考虑的是正样本被预测正确的比例。计算方法如下：

P r e c i s i o n ( 精确率 ) = T P T P + F P Precision(精确率)={TP\over{TP+FP}}P r e c i s i o n (精确率)=T P +F P T P

1.2.3 召回率(Recall)

召回率(Recall)表示实际为正样本的样本中，预测为正样本的比例。召回率考虑的是正样本的召回的比例。计算方法如下：

R e c a l l ( 召回率 ) = T P T P + F N Recall(召回率)={TP\over{TP+FN}}R e c a l l (召回率)=T P +F N T P

1.2.4 F1-socre

其实精确率和召回率之间是存在矛盾的，很多场景下，模型最终结果往往实在精确率和召回率之间找到平衡点。F1-socre是兼顾精确率和召回率的参数，之所以使用调和平均而不是算术平均，是因为在算术平均中，任何一方对数值增长的贡献相当，任何一方对数值下降的责任也相当；而调和平均在增长的时候会偏袒较小值，也会惩罚精确率和召回率相差巨大的极端情况，很好地兼顾了精确率和召回率。F1-socre计算方法如下：

F 1 = 2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l F1={2PrecisionRecall\over{Precision+Recall}}F 1 =P r e c i s i o n +R e c a l l 2 ∗P r e c i s i o n ∗R e c a l l

1.2.5 AUC值以及ROC 曲线

AUC(Area Under ROC Curve)值为ROC 曲线下面积，表示模型或预测结果的可靠性，越接近1，可靠性越高。

1.2.6 Macro avg(宏平均)

Macro avg(宏平均)在为每一指标计算时，会对每一类别赋予相同的权重，即每个类别的指标的算术平均值。可能理解起来比较抽象，看以下例子：

比如macro avg of precision = p r e c i s i o n ( C = 0 ) + p r e c i s i o n ( C = 1 ) 2 = ( 0.76 + 0.92 ) 2 = 0.84 = {precision(C=0)+precision(C=1) \over 2} = {(0.76+0.92) \over 2}=0.84 =2 p r e c i s i o n (C =0 )+p r e c i s i o n (C =1 )=2 (0 .7 6 +0 .9 2 )=0 .8 4

; 1.2.7 Micro avg(微平均)

Micro avg(微平均)为所有类别的准确率，即所有预测正确的样本数量的比例:

M i c r o − a v g = （ T P + T N ) / ( T P + F P + T N + F N ) Micro-avg =（TP + TN) / (TP + FP + TN + FN)M i c r o −a v g =（T P +T N )/(T P +F P +T N +F N )

TP实际标签为正的样本判断为正的样本数量；TN 表示将实际标签为负的样本判断为负的样本数量

TP + FP + TN + FN表示所有样本数量

上图中并没有micro-avg，但并不妨碍我们计算：

预测对的正样本TP=345*0.88

预测对的负样本TN=155*0.83

m i c r o − a v g = 345 ∗ 0.88 + 155 ∗ 0.83 ( 155 + 345 ) = 0.8645 micro-avg={345 * 0.88+155 * 0.83 \over (155+345) }= 0.8645 m i c r o −a v g =(1 5 5 +3 4 5 )3 4 5 ∗0 .8 8 +1 5 5 ∗0 .8 3 =0 .8 6 4 5

1.2.8 weighted-avg(权重平均)

weighted-avg(权重平均)是因为宏平均在计算的时候，每个类别赋予的权重相同，但如果存在样本不平衡的情况，那这种方法就不太公平，所以权重平均便根据每个类别的样本数量，赋予不同的权重。权重平均其实就是所有类别的f1加权平均，主要针对F1值，计算方式如下：

w e i g h t e d a v g = 负样本比例 ∗ 负样本 F 1 + 正样本比例 ∗ 正样本 F 1 = 0.8 ∗ 155 / 500 + 0.9 ∗ 345 / 500 = 0.869 = 0.87 weighted avg = 负样本比例 * 负样本F1 + 正样本比例 * 正样本F1 = 0.8 * 155 / 500 + 0.9 * 345 / 500 = 0.869=0.87 w e i g h t e d a v g =负样本比例∗负样本F 1 +正样本比例∗正样本F 1 =0 .8 ∗1 5 5 /5 0 0 +0 .9 ∗3 4 5 /5 0 0 =0 .8 6 9 =0 .8 7

2 回归(预测)问题常见评价指标

回归或预测问题常见评价指标如下：平均绝对误差(Mean Absolute Error，MAE)，均方误差(Mean Squared Error，MSE)，均方根误差(Root Mean Square Error, RMSE)，均方根误差(Root Mean Squared Error) , R2(R-Square).

2.1 平均绝对误差(Mean Absolute Error，MAE)

平均绝对误差(Mean Absolute Error，MAE)是预测值与真实值之差的绝对值，反映了预测值与真实值误差的实际情况，计算公式为M A E = 1 N ∑ i = 1 N ∣ y i − y i ^ ∣ MAE={1 \over N} \sum_{i=1}^N|y_i-\hat{y_i}|M A E =N 1 i =1 ∑N ∣y i −y i ^∣

MAE的计算在sklearn中调用代码为:

from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_true, y_pred) # y_true为真实值,y_pred为预测值

2.2 均方误差(Mean Squared Error, MSE)

均方误差(Mean Squared Error, MSE)是预测值与真实值之差平方的期望值。MSE的值越小，说明预测模型描述实验数据具有越好的精确度。计算公式为M S E = 1 N ∑ i = 1 N ( y i − y i ^ ) 2 MSE={1 \over N}\sum_{i=1}^N(y_i-\hat{y_i})^2 M S E =N 1 i =1 ∑N (y i −y i ^)2

MSE的计算在sklearn中调用代码为:

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)

2.3 均方根误差(Root Mean Square Error, RMSE)

均方根误差(Root Mean Square Error, RMSE)是MSE的平方根，为预测值和真实值差异的样本标准差。均⽅根误差为了说明样本的离散程度，拟合时,RMSE越小越好。均方根误差与标准差的研究对象不同，均方根误差用来衡量预测值与真实值之间的偏差，而标准差用于衡量一组数据的离散程度。计算公式为

R M S E = M S E = S S E N = 1 N ∑ i = 1 N ( y i − y i ^ ) 2 RMSE=\sqrt{MSE}=\sqrt{SSE\over N}=\sqrt{{1 \over N}\sum_{i=1}^N(y_i-\hat{y_i})^2}R M S E =M S E =N S S E =N 1 i =1 ∑N (y i −y i ^)2

其中，SSE(error sum of squares)为残差平方和，具体可见以下博文：

数学建模方法—【03】拟合优度的计算(python计算)

RMSE的计算在sklearn中调用代码为:

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)
rmse = Sqrt(mse)

2.4 R平方值(R-Squared)

R平方值(R-Squared)又称拟合优度，反映了回归模型对数据的拟合程度，取值范围为(0,1]，R 2 R^2 R 2越接近1，表明用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。拟合优度的具体计算过程同样见这篇文章：
数学建模方法—【03】拟合优度的计算(python计算)

当然，sklearn中也可以直接调用:

from sklearn.metrics import r2_score
r2 = r2_score(y_true, y_pred)

参考：

https://blog.csdn.net/weixin_43922901/article/details/106097774

https://www.jianshu.com/p/9e0caf109e88

https://blog.csdn.net/Bruce_0712/article/details/117778741

https://blog.csdn.net/qq_43403025/article/details/108285275

ps://www.jianshu.com/p/9e0caf109e88

https://blog.csdn.net/Bruce_0712/article/details/117778741

https://blog.csdn.net/qq_43403025/article/details/108285275

https://blog.csdn.net/fanfangyu/article/details/122929133

Original: https://blog.csdn.net/qq_43403025/article/details/125340891
Author: 土豆同学
Title: 机器学习常见评价指标

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618366/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图解机器学习算法(8) | 回归树模型详解（机器学习通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/34 本文地址：https://www.showmeai.tech…

人工智能 2023年6月16日
0070
阿里的“扫地僧”，2年“抄”了20万页古籍

金磊贾浩楠发自凹非寺量子位报道 | 公众号 QbitAI 阿里达摩院，一个正儿八经搞AI的地方。但偏偏 “扫地僧”们干起了文绉绉的工作：研究…

人工智能 2023年5月31日
0096
详解Transformer模型及相关的数学原理

声明：本文参考了许多相关资料，视频，博客，结合《Attention is All You Need》这篇文章的每一个细节，从一个初学者的角度出发详细解读Transformer模型，…

人工智能 2023年6月24日
00100
pytorch中.numpy()、.item()、.cpu()、.detach()及.data的使用

目录 * – + .numpy() + .item() + .cpu() + .detach()和.data（重点） .numpy() Tensor.numpy()将T…

人工智能 2023年7月4日
00100
数据分析思维（《数据分析思维：分析方法和业务知识》）

（1）理解数据。（2）分析数据。而分析数据需要设定相关指标来分析数据。提示：有些数据从不同角度看，可以属于不同的分类。例如，收藏量，从收藏行为来说，可以属于行为数据，而从产品…

人工智能 2023年7月17日
0081
论文阅读 – Video Swin Transformer

文章目录 * – 1 概述 – 2 模型介绍 – + 2.1 整体架构 + * 2.1.1 backbone * 2.1.2 head + 2….

人工智能 2023年5月26日
00120
基于主成分分析PCA的人脸识别

经过本人复现分析，该篇博客代码不全且存在部分错误，思路仅供参考，望周知。经过完善的PCA理论分析：机器学习之PCA算法_一片叶子在深大的博客-CSDN博客经过完善的人脸识别实现：机…

人工智能 2023年7月17日
0073
使用photoshop2021对有阴影的背光摄影照片进行调色修改

小清新与写真摄影中，校园风一直是一个比较火的题材。首先因为大多写真拍摄以年轻女性为主，其中不乏学生，而摄影师也有很多是大学生，所以校园风对于这部分人来说是比较好的题材，既能轻松获得…

人工智能 2023年6月22日
0061
你怎么记笔记？

B站、YouTube 等 UGC 网站有很多优质的 UP，比如半佛、老蒋、小 Lin。他们会基于自己的认知对某一个领域给出见解，如财经、互联网等。除了视频网站，最近，老访客也注…

人工智能 2023年5月25日
0082
Pyqt搭建YOLOV3目标检测界面（超详细+源代码）

Pyqt搭建YOLOV3目标检测界面（超详细+源代码） * – 2022.5.25更新 – 2021.11.23 更新 – 2021.11.22…

人工智能 2023年6月17日
0085
分析在智能语音对话流程

首先，分析智能语音通话流程主要模块的交互时序流程(以来电为例)。主要流程如下： [En] First, analyze the interactive timing flow of…

人工智能 2023年5月25日
0094
python用均值填充空值_python-用同一列的平均值填充pyspark DataFrame 列的空值

像这样的 DataFrame ， rdd_2 = sc.parallelize([(0,10,223,”201601″), (0,10,83,”…

人工智能 2023年7月7日
0073
Tensorflow和Keras版本对照及环境安装

在安装tensorflow环境的时候，一定要先弄清楚对应的版本对应的情况，不要上来就 pip install tensorflow， pip install keras。最后发现全…

人工智能 2023年5月26日
00124
labelImg 使用以及安装教程—图像标注工具

目录 labelImg 使用教程 LabelImg简介 LabelImg用法步骤 (PascalVOC) 步骤 (YOLO) 创建预定义的类注释可视化热键验证图片设置困难…

人工智能 2023年7月25日
0070
Ubuntu16.04使用tensorflow压缩facenet网络训练的模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0073
YOLOv5之Focus与6×6卷积的理解

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Foucs * 1.Focus简介 2.对Focus的疑问二.Focus为何又被替换成卷积层…

人工智能 2023年7月12日
00172

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习常见评价指标

0 引言

1 分类问题常见评价指标

1.1 基础知识

; 1.2 各指标计算方法

1.2.1 准确率(Accuracy)

1.2.2 精确率(Precision)

1.2.3 召回率(Recall)

1.2.4 F1-socre

1.2.5 AUC值以及ROC 曲线

1.2.6 Macro avg(宏平均)

; 1.2.7 Micro avg(微平均)

1.2.8 weighted-avg(权重平均)

2 回归(预测)问题常见评价指标

2.1 平均绝对误差(Mean Absolute Error，MAE)

2.3 均方根误差(Root Mean Square Error, RMSE)

2.4 R平方值(R-Squared)

大家都在看