分类问题的评价指标：多分类【Precision、 micro-P、macro-P】、【Recall、micro-R、macro-R】、【F1、 micro-F1、macro-F1】

2023年6月15日上午4:46 • 人工智能 • 阅读 68

一、混淆矩阵

对于二分类的模型，预测结果与实际结果分别可以取0和1。我们用N和P代替0和1，T和F表示预测正确和错误。将他们两两组合，就形成了下图所示的混淆矩阵（注意：组合结果都是针对预测结果而言的）。

由于1和0是数字，阅读性不好，所以我们分别用P和N表示1和0两种结果。变换之后为PP，PN，NP，NN，阅读性也很差，我并不能轻易地看出来预测的正确性与否。因此，为了能够更清楚地分辨各种预测情况是否正确，我们将其中一个符号修改为T和F，以便于分辨出结果。

分类问题的评价指标：多分类【Precision、 micro-P、macro-P】、【Recall、micro-R、macro-R】、【F1、 micro-F1、macro-F1】

P（Positive）：代表 1
N（Negative）：代表 0
T（True）：代表预测正确
F（False）：代表预测错误

; 二、准确率、精确率、召回率、F1-Measure

准确率(Accuracy)：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。
A c c u r a c y = T P + T N T P + T N + F P + F N = T P + T N 总样本数量 Accuracy=\cfrac{TP+TN}{TP+TN+FP+FN}=\cfrac{TP+TN}{总样本数量}A c c u r a c y =T P +T N +F P +F N T P +T N =总样本数量T P +T N
精确率(Precision)**：精指分类正确的正样本个数（TP）占分类器判定为正样本的样本个数（TP+FP）的比例。
P r e c i s i o n = T P T P + F P = 分类正确的正样本个数判定为正样本的样本个数 Precision=\cfrac{TP}{TP+FP}=\cfrac{分类正确的正样本个数}{判定为正样本的样本个数}P r e c i s i o n =T P +F P T P =判定为正样本的样本个数分类正确的正样本个数
召回率(Recall)：召回率是指分类正确的正样本个数（TP）占真正的正样本个数（TP+FN）的比例。
R e c a l l = T P T P + F N = 分类正确的正样本个数全部真正的正样本个数 Recall=\cfrac{TP}{TP+FN}=\cfrac{分类正确的正样本个数}{全部真正的正样本个数}R e c a l l =T P +F N T P =全部真正的正样本个数分类正确的正样本个数
F1-Measure值：就是精确率和召回率的 调和平均值。
F 1 − M e a s u r e = 2 1 P r e c i s i o n + 1 R e c a l l = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l \begin{aligned}F1-Measure=\cfrac{2}{\cfrac{1}{Precision}+\cfrac{1}{Recall}}=\cfrac{2×Precision×Recall}{Precision+Recall}\end{aligned}F 1 −M e a s u r e =P r e c i s i o n 1 +R e c a l l 1 2 =P r e c i s i o n +R e c a l l 2 ×P r e c i s i o n ×R e c a l l

每个评估指标都有其价值，但如果只从单一的评估指标出发去评估模型，往往会得出片面甚至错误的结论；只有通过一组互补的指标去评估模型，才能更好地发现并解决模型存在的问题，从而更好地解决实际业务场景中遇到的问题。

三、多分类评价指标-案例

假设有如下的数据

预测真实AAAABACABBBBCBBCCC

可以看出，上表为一份样本量为9，类别数为3的含标注结果的三分类预测样本。TN对于准召的计算而言是不需要的，因此下面的表格中未统计该值。

1、按照定义计算Precision、Recall

1.1 对于类别A

TP = 2FP = 0FN = 2TN = ~

P r e c i s i o n = T P T P + F P = 分类正确的正样本个数判定为正样本的样本个数 = 2 2 + 0 = 100 % = 1.0 Precision=\cfrac{TP}{TP+FP}=\cfrac{分类正确的正样本个数}{判定为正样本的样本个数}=\cfrac{2}{2+0}=100\%=1.0 P r e c i s i o n =T P +F P T P =判定为正样本的样本个数分类正确的正样本个数=2 +0 2 =1 0 0 %=1 .0

R e c a l l = T P T P + F N = 分类正确的正样本个数真正的正样本个数 = 2 2 + 2 = 50 % = 0.5 Recall=\cfrac{TP}{TP+FN}=\cfrac{分类正确的正样本个数}{真正的正样本个数}=\cfrac{2}{2+2}=50\%=0.5 R e c a l l =T P +F N T P =真正的正样本个数分类正确的正样本个数=2 +2 2 =5 0 %=0 .5

1.2 对于类别B

TP = 2FP = 2FN = 1TN = ~

P r e c i s i o n = T P T P + F P = 分类正确的正样本个数判定为正样本的样本个数 = 2 2 + 2 = 50 % = 0.5 Precision=\cfrac{TP}{TP+FP}=\cfrac{分类正确的正样本个数}{判定为正样本的样本个数}=\cfrac{2}{2+2}=50\%=0.5 P r e c i s i o n =T P +F P T P =判定为正样本的样本个数分类正确的正样本个数=2 +2 2 =5 0 %=0 .5

R e c a l l = T P T P + F N = 分类正确的正样本个数真正的正样本个数 = 2 2 + 1 = 67 % = 0.67 Recall=\cfrac{TP}{TP+FN}=\cfrac{分类正确的正样本个数}{真正的正样本个数}=\cfrac{2}{2+1}=67\%=0.67 R e c a l l =T P +F N T P =真正的正样本个数分类正确的正样本个数=2 +1 2 =6 7 %=0 .6 7

1.3 对于类别C

TP = 1FP = 2FN = 1TN = ~

P r e c i s i o n = T P T P + F P = 分类正确的正样本个数判定为正样本的样本个数 = 1 1 + 2 = 33 % = 0.33 Precision=\cfrac{TP}{TP+FP}=\cfrac{分类正确的正样本个数}{判定为正样本的样本个数}=\cfrac{1}{1+2}=33\%=0.33 P r e c i s i o n =T P +F P T P =判定为正样本的样本个数分类正确的正样本个数=1 +2 1 =3 3 %=0 .3 3

R e c a l l = T P T P + F N = 分类正确的正样本个数真正的正样本个数 = 1 1 + 1 = 50 % = 0.5 Recall=\cfrac{TP}{TP+FN}=\cfrac{分类正确的正样本个数}{真正的正样本个数}=\cfrac{1}{1+1}=50\%=0.5 R e c a l l =T P +F N T P =真正的正样本个数分类正确的正样本个数=1 +1 1 =5 0 %=0 .5

2、调用sklearn的api进行验证

from sklearn.metrics import classification_report
from sklearn.metrics import precision_score, recall_score, f1_score

true_lable = [0, 0, 0, 0, 1, 1, 1, 2, 2]
prediction = [0, 0, 1, 2, 1, 1, 2, 1, 2]

measure_result = classification_report(true_lable, prediction)
print('measure_result = \n', measure_result)

打印结果：

measure_result =
               precision    recall  f1-score   support

           0       1.00      0.50      0.67         4
           1       0.50      0.67      0.57         3
           2       0.33      0.50      0.40         2

    accuracy                           0.56         9
   macro avg       0.61      0.56      0.55         9
weighted avg       0.69      0.56      0.58         9

四、Micro-F1、Macro-F1、weighted-F1

总的来说，微观F1(micro-F1)和宏观F1(macro-F1)都是F1合并后的结果，这两个F1都是用在多分类任务中的评价指标，是两种不一样的求F1均值的方式；micro-F1和macro-F1的计算方法有差异，得出来的结果也略有差异；

; 1、Micro-F1

Micro-F1 不需要区分类别，直接使用总体样本的准召计算f1 score。

计算方法：先计算所有类别的总的Precision和Recall，然后计算出来的F1值即为micro-F1；
使用场景：在计算公式中考虑到了每个类别的数量，所以适用于数据分布不平衡的情况；但同时因为考虑到数据的数量，所以在数据极度不平衡的情况下，数量较多数量的类会较大的影响到F1的值；

该样本的混淆矩阵如下：

TP = 5FP = 4FN = 2TN = ~

P r e c i s i o n = T P T P + F P = 分类正确的正样本个数判定为正样本的样本个数 = 5 5 + 4 = 55.56 % = 0.5556 Precision=\cfrac{TP}{TP+FP}=\cfrac{分类正确的正样本个数}{判定为正样本的样本个数}=\cfrac{5}{5+4}=55.56\%=0.5556 P r e c i s i o n =T P +F P T P =判定为正样本的样本个数分类正确的正样本个数=5 +4 5 =5 5 .5 6 %=0 .5 5 5 6

R e c a l l = T P T P + F N = 分类正确的正样本个数真正的正样本个数 = 5 5 + 4 = 55.56 % = 0.5556 Recall=\cfrac{TP}{TP+FN}=\cfrac{分类正确的正样本个数}{真正的正样本个数}=\cfrac{5}{5+4}=55.56\%=0.5556 R e c a l l =T P +F N T P =真正的正样本个数分类正确的正样本个数=5 +4 5 =5 5 .5 6 %=0 .5 5 5 6

F 1 − M e a s u r e = 2 1 P r e c i s i o n + 1 R e c a l l = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l = 2 × 0.5556 × 0.5556 0.5556 + 0.5556 = 0.5556 \begin{aligned}F1-Measure=\cfrac{2}{\cfrac{1}{Precision}+\cfrac{1}{Recall}}=\cfrac{2×Precision×Recall}{Precision+Recall}=\cfrac{2×0.5556×0.5556}{0.5556+0.5556}=0.5556\end{aligned}F 1 −M e a s u r e =P r e c i s i o n 1 +R e c a l l 1 2 =P r e c i s i o n +R e c a l l 2 ×P r e c i s i o n ×R e c a l l =0 .5 5 5 6 +0 .5 5 5 6 2 ×0 .5 5 5 6 ×0 .5 5 5 6 =0 .5 5 5 6

2、Macro-F1

不同于micro f1，macro f1需要先计算出每一个类别的准召及其f1 score，然后通过求均值得到在整个样本上的f1 score。

计算方法：将所有类别的Precision和Recall求平均，然后计算F1值作为macro-F1；
使用场景：没有考虑到数据的数量，所以会平等的看待每一类（因为每一类的precision和recall都在0-1之间），会相对受高precision和高recall类的影响较大；

类别A的：
F 1 − A = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l = 2 × 1 × 0.5 1 + 0.5 = 0.6667 \begin{aligned}F1-A=\cfrac{2×Precision×Recall}{Precision+Recall}=\cfrac{2×1×0.5}{1+0.5}=0.6667\end{aligned}F 1 −A =P r e c i s i o n +R e c a l l 2 ×P r e c i s i o n ×R e c a l l =1 +0 .5 2 ×1 ×0 .5 =0 .6 6 6 7

类别B的：
F 1 − B = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l = 2 × 0.5 × 0.67 0.5 + 0.67 = 0.57265 \begin{aligned}F1-B=\cfrac{2×Precision×Recall}{Precision+Recall}=\cfrac{2×0.5×0.67}{0.5+0.67}=0.57265\end{aligned}F 1 −B =P r e c i s i o n +R e c a l l 2 ×P r e c i s i o n ×R e c a l l =0 .5 +0 .6 7 2 ×0 .5 ×0 .6 7 =0 .5 7 2 6 5

类别C的：
F 1 − C = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l = 2 × 0.33 × 0.5 0.33 + 0.5 = 0.39759 \begin{aligned}F1-C=\cfrac{2×Precision×Recall}{Precision+Recall}=\cfrac{2×0.33×0.5}{0.33+0.5}=0.39759\end{aligned}F 1 −C =P r e c i s i o n +R e c a l l 2 ×P r e c i s i o n ×R e c a l l =0 .3 3 +0 .5 2 ×0 .3 3 ×0 .5 =0 .3 9 7 5 9

Macro-F1为上面三者的平均值：
M a c r o − F 1 = F 1 − A + F 1 − B + F 1 − C 3 = 0.6667 + 0.57265 + 0.39759 3 = 0.546 \begin{aligned}Macro-F1=\cfrac{F1-A + F1-B + F1-C}{3}=\cfrac{0.6667 + 0.57265 + 0.39759}{3}=0.546\end{aligned}M a c r o −F 1 =3 F 1 −A +F 1 −B +F 1 −C =3 0 .6 6 6 7 +0 .5 7 2 6 5 +0 .3 9 7 5 9 =0 .5 4 6

3、weighted-F1

除了micro-F1和macro-F1，还有weighted-F1，是一个将F1-score乘以该类的比例之后相加的结果，也可以看做是macro-F1的变体吧。

weighted-F1和macro-F1的区别在于：macro-F1对每一类都赋予了相同的权重，而weighted-F1则根据每一类的比例分别赋予不同的权重。

五、指标的选择问题

“我们看到，对于 Macro 来说，小类别相当程度上拉高了 Precision 的值，而实际上，并没有那么多样本被正确分类，考虑到实际的环境中，真实样本分布和训练样本分布相同的情况下，这种指标明显是有问题的，小类别起到的作用太大，以至于大样本的分类情况不佳。而对于 Micro 来说，其考虑到了这种样本不均衡的问题，因此在这种情况下相对较佳。

总的来说，如果你的类别比较均衡，则随便；如果你认为大样本的类别应该占据更重要的位置，使用Micro；如果你认为小样本也应该占据重要的位置，则使用 Macro；如果 Micro << Macro ，则意味着在大样本类别中出现了严重的分类错误；如果 Macro << Micro ，则意味着小样本类别中出现了严重的分类错误。

为了解决 Macro 无法衡量样本均衡问题，一个很好的方法是求加权的 Macro，因此 Weighed F1 出现了。”

六、代码

1、数据01

true_lable = [0, 0, 0, 0, 1, 1, 1, 2, 2]
prediction = [0, 0, 1, 2, 1, 1, 2, 1, 2]

from sklearn.metrics import classification_report
from sklearn.metrics import precision_score, recall_score, f1_score

true_lable = [0, 0, 0, 0, 1, 1, 1, 2, 2]
prediction = [0, 0, 1, 2, 1, 1, 2, 1, 2]

measure_result = classification_report(true_lable, prediction)
print('measure_result = \n', measure_result)

print("----------------------------- precision（精确率）-----------------------------")
precision_score_average_None = precision_score(true_lable, prediction, average=None)
precision_score_average_micro = precision_score(true_lable, prediction, average='micro')
precision_score_average_macro = precision_score(true_lable, prediction, average='macro')
precision_score_average_weighted = precision_score(true_lable, prediction, average='weighted')
print('precision_score_average_None = ', precision_score_average_None)
print('precision_score_average_micro = ', precision_score_average_micro)
print('precision_score_average_macro = ', precision_score_average_macro)
print('precision_score_average_weighted = ', precision_score_average_weighted)

print("\n\n----------------------------- recall（召回率）-----------------------------")
recall_score_average_None = recall_score(true_lable, prediction, average=None)
recall_score_average_micro = recall_score(true_lable, prediction, average='micro')
recall_score_average_macro = recall_score(true_lable, prediction, average='macro')
recall_score_average_weighted = recall_score(true_lable, prediction, average='weighted')
print('recall_score_average_None = ', recall_score_average_None)
print('recall_score_average_micro = ', recall_score_average_micro)
print('recall_score_average_macro = ', recall_score_average_macro)
print('recall_score_average_weighted = ', recall_score_average_weighted)

print("\n\n----------------------------- F1-value-----------------------------")
f1_score_average_None = f1_score(true_lable, prediction, average=None)
f1_score_average_micro = f1_score(true_lable, prediction, average='micro')
f1_score_average_macro = f1_score(true_lable, prediction, average='macro')
f1_score_average_weighted = f1_score(true_lable, prediction, average='weighted')
print('f1_score_average_None = ', f1_score_average_None)
print('f1_score_average_micro = ', f1_score_average_micro)
print('f1_score_average_macro = ', f1_score_average_macro)
print('f1_score_average_weighted = ', f1_score_average_weighted)

打印结果：

measure_result =
               precision    recall  f1-score   support

           0       1.00      0.50      0.67         4
           1       0.50      0.67      0.57         3
           2       0.33      0.50      0.40         2

    accuracy                           0.56         9
   macro avg       0.61      0.56      0.55         9
weighted avg       0.69      0.56      0.58         9

recall_score_average_None =  [0.5        0.66666667 0.5       ]
recall_score_average_micro =  0.5555555555555556
recall_score_average_macro =  0.5555555555555555
recall_score_average_weighted =  0.5555555555555556

precision_score_average_None =  [0.875      0.85714286 0.83333333 0.55555556]
precision_score_average_micro =  0.7666666666666667
precision_score_average_macro =  0.7802579365079365
precision_score_average_weighted =  0.7966269841269841

f1_score_average_None =  [0.82352941 0.8        0.76923077 0.66666667]
f1_score_average_micro =  0.7666666666666667
f1_score_average_macro =  0.7648567119155354
f1_score_average_weighted =  0.7732126696832579

Process finished with exit code 0

参考资料：
Macro-F1 Score与Micro-F1 Score
分类问题的几个评价指标（Precision、Recall、F1-Score、Micro-F1、Macro-F1）
分类问题中的各种评价指标——precision，recall，F1-score，macro-F1，micro-F1

Original: https://blog.csdn.net/u013250861/article/details/123029585
Author: u013250861
Title: 分类问题的评价指标：多分类【Precision、 micro-P、macro-P】、【Recall、micro-R、macro-R】、【F1、 micro-F1、macro-F1】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613713/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Pytorch深度学习50篇】·······第六篇：【常见损失函数篇】—–BCELoss及其变种

新年新气象，兄弟们新年快乐。撒花！！！之前我们的项目已经讲过了常见的4种深度学习任务（当然还有一些没有接触到的，例如GAN和今年大红的Transformer），今天这个blog我…

人工智能 2023年6月24日
0098
机器学习（西瓜书）第5章神经网络知识详解

引入神经网络（neural networks)是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统所作出的交互反应。我们在机器学习中谈论神经网络时指的是&…

人工智能 2023年7月14日
0063
Kr的pandas技巧笔记

最近在做一个数据集的可视化项目，又捡起了pandas和python，这里把实际用到的技巧干货写下来，防止忘记再次去网上各种查和看documentation，同时也分享给大家. 1….

人工智能 2023年7月8日
0066
【Linux】Anaconda和PyTorch安装教程

教程目录 Anaconda安装 * – 1.下载Anaconda 2. 安装Anaconda 3. 配置环境变量 4. 验证是否安装成功 5. 更换镜像源 PyTorc…

人工智能 2023年7月22日
0095
djangorestframework-simplejwt

介绍因为jwt官方已经停止维护，且对于django4.x不支持，所以选择simplejwt(django>=2.0)一定要配合权限一起使用，不然不生效 1.使用 1.1 安…

人工智能 2023年7月29日
0060
ESP32接入百度智能云语音识别，实现在线语音识别

使用ESP32接入百度智能云实现在线语音识别。实现最基本的语音识别功能还是很简单的，但还是遇到了一些小问题，在这记录一下。使用了max9814麦克风模块用做语音输入，一个按键来控制…

人工智能 2023年5月23日
0067
python非线性规划scipy.optimize.minimize介绍

在 python 里用非线性规划求极值，最常用的就是 scipy.optimize.minimize()。 最小化…

人工智能 2023年5月30日
0062
人工智能十大流行算法

人工智能是什么？很多人都知道，但大多又都说不清楚。事实上，人工智能已经存在于我们生活中很久了。比如我们常常用到的邮箱，其中垃圾邮件过滤就是依靠人工智能；比如每个智能手机都配备…

人工智能 2023年7月25日
0060
100天精通Python（数据分析篇）——第64天：Pandas分组groupby函数案例

### 回答1： Python 数据分析_中， _pandas_是一个非常重要的库，它提供了一种灵活、高效、易用的数据结构，可以帮助我们进行数据清洗、数据处理、 _数据分析_等工作…

人工智能 2023年7月30日
0050
7.pytorch自然语言处理-循环神经网络与分词

一、基础知识 1、tokenization分词分词，分出的每一个词语叫做token *清华大学API：THULAC；或者直接用jieba 可以切分为词语，或者完全分成一个一个字 …

人工智能 2023年5月28日
0093
苹果手机录音怎么批量导出？才知道原来可以这样操作

苹果手机的功能多种多样，不仅有备忘录、健康记录、计算器、Apple TV、Apple music等软件，还可以进行录音，在苹果手机中叫语音备忘录，那么在苹果手机上进行录音，是不是只…

人工智能 2023年5月27日
00253
TensorFlow2 Object Detection API安装及运行实验记录

目录 1. 安装 1.1 基本环境确认 1.2 TensorFlow Object Detection API Installation 1.2.1 Downloading the…

人工智能 2023年5月25日
0059
java计算机毕业设计企业公开招聘系统源码+数据库+lw文档+系统

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月28日
0083
Go数据结构队列

二队列 2.1 队列的介绍队列是一个有序列表，可以用数组或是链表来实现。遵循先入先出的原则。即:先存入队列的数据，要先取出。后存入的要后取出 2.2 数组模拟队列思路队列本身…

人工智能 2023年6月26日
0061
Python深度学习02——Keras多层感知机(MLP)实现

参考书目：陈允杰.TensorFlow与Keras——Python深度学习应用实战.北京:中国水利水电出版社,2021 本系列基本不讲数学原理，只从代码角度去让读者们利用最简洁的P…

人工智能 2023年7月13日
0083
《动手学深度学习》图像分类数据集（Fashion-MNIST）

在介绍softmax回归的实现前我们先引入一个多类图像分类数据集。它将在后面的章节中被多次使用，以方便我们观察比较算法之间在模型精度和计算效率上的区别。图像分类数据集中最常用的是…

人工智能 2023年7月2日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30