机器学习中常用评价指标（分类篇）

2023年7月2日下午3:11 • 人工智能 • 阅读 81

文章目录

*
– 前言
– 1. 准确率
– 2. 混淆矩阵
– 3. 精确率
– 4. 召回率
– 5. P-R曲线
– 6. F1度量
– 7. ROC曲线
– 8. AUC
– 9 代码实现
–
+ 9.1 混淆矩阵

前言

T P TP TP，即 T r u e P o s i t i v e True\ Positive T r u e P os i t i v e，表示实际是正类，同时也被判定为正类； 真正例
F P FP FP，即 F a l s e P o s i t i v e False\ Positive F a l se P os i t i v e，表示实际是负类，但被判定为正类；第一类错误( T y p e I E r r o r ) (Type \ I\ Error)(T y p e I E rror ) 假正例(误检)
T N TN TN，即 T r u e N e g a t i v e True\ Negative T r u e N e g a t i v e，表示实际是负类，同时也被判定为负类； 真负例
F N FN FN，即 F a l s e N e g a t i v e False\ Negative F a l se N e g a t i v e，表示实际是正类，但被判定为负类。第二类错误( T y p e I I E r r o r ) (Type \ II\ Error)(T y p e II E rror ) 假负例(漏检)

1. 准确率

准确率(accuracy)是分类问题中最常用的度量。使用准确率时，我们要求算法返回明确的类别。准确率的定义如下：a c c u r a c y = 正确分类的样本数总样本数 accuracy=\frac {正确分类的样本数} {总样本数}a cc u r a cy =总样本数正确分类的样本数有上述定义可知，准确率的取值区间为[ 0 , 1 ] [0,1][0 ,1 ]，取值越大，分类效果越好。
在实际应用中，只用准确率一项来衡量分类结果会有失偏颇。比如，如果在分类问题中有一类样本占大多数，而分类的重点在样本数较少的那一类，那么简单计算准确率并不能较好地反映算法的性能。举个栗子：

假设我们有一个包含100个样本的数据集，其中97个是正常交易，3个是欺诈交易。如果算法 A A A 将所有样本都判定为正常交易，而算法 B B B 将8个样本判定为欺诈交易(包括3个真正的欺诈交易)，根据准确率的计算公式，算法 A A A 的准确率为0.97，算法 B B B 的准确率为0.95。虽然算法 A A A 的准确率更高，但是它本质上没有给我们提供关于欺诈的任何有效信息，算法 B B B 的准确率虽然较低些，它是我们认为算法 B B B 在这个人物场景中更适用。

2. 混淆矩阵

混淆矩阵(confusion matrix)，又称为错误矩阵或者可能性表格。混淆矩阵全面考虑了各种错分的情况，并将分类的结果以 类别a被判定为类别b的样本数为多少的形式展示。其中，每一行代表一个实际的类别，每一列代表一个预测的类别。
根据上面的那个栗子，我们可以知道错位的分类有两种：正常的交易被判定为欺诈、欺诈的交易被判定为正常。由此可以得出算法 A A A 和算法 B B B 的混淆矩阵：

基于混淆矩阵，可以定义 T P R ( T r u e P o s i t i v e R a t e ) TPR(True\ Positive\ Rate)TPR (T r u e P os i t i v e R a t e )，又称为 灵敏度(sensitivity)，表示正类样本中被正确分类的比例：s e n s i t i v i t y = T P R = T P T P + F N sensitivity=TPR=\frac {TP} {TP+FN}se n s i t i v i t y =TPR =TP +FN TP 同样可以定义 T N R ( T r u e P o s i t i v e R a t e ) TNR(True\ Positive\ Rate)TNR (T r u e P os i t i v e R a t e )，又称为 特异度(specificity)，表示负类样本中被正确分类的比例：s p e c i f i c i t y = T N R = T N T N + F P specificity=TNR=\frac {TN} {TN+FP}s p ec i f i c i t y =TNR =TN +FP TN 可以定义 F P R ( F a l s e P o s i t i v e R a t e ) FPR(False\ Positive\ Rate)FPR (F a l se P os i t i v e R a t e )，表示负类样本中被错误分类的比例：F P R = F P F P + T N FPR=\frac {FP} {FP+TN}FPR =FP +TN FP 同样可以定义 T N R ( T r u e P o s i t i v e R a t e ) TNR(True\ Positive\ Rate)TNR (T r u e P os i t i v e R a t e )，又称为 特异度(specificity)，表示负类样本中被正确分类的比例：s p e c i f i c i t y = T N R = T N T N + F P specificity=TNR=\frac {TN} {TN+FP}s p ec i f i c i t y =TNR =TN +FP TN 根据混淆矩阵，可以计算出准确率为：a c c u r a c y = T P + T N T P + F P + T N + F N accuracy=\frac {TP+TN} {TP+FP+TN+FN}a cc u r a cy =TP +FP +TN +FN TP +TN

3. 精确率

精确率(precision)表示的是在算法判定为正类的所有样本中，真正的正类样本所占的比例，计算公式如下：p r e c i s i o n = T P T P + F P precision=\frac {TP} {TP+FP}p rec i s i o n =TP +FP TP 精确度越高，说明在判定为正类的样本中负类样本越少，即误检的样本越少。

准确率，精确率，傻傻分不清楚？？？博主在这里说一下自己的记法：
准确率：只要分类正确 (准)就可以，正类样本被判定为正类，是正确的，负类样本被判定为负类，也是正确的，这两类加起来除以总样本数就是准确率。
精确率：注意 精字，从这一个字可以看出要更加精准，要求更加严格，只算正类样本中被判定为正类的，负类样本被判定为负类可不算，然后再除以所有被判定为正类的样本数目。
可见，我大中华文化博大精深！！！！

也叫查准率，表示的是在所有检测出的正样本中是不是实际都为正样本，即正确个数(正样本个数) / 检测到的个数(目标检测)。

4. 召回率

召回率(recall)表示的是所有的正类样本被正确分类的比例，计算公式如下：r e c a l l = T P T P + F N recall=\frac {TP} {TP+FN}rec a ll =TP +FN TP 召回率越高，说明正类样本被错误分类的比例越小，即漏检的样本越少。

也叫查全率，表示的是所有的正样本是不是都被检测出来了，即正确个数(正样本个数) / 标记的的个数(目标检测)。

假设某个类别有 10个框，检测到 8个框，其中 6个预测正确， 2个预测错误，那么 recall=6/10=0.6， precision=6/8=0.75。

5. P-R曲线

精确率和召回率是一对矛盾的度量。一般来说，精确率高时，召回率往往偏低；而召回率高时，精确率往往偏低。
举个栗子，若希望将所有好瓜尽可能多地选出来，则可通过增加选瓜的数量来实现，如果将所有西瓜都选上，那么所有的好瓜也必然都被选上了，但这样精确率就会较低；若希望选出的瓜中好瓜比例尽可能高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得召回率较低。
为了更好地衡量模型的性能，这里引入了 P-R曲线，即 Precision-Recall曲线。

6. F1度量

F1度量(F1-Measure)同时考虑了精确率和召回率，是精确率和召回率的调和平均数，计算公式如下：F 1 = 2 1 p r e c i s i o n + 1 r e c a l l = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l = 2 T P 2 T P + F P + F N F1=\frac {2} {\frac {1} {precision} + \frac {1} {recall}} \[5pt] =\frac {2\times precision \times recall} {precision + recall} \[5pt] =\frac {2TP} {2TP+FP+FN}F 1 =p rec i s i o n 1 +rec a ll 1 2 =p rec i s i o n +rec a ll 2 ×p rec i s i o n ×rec a ll =2 TP +FP +FN 2 TP F 1 F1 F 1越高，说明精确率和召回率都较高，算法的性能越好。

7. ROC曲线

前面几个介绍的评价指标都针对于分类器的输出是离散值，即输出是明确的类别，当分类器的输出是连续值时，比如概率值，这时候我们就需要用到其他的评价标准了。
ROC曲线，即接收者操作特征曲线( r e c e i v e r o p e r a t i n g c h a r a c t e r i s t i c c u r v e ) (receiver\ operating\ characteristic\ curve)(rece i v er o p er a t in g c ha r a c t er i s t i c c u r v e )。在R O C ROC ROC曲线中，横坐标是F P R FPR FPR (False Positive Rate)，纵坐标为T P R TPR TPR (True Positive Rate)。使用ROC曲线的前提就是分类算法能够输出连续值。在画ROC曲线时，我们需要得到所有的分类结果，即通过调解阈值使所有样本从最初的都判定为负类到最后的都判定为正类，这样就可以得到不同的FPR和TPR的值。
在ROC曲线中，曲线越接近左上角 (0,1)，分类器的性能越好。

8. AUC

虽然ROC曲线给出了丰富的信息，但是在很多情况下，我们需要一个类似于准确率的单个值来衡量分类器模型的好坏。在实际中，经常使用ROC曲线下的面积来衡量分类算法的好坏，称为 AUC，即 Area Under ROC Curve，顾名思义，表示的是ROC曲线下的面积，其取值范围为0 ≤ A U C ≤ 1 0\leq AUC \leq 1 0 ≤A U C ≤1。
对于一个正常的分类器，AUC的值应该大于0.5，如果低于0.5，则说明该分类的性能还不如随机猜想。

9 代码实现

在 scikit-learn库中包含了许多算法的评估方法，详细参数说明可以参阅官方文档。

9.1 混淆矩阵

    from sklearn.ensemble import RandomForestClassifier
    from sklearn.datasets import load_wine
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import confusion_matrix, precision_score, accuracy_score, recall_score, f1_score, roc_auc_score, roc_curve, auc
    from sklearn.metrics import plot_confusion_matrix

    import matplotlib.pyplot as plt
    import numpy as np

    winedata = load_wine()

    x_train, x_test, y_train, y_test = train_test_split(winedata.data, winedata.target, test_size=0.3, random_state=1024)

    rf_model = RandomForestClassifier(n_estimators=100, criterion='gini', random_state=1024)
    rf_model.fit(x_train, y_train)

    y_pred = rf_model.predict(x_test)
    y_true = y_test
    class_names = winedata.target_names

    disp = plot_confusion_matrix(rf_model, x_test, y_test,
                                 display_labels=class_names,
                                 cmap=plt.cm.BuPu,
                                 normalize='true')
    disp.ax_.set_title(label='Normalized confusion matrix')

    plt.show()

混淆矩阵可视化效果如下：

    from sklearn.metrics import confusion_matrix, precision_score, accuracy_score, recall_score, f1_score, roc_auc_score, roc_curve, auc
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.ensemble import RandomForestClassifier

    t1 = time.time()
    rf_model = RandomForestClassifier(n_estimators=100, criterion='gini', random_state=1024, oob_score=True)
    rf_model.fit(tf_idf, y_label)
    y_pred = rf_model.predict(tf_idf_test)
    t2 = time.time()
    t = t2 - t1

    accuracy = accuracy_score(y_test_label, y_pred)
    c_matrix = confusion_matrix(y_test_label, y_pred)
    precision = precision_score(y_test_label, y_pred, average="micro")
    recall = recall_score(y_test_label, y_pred, average="micro")
    f1 = f1_score(y_test_label, y_pred, average="micro")
    roc_auc = roc_auc_score(y_test_label, rf_model.predict_proba(tf_idf_test), average="macro", multi_class='ovo')

    print('[RF] accuracy: {0:.4f}, precision: {1:.4f}, recall: {2:.4f}, '
          'f1: {3:.4f}, roc_auc: {4:.4f}, time: {5:.4f}'.format(accuracy, precision, recall, f1, roc_auc, t))

Original: https://blog.csdn.net/qq_42730750/article/details/115600088
Author: 夏小悠
Title: 机器学习中常用评价指标（分类篇）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665685/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文整理：GoogLeNet–Going deeper with convolutions

1.摘要我们提出了一种代号为”GoogleNet “的深度卷积神经网络架构，它负责在2014 年ImageNet 大规模视觉识别挑战(ILSVRC 14)…

人工智能 2023年7月3日
0062
【OpenCV 例程200篇】30. 图像的缩放（cv2.resize）

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程200篇】30. 图像的缩放（cv2.resize）缩放只是调…

人工智能 2023年7月18日
0059
丢弃Excel，Pandas一行搞定

之前介绍了 pandas的多条件筛选，这些都是一些数据处理的必要技能，也不贪多，咱们每次学习一点。这次咱们说说 pandas的两个表的连接技能 merge，也就是根据一个表的条件…

人工智能 2023年7月8日
0052
机器学习——线性回归模型及python代码实现

《机器学习：公式推导与代码实践》鲁伟著读书笔记。在机器学习的学习过程中，相信大家首先要学习的就是线性模型。而线性模型中，线性回归（Linear Regression）是一种非常经典…

人工智能 2023年6月15日
0058
双重差分法之空间DID

简单谈一下我本人对空间双重差分模型（Spatial Difference in Difference Model， SDID ）几点或许不太成熟的理解。（本文首发于个人微信公众…

人工智能 2023年6月2日
00107
L1损失（MAE）、L2损失（MSE）

目录均绝对误差(L1 Loss) 均方误差MSE (L2 Loss) MSE和MAE的选择总结均绝对误差(L1 Loss) 均绝对误差（Mean Absolute Error…

人工智能 2023年6月25日
00174
机器学习—聚类5-3（DBSCAN算法）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0092
ViT：视觉Transformer backbone网络ViT论文与代码详解

Visual Transformer Author：louwill Machine Learning Lab 今天开始Visual Transformer系列的第一篇文章，主题是V…

人工智能 2023年6月16日
0072
聚类算法——KMeans(K-均值)

聚类的概念聚类是一种机器学习技术，它涉及到数据点的分组。给定一组数据点，我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上，同一组中的数据点应该具有相似的属性和/或特征，…

人工智能 2023年7月19日
0068
Python检验多重共线性

import numpy as np np.linalg.cond(results.model.exog) 这个好像是根据特征值来检验多重共线性，我本人也不太懂下面来说一说我们最常…

人工智能 2023年7月15日
00158
当 AI 邂逅绘画艺术，能迸发出怎样的火花？

前言什么是 AI？在你的脑海中可能浮现由一个个神经元堆叠起来的神经网络。那什么是绘画艺术？是达芬奇的《蒙娜丽莎的微笑》，是梵高的《星空夜》、《向日葵》，还是约翰内斯·维米尔的《戴…

人工智能 2023年5月30日
0075
2020 各大厂分享ppt

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0096
Beyond Max-Margin: Class Margin Equilibrium for Few-shot Object Detection论文阅读

动机新的类别分类和表示之间的隐含矛盾被忽略了，这个矛盾是——为了将类彼此分开，两个基类中的任何一个基类都需要彼此相距较远(max-margin))，这聚合了新类的类内距离。为了准…

人工智能 2023年7月12日
0089
Python实现遗传算法解决TSP问题

Python实现遗传算法解决TSP问题 * – 遗传算法介绍 – + 生物学概念和算法概念之间的对应关系 + 种群—编码集合 + 种群适应环境的…

人工智能 2023年6月15日
0061
双向长短期记忆网络（Bi-LSTM）

在开始之前，首先区分下均命名为RNN，新手很容易混淆的两大神经网络：循环神经网络（Recurrent Neural Network，RNN）和递归神经网络（Recurssion N…

人工智能 2023年6月15日
0090
猿创征文｜有了这8个开发工具，程序员可以早点下班了

📣📣📣📣📣📣📣🎍大家好，我是慕枫🎍前阿里巴巴高级工程师，InfoQ签约作者、阿里云专家博主，一直致力于用大白话讲解技术知识🎍在这里和大家分享一线互联网大厂面试经验、技术人成长路线以…

人工智能 2023年6月29日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31