sklearn.metrics 用法详解

2023年7月4日下午7:20 • 人工智能 • 阅读 100

1. 用法概览

1.1 分类

函数功能 metrics.accuracy_score

准确率 metrics.balanced_accuracy_score

在类别不均衡的数据集中，计算加权准确率 metrics.top_k_accuracy_score

获得可能性最高的k个类别 metrics.average_precision_score

根据预测分数计算平均精度 (AP) metrics.brier_score_loss

Brier 分数损失 metrics.f1_score

F1 score metrics.log_loss

交叉熵损失 metrics.precision_score

精确率 metrics.recall_score

召回率 metrics.jaccard_score

Jaccard 相似系数得分 metrics.roc_auc_score

根据预测分数计算 Area Under the Receiver Operating Characteristic Curve(ROC AUC) 下的面积 metrics.cohen_kappa_score

衡量注释间一致性的统计量

1.2 聚类

函数功能 metrics.adjusted_mutual_info_score

两个聚类之间的调整互信息(AMI) metrics.adjusted_rand_score

调整兰德指数 metrics.completeness_score

给定GT的集群标记的完整性度量 metrics.fowlkes_mallows_score

测量一组点的两个聚类的相似性 metrics.homogeneity_score

同质性指标 metrics.mutual_info_score

互信息 metrics.normalized_mutual_info_score

标准化互信息 metrics.rand_score

兰德指数 metrics.v_measure_score

V测度得分

1.3 回归

函数功能 metrics.explained_variance_score

解释方差回归评分函数 metrics.mean_absolute_error

平均绝对误差 metrics.mean_squared_error

均方误差 metrics.mean_squared_log_error

平均平方对数误差 metrics.median_absolute_error

中位数绝对误差 metrics.r2_scoreR 2 R^2 R 2

(确定系数)

2. 数学原理

主要记录一下关于分类部分的数学原理。准确率 – accuracy，精确率 – precision，召回率 – recall，
F1值 – F1-score，ROC曲线下面积 – ROC-AUC （area under curve），PR曲线下面积 – PR-AUC。

对于一个二分类问题，假设真实标签 y_labels=[1,1,0,1,1,0,0,0]，我们预测的结果 y_scores=[0.8,0.9,0.6,0.3,0.7,0.1,0.1,0.6]。假设 threshold=0.5。那么可以得到 y_preds=[1,1,1,0,1,0,0,1]。这时我们可以得到混淆矩阵(confusion matrix)为：

图1：混淆矩阵

混淆矩阵中所对应的每一个值的含义如下：

图2：混淆矩阵的含义

那么：
准确率=T P + T N T P + T N + F P + F N \frac{TP+TN}{TP+TN+FP+FN}T P +T N +F P +F N T P +T N ，精准率=T P T P + F P \frac{TP}{TP+FP}T P +F P T P ，召回率=T P T P + F N \frac{TP}{TP+FN}T P +F N T P ，F1-scores=2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l \frac{2PrecisionRecall}{Precision+Recall}P r e c i s i o n +R e c a l l 2 ∗P r e c i s i o n ∗R e c a l l 。

ROC/AUC的概念

ROC（Receiver Operating Characteristic）曲线，又称接受者操作特征曲线。该曲线最早应用于雷达信号检测领域，用于区分信号与噪声。后来人们将其用于评价模型的预测能力，ROC曲线是基于混淆矩阵得出的。

灵敏度（Sensitivity）= T P T P + F N \frac{TP}{TP+FN}T P +F N T P ，特异度（Specificity）=T N F P + T N \frac{TN}{FP+TN}F P +T N T N
真正率（TPR）= 灵敏度= T P T P + F N \frac{TP}{TP+FN}T P +F N T P ，假正率（FPR） = 1- 特异度 =F P F P + T N \frac{FP}{FP+TN}F P +T N F P

在上述二分类的例子中，我们取 threshold=0.5可以的到一个 y_preds， threshold从0取到1就可以得到不同的 y_preds，进而计算出不同的（FPR，TPR）对。它们在坐标轴上对应了一条曲线，这条曲线就是ROC曲线，曲线下的面积就是AUC的值。如下图：

图3：ROC 曲线

多分类的计算
metrics.cohen_kappa_score：继续等待填坑

; 3. 实例

以之前的数据来计算每一个度量指标的值，这里用 metrics.classification_report。
metrics.classification_report(y_true, y_pred, *, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False, zero_division='warn')
注意到这里的参数是 y_pred而不是 y_score，所以它只能计算F1-score，而不能计算AUC值。
返回值的格式如下：
{'label 1': {'precision':0.5, 'recall':1.0, 'f1-score':0.67, 'support':1}, 'label 2': { ... }, ... }

from sklearn import metrics
import matplotlib.pyplot as plt

y_labels = [1,1,0,1,1,0,0,0]
y_scores=[0.8,0.9,0.6,0.3,0.2,0.1,0.1,0.6]
y_preds = [1,1,1,0,1,0,0,1]
report = metrics.classification_report(y_labels,y_preds)
fpr, tpr, thresholds = metrics.roc_curve(y_labels,y_scores)
auc = metrics.auc(fpr,tpr)
plt.plot(fpr,tpr,'*-')
plt.ylabel('TPR')
plt.xlabel('FPR')
plt.title('ROC curve')
print(report)

得到ROC曲线如图3所示， report的值如下：

图4：report结果

参考链接：
[1] https://scikit-learn.org/stable/modules/model_evaluation.html
[2] https://blog.csdn.net/qq_27575895/article/details/83781069
[3] https://laurenoakdenrayner.com/2018/01/07/the-philosophical-argument-for-using-roc-curves/

Original: https://blog.csdn.net/Huang_Fj/article/details/124100598
Author: Huang_Fj
Title: sklearn.metrics 用法详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/670295/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法

《Deep Clustering for Unsupervised Learning of Visual Features》论文地址：https://arxiv.org/pdf/…

人工智能 2023年5月31日
0075
PyTorch模型训练集正常收敛，但验证集准确率稳定在10%并保持不变

问题描述训练过程中遇到的一个Bug，可能是跟Torch本身有关，如下图和题目所示，经过多轮训练，训练准确率开始收敛，但是验证准确率保持在10%左右不变。 ; 排查手册一般来说这…

人工智能 2023年7月21日
0066
Java类和对象（一）

🎀作者：爱塔居的博客_CSDN博客-领域博主🌭专栏：JavaSE🍧作者简介：大三学生，想要努力地变得更好！附上一张可可爱爱的猫猫图~🍓🍓🍓🍓🍓🍓 文章目录目录文章目录前言一…

人工智能 2023年6月26日
00127
neo4j安装算法插件-GDS

1、这里选用的是 Neo4j Graph Data Science 简称GDS2、Github 地址： https://github.com/neo4j/graph-data-sc…

人工智能 2023年6月10日
0064
基于cv2.VideoCapture 和 OpenCV 得到更快的 FPS之文件篇

您是否曾经通过 OpenCV 的 cv2.VideoCapture 函数处理视频文件并发现读取帧感觉缓慢？您的整个视频处理管道一直在运行，每秒处理的帧数不能超过一到两帧——即使您没…

人工智能 2023年7月19日
0057
[TI TDA4 J721E] Sensor 鱼眼摄像头 LDC畸变校正模块LUT的创建和生成——详解

首先感谢阅读，如果您也对TDA4相关的开发感兴趣，我们这边有个学习交流微信群，可以入群和大家一起交流学习。资历较浅，水平有限，如遇错误，请大家多指正！保持开源精神，共同分享、进…

人工智能 2023年5月26日
00136
打破数据量瓶颈数据堂推出超大规模英语发音词典

英语是全球最具影响力的交流语言之一，与之相关的英语语音识别系统也引起了学术界和工业界的广泛关注。 [En] English is one of the most influenti…

人工智能 2023年5月25日
00153
数据分析-入门-线性回归-波士顿房价

@线性回归-波士顿房价数据来源：https://www.kaggle.com/altavish/boston-housing-dataset 波士顿房价数据集特征（X）包含：CR…

人工智能 2023年6月17日
0089
CAN总线学习笔记 | CAN基础知识介绍

一、CAN协议 1.1 CAN协议简介 CAN 是控制器局域网络 (Controller Area Network) 的简称，它是由研发和生产汽车电子产品著称的德国 BOSCH 公…

人工智能 2023年6月29日
0077
全网最全最新的YOLOv5模型训练测试以及多端部署教学内容

💥本文中出自CSDN：落难Coder，无任何授权，不允许私自转载！文章目录 * – 一、🏴总概述 – 二、✨GPU/CPU环境详解及安装 –…

人工智能 2023年5月26日
0087
R语言使用pairs函数可视化散点图矩阵（scatter plot matrix）

R语言使用pairs函数可视化散点图矩阵（scatter plot matrix）目录 R语言使用pairs函数可视化散点图矩阵（scatter plot matrix） Ori…

人工智能 2023年6月19日
0069
《SLAM十四讲》slambook2 遇到的坑（持续更新ing）

《SLAM十四讲》slambook2 遇到的坑 ch5 01安装opencv时，正常安装后便可以使用，注意检查CmakeLists.txt文件有没有搜索包含opencv库 02问题…

人工智能 2023年5月26日
00141
（CVPR 2020）3DSSD: Point-based 3D Single Stage Object Detector

目前，基于体素的3D单级检测器已经有很多种，而基于点的单级检测器仍处于探索阶段。在本文中，我们首先提出了一种轻量级且有效的基于点的3D单级目标检测器，名为3DSSD，在精度和效率之…

人工智能 2023年5月28日
0081
TensorFlow败给PyTorch，谷歌：未来就靠你了，JAX

整理 | 彭慧中责编 | 屠敏出品 | CSDN（ID：CSDNnews）谷歌是机器学习领域的开拓者，它于2015年发布开源深度学习框架TensorFlow，开创了现代机器学习…

人工智能 2023年5月23日
0070
opencv学习笔记之图像模型

记录opencv中图像的进阶操作 RGB模型中还可能会有第四个alpha通道，表示颜色的透明度，这样也就变成了RGBA模型电视信号系统所采用的颜色编码方式。亮度（Y）红色分量…

人工智能 2023年6月22日
0071
生成语音对抗样本

前言本实验来自于Github/Fraunhofer-AISEC/ towards-resistant-audio-adversarial-examples carlini / a…

人工智能 2023年5月25日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31