关于分类任务的常见指标一文就够了（P、R、F1、ROC、AUROC、AP）

2023年7月1日下午3:01 • 人工智能 • 阅读 104

分类任务

相关(Relevant),正类 无关(NonRelevant),负类 被检索到(Retrieved)

（判为P）true positives(
TP 正类判定为正类

,)false positives(
FP 负类判定为正类 未被检索到(Not Retrieved)

（判为N）false negatives(
FN 正类判定为负类

)true negatives(
TN 负类判定为负类

精确率（precision）(查准率)

P = T P T P + F P P=\frac{TP}{TP+FP}P =T P +F P T P

正确判为P的样本数占判为P的样本总数的比值
判断后的结果而言，准不准
找的对

召回率（recall）（查全率）

R = T P T P + F N R=\frac{TP}{TP+FN}R =T P +F N T P

正确判为P的样本数占真实P类样本总数的比值
以真实的样本而言，判断（P）到了多少
找的全

F 1 F1 F 1 -measure

1 F 1 = 1 2 ⋅ ( 1 P + 1 R ) F 1 = 2 P R P + R = 2 T P 2 T P + F P + F N \frac{1}{F1}=\frac{1}{2}\cdot(\frac{1}{P}+\frac{1}{R}) \F1=\frac{2PR}{P+R}\=\frac{2TP}{2TP+FP+FN}F 1 1 =2 1 ⋅(P 1 +R 1 )F 1 =P +R 2 P R =2 T P +F P +F N 2 T P

准确率和召回率的调和平均

F β F_\beta F β 加权调和平均

1 F β = 1 1 + β 2 ⋅ ( 1 P + β 2 R ) F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R \frac{1}{F_\beta}=\frac{1}{1+\beta^2}\cdot(\frac{1}{P}+\frac{\beta^2}{R})\ F_\beta=\frac{(1+\beta^2)\times P \times R}{(\beta^2\times P)+R}F β1 =1 +β2 1 ⋅(P 1 +R β2 )F β=(β2 ×P )+R (1 +β2 )×P ×R

β = 1 \beta=1 β=1退化为标准的F 1 F1 F 1
β > 1 \beta>1 β>1查全率R R R有更大影响
β < 1 \beta查准率P P P有更大影响

PR曲线

若一个学习器的 P-R 曲线被另一个学习器的曲线完全”包住 “，则可断言后者的性能优于前者

; AP（Average Precision）和mAP（mean Average Precision）

一个典型的PR曲线

一个召回率下可能会有多个precision
做法
画出PR曲线
取大于等于自身recall下的最大precision，平滑曲线
计算平滑曲线下面积（求均值）
A P = P 1 + P 2 + . . . + P n n AP=\frac{P_1+P_2+…+P_n}{n}A P =n P 1 +P 2 +…+P n
其中P为平滑后的值,n为召回率取值点的个数
mAP，所有类的AP值的平均

m A P = A P 0 + A P 1 + . . . + A P N N mAP=\frac{AP_0+AP_1+…+AP_N}{N}m A P =N A P 0 +A P 1 +…+A P N

其中N为类的总数

TPR（True Positive Rate）（真正例率）

T P R = T P T P + F N TPR=\frac{TP}{TP+FN}T P R =T P +F N T P

以所有的正例为底，正确分类为正例的正例数为分子
能将正例分对的概率
同召回率
真正的正例

FPR（False Positive Rate）（假正例率）

F P R = F P F P + T N FPR=\frac{FP}{FP+TN}F P R =F P +T N F P

以所有负例为底，误分类为正例的负例数为分子
负例错分为正例的概率
错误的正例

ROC曲线（Receiver Operating Characteristic）

根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测（选择不同的位置进行截断）

绘图过程

将预测结果进行排序
将分类阈值取为最大，此时，所有的样本都预测为”负例”，FPR和TPR都为0
以样本为步长，降低分类阈值，计算FPR和TPR
将分类阈值取最小，此时，所有的样本都预测为”正例”，FPR和TPR都为1
ROC空间中，X轴是FPR，Y轴是TPR
对角线对应为随机分类的结果
点（0，1）为将所有正例排在所有反例前面的理想模型，即有一个阈值可以完美分出正例和反例
曲线距离左上方越近，性能越好
若一个学习器的 ROC 曲线被另一个学习器的曲线完全”包住”，则可断言后者的性能优于前者
若两个学习器的 ROC 曲线发生交叉，可比较 ROC 曲线下的面积，即 AUC

; AUC（AUROC）

AUC为ROC曲线覆盖的面积
物理意义：任取一对（正、负）样本，正样本的score大于负样本的score的概率

AUC越大，分类器分类效果越好。
AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

优点：

不受正负样本比例的影响
适合于排序业务，主要衡量一个模型的排序能力

缺点

没有关注模型预测的具体概率值
无法反应正样本内部的排序能力以及负样本内部的排序能力

Original: https://blog.csdn.net/qq_42212890/article/details/123347207
Author: qq_42212890
Title: 关于分类任务的常见指标一文就够了（P、R、F1、ROC、AUROC、AP）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663538/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据科学必备Pandas数据预处理方法汇总

大家好，我是Mr数据杨。故事始于混乱的三国时期，那时的国家就如同一个含有缺失数据的DataFrame。国家需要稳固的政权，精确的信息，就如同需要完整的数据集。然而，这并非易事，正如…

人工智能 2023年7月6日
0076
膨胀卷积（Dilated convolutions）（又叫空洞卷积、扩张卷积）

一、背景论文： Multi-Scale Context Aggregation by Dilated Convolutions 大部分图像分割的框架都是经历一系列的卷积和下采样的…

人工智能 2023年6月16日
0087
SparkSql Handle Data Ways

序言有多种方式去使用Spark SQL: SQL DataFrames API Datasets API 但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以…

人工智能 2023年7月8日
0075
Python项目演练：使用深度学习自动识别车牌号【附源代码】

本文分享的项目旨在识别车牌。为了检测车牌，我们将使用 OpenCV 来识别车牌，并使用 python pytesseract 从车牌中提取字符和数字。 OpenCV 是一个开源机器…

人工智能 2023年7月20日
0055
良/恶性乳腺肿瘤预测(逻辑回归分类器)

乳腺肿瘤预测案例：良/恶性乳腺肿瘤预测 * 1.1 简介 1.2 代码 – 1.2.1 导入数据集 1.2.2 浏览数据的基本信息 1.2.3 查看数据的基本统计信息…

人工智能 2023年7月2日
0089
基于Python实现的手写数字识别系统

资源下载地址：https://download.csdn.net/download/sheziqiong/85722434资源下载地址：https://download.csdn….

人工智能 2023年6月16日
0075
基础的强化学习(RL)算法及代码详细demo

文章目录 * – + 一、Sarsa (悬崖问题) + * 1.1 CliffWalking-v0环境介绍 * 1.2 Sarsa算法流程 * 1.3 具体代码 * 1…

人工智能 2023年6月23日
00105
proxmox 直通显卡（GPU）

序号修订内容修订时间1新增20210622 本文主要介绍基于proxmox 虚拟机直通显卡，最终希望在该宿主机上建两个虚机，各自直通一张gpu 卡，两台虚机同时使用。（一）物理…

人工智能 2023年7月12日
0083
数据科学家的一天，是怎样度过的？

只要你每天上网，刷微博，刷抖音，聊微信，玩游戏，那你每天都在产生数据。现在互联网用户每天产生的数据多达2.5万亿字节，我们今天收集利用的数据中，90%是过去2年产生的。数据科学家…

人工智能 2023年6月11日
0090
图像相似度对比分析软件,图像相似度计算方法

怎么对比两张图片的相似度 1、首先打开微信，选择底部”发现”。如图所示。2、然后在点击进入”小程序”。如图所示。3、然后输入&#82…

人工智能 2023年7月13日
0058
R语言计算回归模型残差平方和(Residual Sum of Squares)实战，并基于残差平方和比较模型优劣

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0091
Python-Tensorflow图像数字验证码识别

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月23日
00101
图像特征点提取及匹配的几种方法总结——基于C++和OPENCV实现SIFT、SURF、ORB、FAST

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
0096
最小样本量n的选择

1 前言读曼昆的经济学原理的时候，印象最深刻的一句话是：People face trade-offs, the cost of something is what you giv…

人工智能 2023年7月17日
0075
靠谱！难怪销量这么高！好用的工业路由器就属它了！

家用路由器想必大家已经非常熟悉，今天介绍的主角是工业路由器。工业路由器作为物联网无线通信设备的一种，能够利用公共无线网络提供无线远距离数据传输功能。相比于家用路由器，工业路由器更…

人工智能 2023年6月6日
00100
如何理解基于深度学习的点云补全算法 – PF-Net (Point Fractal Network for 3D Point Cloud Completion) ?

CV_6 PF-Net 算法解析一. 引言了解激光雷达- LiDAR 特性的同学们都知道，LiDAR有一个致命的缺陷，那就是随着被检测物体的距离越来越远，根据LiDAR获取的点…

人工智能 2023年5月26日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31