Python – matplotlib – ROC曲线（Receiver Operating Characteristic curve）

2023年9月2日下午2:51 • Python • 阅读 61

文章目录

概念
*
预测模型的区分度（discrimination）
ROC曲线
AUC的置信区间
Python实现
*
ROC坐标点和AUC计算
AUC的95%置信区间
绘制曲线
实战操作

概念

预测模型的区分度（discrimination）

预测模型的区分度（discrimination）是用于反映模型区分阳性样本和阴性样本的能力。一个预测模型的输出中，如果阳性样本的预测值明显大于阴性样本的预测值，我们呈这个模型有较好的区分度。通常，预测模型的区分度由concordance index衡量（AKA. C-index, Harrell’s C-index, concordance C, C statistic）。ROC曲线（Receiver Operating Characteristic curve）是反映敏感性和特异性的综合指标。ROC曲线下面积（area under ROC curve, AUC）在二分类模型中等价于C-index，是用于评价诊断性（diagnostic）模型区分度的常用指标。

ROC曲线

给定一个预测模型，通过选择不同的阈值（threshold probability, pt），可以得到数对真阳性率（true positive rate, TPR）和假阳性率（false positive rate, FPR）。以假阳性率为横坐标，真阳性率为纵坐标，数对TPR和FPR的点相连，即为ROC曲线。多数情况下，样本量并不会很大，因此ROC曲线大多为阶梯状的。AUC可以通过简单的积分求得。

AUC的置信区间

样本量较大时，AUC的分布近似正态。因此，AUC的100(1–α)%置信区间可使用标准正态分布计算：
A U C ± Z α / 2 ∗ S E ( A U C ) AUC±Z_{\alpha/2}SE(AUC)A U C ±Z α/2 ∗S E (A U C )

Hanley和McNeil在1982年提出了一种计算AUC标准误的方式

Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. 1982;143(1):29-36.

令N1为阳性样本的数量，N2为阴性样本的数量，AUC的标准误由以下公式计算：
S E ( A U C ) = A U C ( 1 − A U C ) + ( N 1 − 1 ) ( Q 1 − A U C 2 ) + ( N 2 − 1 ) ( Q 2 − A U C 2 ) N 1 N 2 w h e r e Q 1 = A U C 2 − A U C , Q 2 = 2 ∗ A U C 2 1 + A U C SE(AUC) = \sqrt{\frac{AUC(1-AUC)+(N_1-1)(Q_1-AUC^2)+(N_2-1)(Q_2-AUC^2)}{N_1N_2}} \ where\ Q_1 = \frac{AUC}{2-AUC},\ Q_2 = \frac{2*AUC^2}{1+AUC}S E (A U C )=N 1 N 2 A U C (1 −A U C )+(N 1 −1 )(Q 1 −A U C 2 )+(N 2 −1 )(Q 2 −A U C 2 )w h e r e Q 1 =2 −A U C A U C ,Q 2 =1 +A U C 2 ∗A U C 2

Python实现

ROC坐标点和AUC计算

scikit-learn库的roc_curve()用于生成ROC曲线的每个坐标点（而不是直接绘制出ROC曲线），roc_auc_score()用于计算AUC值

from sklearn.metrics import roc_curve, roc_auc_score

FPR, TPR, _ = roc_curve(label, pred_prob, pos_label = 1)
AUC = roc_auc_score(label, pred_prob)

AUC的95%置信区间

from scipy.stats import norm
import numpy as np
def AUC_CI(auc, label, alpha = 0.05):
    label = np.array(label)
    n1, n2 = np.sum(label == 1), np.sum(label == 0)
    q1 = auc / (2-auc)
    q2 = (2 * auc ** 2) / (1 + auc)
    se = np.sqrt((auc * (1 - auc) + (n1 - 1) * (q1 - auc ** 2) + (n2 -1) * (q2 - auc ** 2)) / (n1 * n2))
    confidence_level = 1 - alpha
    z_lower, z_upper = norm.interval(confidence_level)
    lowerb, upperb = auc + z_lower * se, auc + z_upper * se
    return (lowerb, upperb)

绘制曲线

import matplotlib.pyplot as plt
def plot_AUC(ax, FPR, TPR, AUC, CI, label):
    label = '{}: {} ({}-{})'.format(str(label), round(AUC, 3), round(CI[0], 3), round(CI[1], 3))
    ax.plot(FPR, TPR, label = label)
    return ax

实战操作

使用scikit-learn的乳腺癌数据集（569个样本，每个样本30个特征，357个阳性样本，212个阴性样本）训练一个二分类逻辑回归模型

1.引用需要使用的第三方库

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

2.导入数据集，按7:3拆分训练集和测试集。因为用30个特征预测效果太好了，所以只用2个特征训练模型演示ROC。使用训练集拟合模型，并预测训练集和验证集样本。

features, label = load_breast_cancer(return_X_y = True)
features_train, features_test, label_train, label_test = train_test_split(features[:, :2], label, test_size = 3 / 10, random_state = 1)

LR_model = LogisticRegression(solver = 'liblinear', class_weight = 'balanced').fit(features_train, label_train)
pred_prob_train = LR_model.predict_proba(features_train)[:,1]
pred_prob_test = LR_model.predict_proba(features_test)[:,1]

3.计算ROC曲线相关参数

FPR_train, TPR_train, _ = roc_curve(label_train, pred_prob_train, pos_label = 1)
AUC_train = roc_auc_score(label_train, pred_prob_train)
CI_train = AUC_CI(AUC_train, label_train, 0.05)

FPR_test, TPR_test, _ = roc_curve(label_test, pred_prob_test, pos_label = 1)
AUC_test = roc_auc_score(label_test, pred_prob_test)
CI_test = AUC_CI(AUC_test, label_test, 0.05)

4.绘图

plt.style.use('ggplot')
fig, ax = plt.subplots()
ax = plot_AUC(ax, FPR_train, TPR_train, AUC_train, CI_train, label = 'train')
ax = plot_AUC(ax, FPR_test, TPR_test, AUC_test, CI_test, label = 'test')

5.添加细节

ax.plot((0, 1), (0, 1), ':', color = 'grey')
ax.set_xlim(-0.01, 1.01)
ax.set_ylim(-0.01, 1.01)
ax.set_aspect('equal')
ax.set_xlabel('False Positive Rate')
ax.set_ylabel('True Positive Rate')
ax.legend()
plt.show()

结果图

Python - matplotlib - ROC曲线（Receiver Operating Characteristic curve）

Original: https://blog.csdn.net/qq_48321729/article/details/123450996
Author: Doct.Y
Title: Python – matplotlib – ROC曲线（Receiver Operating Characteristic curve）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/766228/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Identity and Authentication – Sending Tokens with Requests

先给个简单代码来热热身 from flask import Flask, request app = Flask(__name__) @app.route(‘/headers’) …

Python 2023年8月15日
0048
员工离职困扰？来看AI如何解决，基于人力资源分析的 ML 模型构建全方案 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

Python 2023年10月23日
0053
遗传算法求解车辆路径优化问题VRP（Python代码实现）

学会了前面两篇遗传算法，但是那都是针对抽象的数学问题求解的，那么应用到现实中的实际问题中，我们又该怎样把遗传算法套进去呢，然后我第一个接触到的问题就是车辆路径优化问题VRP，当然也…

Python 2023年8月2日
0065
MySQL 性能压测工具-sysbench，从入门到自定义测试项

sysbench是一个开源的、基于LuaJIT（LuaJIT 是 Lua 的即时编译器，可将代码直接翻译成机器码，性能比原生 lua 要高）的、可自定义脚本的多线程基准测试工具，…

Python 2023年10月13日
0042
100天精通Python（数据分析篇）——第70天：Pandas常用排序、排名方法（sort_index、sort_values、rank）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月5日
0039
scrapy mysql 豆瓣_Scrapy爬取豆瓣电影并存入MySQL数据库

d: 进入D盘 scrapy startproject douban 创建豆瓣项目 cd douban 进入项目 scrapy genspider douban_spider mo…

Python 2023年10月4日
0044
Flask与HTML初探

Flask是一种web框架，为后续深入学习Django框架做铺垫，需要先使用flask框架了解一下HTML（超文本传输语言） from flask import Flask, re…

Python 2023年8月14日
0055
gdb使用简介

Pwn 是一种基于的调试器，主要用于漏洞利用和逆向工程。下面是一些 Pwn 的基本步骤： 1. 安装Pwn 可以 pip来安装Pwn ，命令如下： pip install pwn…

Python 2023年11月6日
0042
python找房源_Python租房信息分析！找到最适合自己的房源信息！

file_data.shape 空值处理 file_data = file_data.dropna file_data.shape 删除空值，最好先做判断空值处理 file_da…

Python 2023年8月22日
0050
畸变校正与极线校正（具体原理+Matlab代码）

附：相关需要的工具函数源代码（投影函数、校正矩阵计算等）见最下面 1. 畸变校正 1.1 形成原因图像畸变一般有两种，第一种是透镜本身的形状有问题，使得图像发生径向畸变；第二种是…

Python 2023年10月26日
0054
使用Python分析餐厅订单数据

相信很多小伙伴都多少了解过Python爬虫，如果没了解爬虫，建议你先去看我的爬虫入门，一片博客带你简单爬虫入门，但是不知道小伙伴们是否思考过我们爬取数据的目的，简单来说，我们通过网…

Python 2023年8月7日
0048
在C++中，为什么部分程序员喜欢在循环中写‘++i’而不是‘i++’？

自入行以来，无论是查阅资料、技术博客亦或是同事间的技术交流，都有一个共识: 在循环的时候，务必使用前置操作符，因为其性能优于后置操作符，久而久之，这个就像一个不成文的规定，大家都在…

Python 2023年9月26日
0062
使用浏览器inspect调试app

使用浏览器inspect调试app 在开发混合项目的过程中，常常需要在app环境排查问题，接口可以使用fiddler等工具来抓包，但是js错误就不好抓包了，这里介绍一种调试工具-浏…

Python 2023年10月12日
0052
pyspark 读取本地csv_pyspark 读取csv文件创建DataFrame的两种方法

pyspark 读取csv文件创建DataFrame的两种方法方法一：用pandas辅助 from pyspark import SparkContext from pyspar…

Python 2023年8月7日
0049
梅西进球了,用Python预测世界杯冠军是 … 网友：痛，太痛了

今天凌晨，夺冠热门阿根廷终于赢球了，梅西也打进了自己本届世界杯的第一粒进球！你熬夜看这场比赛了吗？小编也用Python预测了一下本届世界杯的冠军归属，结果却不是阿根廷，来一起看看…

Python 2023年10月27日
0055
【面试总结】接口自动化面试

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/upstudy/p/16712673.htmlAutho…

Python 2023年6月15日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31