回归模型的score得分为负_逻辑回归评分卡实现和评估

2023年6月18日下午1:38 • 人工智能 • 阅读 75

逻辑回归评分卡实现和评估

上一节讲得是模型评估，主要有ROC曲线、KS曲线、学习曲线和混淆矩阵。今天学习如何实现评分卡和对评分卡进行评估。

首先，要了解评分卡是如何从概率映射到评分的，这个之前写过评分卡映射的逻辑。一定要看，明白概率如何映射到评分的以及每个变量的得分如何计算。附上评分卡映射的代码。结合逻辑回归评分卡映射的原理才能看懂代码。

from sklearn.linear_model import LogisticRegression'''&#x7B2C;&#x516D;&#x6B65;&#xFF1A;&#x903B;&#x8F91;&#x56DE;&#x5F52;&#x6A21;&#x578B;&#x3002;&#x8981;&#x6C42;&#xFF1A;1&#xFF0C;&#x53D8;&#x91CF;&#x663E;&#x8457;2&#xFF0C;&#x7B26;&#x53F7;&#x4E3A;&#x8D1F;'''y = trainData['y']x = trainData[multi_analysis]lr_model = LogisticRegression(C=0.1)lr_model.fit(x,y)trainData['prob'] = lr_model.predict_proba(x)[:,1]# &#x8BC4;&#x5206;&#x5361;&#x523B;&#x5EA6;def cal_scale(score,odds,PDO,model):    """    odds&#xFF1A;&#x8BBE;&#x5B9A;&#x7684;&#x574F;&#x597D;&#x6BD4;    score:&#x5728;&#x8FD9;&#x4E2A;odds&#x4E0B;&#x7684;&#x5206;&#x6570;    PDO: &#x597D;&#x574F;&#x7FFB;&#x500D;&#x6BD4;    model:&#x903B;&#x8F91;&#x56DE;&#x5F52;&#x6A21;&#x578B;        return :A,B,base_score    """    B = PDO/np.log(2)    A = score+B*np.log(odds)    # base_score = A+B*model.intercept_[0]    print('B: {:.2f}'.format(B))    print('A: {:.2f}'.format(A))    # print('&#x57FA;&#x7840;&#x5206;&#x4E3A;&#xFF1A;{:.2f}'.format(base_score))    return A,B    #&#x5047;&#x8BBE;&#x57FA;&#x7840;&#x5206;&#x4E3A;50&#xFF0C;odds&#x4E3A;5%&#xFF0C;PDO&#x4E3A;10&#xFF0C;&#x53EF;&#x4EE5;&#x81EA;&#x884C;&#x8C03;&#x6574;&#x3002;&#x8FD9;&#x4E00;&#x6B65;&#x662F;&#x4E3A;&#x4E86;&#x8BA1;&#x7B97;&#x51FA;A&#x548C;B&#x3002;cal_scale(50,0.05,10,lr_model)def Prob2Score(prob, A,B):    #&#x5C06;&#x6982;&#x7387;&#x8F6C;&#x5316;&#x6210;&#x5206;&#x6570;&#x4E14;&#x4E3A;&#x6B63;&#x6574;&#x6570;    y = np.log(prob/(1-prob))    return float(A-B*y)trainData['score'] = trainData['prob'].map(lambda x:Prob2Score(x, 6.78,14.43))

可以看到，评分越高，违约概率越低。网上很多实现评分卡映射的代码，都没太看懂,这个是根据逻辑来写的，有时间再把映射逻辑整理一下。

1. 得分的KS曲线

和模型的KS曲线一样，只不过横坐标的概率变成了得分。直接放上代码。

&#x5F97;&#x5206;&#x7684;KSdef plot_score_ks(df,score_col,target):    """    df:&#x6570;&#x636E;&#x96C6;    target:&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x7684;&#x5B57;&#x6BB5;&#x540D;    score_col:&#x6700;&#x7EC8;&#x5F97;&#x5206;&#x7684;&#x5B57;&#x6BB5;&#x540D;    """    total_bad = df[target].sum()    total_good = df[target].count()-total_bad    score_list = list(df[score_col])    target_list = list(df[target])    items = sorted(zip(score_list,target_list),key=lambda x:x[0])    step = (max(score_list)-min(score_list))/200         score_bin=[]    good_rate=[]    bad_rate=[]    ks_list = []    for i in range(1,201):        idx = min(score_list)+i*step        score_bin.append(idx)        target_bin = [x[1] for x in items if x[0]

2. PR曲线

还是这个混淆矩阵的图，P是查准率、精确率，R是查全率、召回率。这两个指标时既矛盾又统一的。因为为了提高精确率P，就是要更准确地预测正样本，但此时往往会过于保守而漏掉很多没那么有把握的正样本，导致召回率R降低。
同ROC曲线的形成一样，PR曲线的形成也是不断移动截断点形成不同的(R,P)绘制成一条线。

当接近原点时，召回率R接近于0，精确率P较高，说明得分前几位的都是正样本。随着召回率的增加，精确率整体下降，当召回率为1时，说明所有的正样本都被挑了出来，此时的精确率很低，其实就是相当于你将大部分的样本都预测为正样本。注意，只用某个点对应的(R,P)无法全面衡量模型的性能，必须要通过PR曲线的整体表现。此外，还有F1 score和ROC曲线也能反映一个排序模型的性能。

PR曲线和ROC曲线的区别
当正负样本的分布发生变化时，ROC曲线的形状基本不变，PR曲线形状会发生剧烈变化。上图中PR曲线整体较低就是因为正负样本不均衡导致的。因为比如评分卡中坏客户只有1%，好客户有99%,将全部客户预测为好客户，那么准确率依然有99%。虽然模型整体的准确率很高，但并不代表对坏客户的分类准确率也高，这里坏客户的分类准确率为0，召回率也为0。

PR&#x66F2;&#x7EBF;def plot_PR(df,score_col,target,plt_size=None):    """    df:&#x5F97;&#x5206;&#x7684;&#x6570;&#x636E;&#x96C6;    score_col:&#x5206;&#x6570;&#x7684;&#x5B57;&#x6BB5;&#x540D;    target:&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x7684;&#x5B57;&#x6BB5;&#x540D;    plt_size:&#x7ED8;&#x56FE;&#x5C3A;&#x5BF8;        return: PR&#x66F2;&#x7EBF;    """    total_bad = df[target].sum()    score_list = list(df[score_col])    target_list = list(df[target])    score_unique_list = sorted(set(list(df[score_col])))    items = sorted(zip(score_list,target_list),key=lambda x:x[0])    precison_list = []    tpr_list = []    for score in score_unique_list:        target_bin = [x[1] for x in items if x[0]<=score] bad_num="sum(target_bin)" total_num="len(target_bin)" precison="bad_num/total_num" tpr="bad_num/total_bad" precison_list.append(precison) tpr_list.append(tpr) plt.figure(figsize="plt_size)" plt.title('pr曲线') plt.xlabel('查全率') plt.ylabel('精确率') plt.plot(tpr_list,precison_list,color="tomato" ,label="PR&#x66F2;&#x7EBF;" ) plt.legend(loc="best" return plt.show()< code></=score]>

3.得分分布图

理想中最好的评分卡模型应该是将好坏客户完全区分出来，但是实际中好坏用户的评分会有一定的重叠，我们要做的尽量减小重叠。
另外好坏用户的得分分布最好都是正态分布，如果呈双峰或多峰分布，那么很有可能是某个变量的得分过高导致，这样对评分卡的稳定性会有影响。

&#x5F97;&#x5206;&#x5206;&#x5E03;&#x56FE;def plot_score_hist(df,target,score_col,plt_size=None,cutoff=None):    """    df:&#x6570;&#x636E;&#x96C6;    target:&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x7684;&#x5B57;&#x6BB5;&#x540D;    score_col:&#x6700;&#x7EC8;&#x5F97;&#x5206;&#x7684;&#x5B57;&#x6BB5;&#x540D;    plt_size:&#x56FE;&#x7EB8;&#x5C3A;&#x5BF8;    cutoff :&#x5212;&#x5206;&#x62D2;&#x7EDD;/&#x901A;&#x8FC7;&#x7684;&#x70B9;        return :&#x597D;&#x574F;&#x7528;&#x6237;&#x7684;&#x5F97;&#x5206;&#x5206;&#x5E03;&#x56FE;    """        plt.figure(figsize=plt_size)    x1 = df[df[target]==1][score_col]    x2 = df[df[target]==0][score_col]    sns.kdeplot(x1,shade=True,label='&#x574F;&#x7528;&#x6237;',color='hotpink')    sns.kdeplot(x2,shade=True,label='&#x597D;&#x7528;&#x6237;',color ='seagreen')    plt.axvline(x=cutoff)    plt.legend()    return plt.show()

4.得分明细表

按分数段区分，看不同分数段的好坏样本情况、违约率等指标。

可以看到高分段的违约概率明显比低分段低，说明评分卡的效果是显著的。

&#x5F97;&#x5206;&#x660E;&#x7EC6;&#x8868;def score_info(df,score_col,target,x=None,y=None,step=None):    """    df:&#x6570;&#x636E;&#x96C6;    target:&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x7684;&#x5B57;&#x6BB5;&#x540D;    score_col:&#x6700;&#x7EC8;&#x5F97;&#x5206;&#x7684;&#x5B57;&#x6BB5;&#x540D;    x:&#x6700;&#x5C0F;&#x533A;&#x95F4;&#x7684;&#x5DE6;&#x503C;    y:&#x6700;&#x5927;&#x533A;&#x95F4;&#x7684;&#x53F3;&#x503C;    step:&#x533A;&#x95F4;&#x7684;&#x5206;&#x6570;&#x95F4;&#x9694;        return :&#x5F97;&#x5206;&#x660E;&#x7EC6;&#x8868;    """    df['score_bin'] = pd.cut(df[score_col],bins=np.arange(x,y,step),right=True)    total = df[target].count()    bad = df[target].sum()    good = total - bad        group = df.groupby('score_bin')    score_info_df = pd.DataFrame()    score_info_df['&#x7528;&#x6237;&#x6570;'] = group[target].count()    score_info_df['&#x574F;&#x7528;&#x6237;'] = group[target].sum()    score_info_df['&#x597D;&#x7528;&#x6237;'] = score_info_df['&#x7528;&#x6237;&#x6570;']-score_info_df['&#x574F;&#x7528;&#x6237;']    score_info_df['&#x8FDD;&#x7EA6;&#x5360;&#x6BD4;'] = score_info_df['&#x574F;&#x7528;&#x6237;']/score_info_df['&#x7528;&#x6237;&#x6570;']    score_info_df['&#x7D2F;&#x8BA1;&#x7528;&#x6237;'] = score_info_df['&#x7528;&#x6237;&#x6570;'].cumsum()    score_info_df['&#x574F;&#x7528;&#x6237;&#x7D2F;&#x8BA1;'] = score_info_df['&#x574F;&#x7528;&#x6237;'].cumsum()    score_info_df['&#x597D;&#x7528;&#x6237;&#x7D2F;&#x8BA1;'] = score_info_df['&#x597D;&#x7528;&#x6237;'].cumsum()    score_info_df['&#x574F;&#x7528;&#x6237;&#x7D2F;&#x8BA1;&#x5360;&#x6BD4;'] = score_info_df['&#x574F;&#x7528;&#x6237;&#x7D2F;&#x8BA1;']/bad    score_info_df['&#x597D;&#x7528;&#x6237;&#x7D2F;&#x8BA1;&#x5360;&#x6BD4;'] = score_info_df['&#x597D;&#x7528;&#x6237;&#x7D2F;&#x8BA1;']/good    score_info_df['&#x7D2F;&#x8BA1;&#x7528;&#x6237;&#x5360;&#x6BD4;'] = score_info_df['&#x7D2F;&#x8BA1;&#x7528;&#x6237;']/total    score_info_df['&#x7D2F;&#x8BA1;&#x8FDD;&#x7EA6;&#x5360;&#x6BD4;'] = score_info_df['&#x574F;&#x7528;&#x6237;&#x7D2F;&#x8BA1;']/score_info_df['&#x7D2F;&#x8BA1;&#x7528;&#x6237;']    score_info_df = score_info_df.reset_index()    return score_info_df

5.提升图和洛伦兹曲线

假设目前有10000个样本，坏用户占比为30%，我们做了一个评分卡(分数越低，用户坏的概率越高)，按照评分从低到高划分成10等份(每个等份用户数为1000)，计算每等份的坏用户占比，如果评分卡效果很好，那么越靠前的等份里，包含的坏用户应该越多，越靠后的等份里，包含的坏用户应该要更少。作为对比，如果不对用户评分，按照总体坏用户占比30%来算，每个等份中坏用户占比也是30%。将这两种方法的每等份坏用户占比放在一张柱状图上进行对比，就是提升图。

将这两种方法的累计坏用户占比放在一张曲线图上，就是洛伦兹曲线图。

此外，洛伦兹曲线可以比较两个评分卡的优劣，例如下图中虚线对应的分数假设是600分，那么在600分这cutoff点下，A和B的拒绝率都是40%，但A可以拒绝掉88%的坏用户，B只能拒掉78%的坏用户，说明A评分卡的效果更好。

&#x7ED8;&#x5236;&#x63D0;&#x5347;&#x56FE;&#x548C;&#x6D1B;&#x4F26;&#x5179;&#x66F2;&#x7EBF;def plot_lifting(df,score_col,target,bins=10,plt_size=None):    """    df:&#x6570;&#x636E;&#x96C6;&#xFF0C;&#x5305;&#x542B;&#x6700;&#x7EC8;&#x7684;&#x5F97;&#x5206;    score_col:&#x6700;&#x7EC8;&#x5206;&#x6570;&#x7684;&#x5B57;&#x6BB5;&#x540D;    target:&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x540D;    bins:&#x5206;&#x6570;&#x5212;&#x5206;&#x6210;&#x7684;&#x7B49;&#x4EFD;&#x6570;    plt_size:&#x7ED8;&#x56FE;&#x5C3A;&#x5BF8;        return:&#x63D0;&#x5347;&#x56FE;&#x548C;&#x6D1B;&#x4F26;&#x5179;&#x66F2;&#x7EBF;    """    score_list = list(df[score_col])    label_list = list(df[target])    items = sorted(zip(score_list,label_list),key = lambda x:x[0])    step = round(df.shape[0]/bins,0)    bad = df[target].sum()    all_badrate = float(1/bins)    all_badrate_list = [all_badrate]*bins    all_badrate_cum = list(np.cumsum(all_badrate_list))    all_badrate_cum.insert(0,0)        score_bin_list=[]    bad_rate_list = []    for i in range(0,bins,1):        index_a = int(i*step)        index_b = int((i+1)*step)        score = [x[0] for x in items[index_a:index_b]]        tup1 = (min(score),)        tup2 = (max(score),)        score_bin = tup1+tup2        score_bin_list.append(score_bin)        label_bin = [x[1] for x in items[index_a:index_b]]        bin_bad = sum(label_bin)        bin_bad_rate = bin_bad/bad        bad_rate_list.append(bin_bad_rate)    bad_rate_cumsum = list(np.cumsum(bad_rate_list))    bad_rate_cumsum.insert(0,0)        plt.figure(figsize=plt_size)    x = score_bin_list    y1 = bad_rate_list    y2 = all_badrate_list    y3 = bad_rate_cumsum    y4 = all_badrate_cum    plt.subplot(1,2,1)    plt.title('&#x63D0;&#x5347;&#x56FE;')    plt.xticks(np.arange(bins)+0.15,x,rotation=90)    bar_width= 0.3    plt.bar(np.arange(bins),y1,width=bar_width,color='hotpink',label='score_card')    plt.bar(np.arange(bins)+bar_width,y2,width=bar_width,color='seagreen',label='random')    plt.legend(loc='best')    plt.subplot(1,2,2)    plt.title('&#x6D1B;&#x4F26;&#x5179;&#x66F2;&#x7EBF;&#x56FE;')    plt.plot(y3,color='hotpink',label='score_card')    plt.plot(y4,color='seagreen',label='random')    plt.xticks(np.arange(bins+1),rotation=0)    plt.legend(loc='best')    return plt.show()plot_lifting(trainData,'score','y',bins=10,plt_size=(10,5))

6.设定cutoff

cutoff即根据评分划分通过/拒绝的点，其实就是看不同的阈值下混淆矩阵的情况。设定cutoff时有两个指标，一个是误伤率，即FPR，就是好客户中有多少被预测为坏客户而拒绝。另一个是拒绝率，就是这样划分的情况下有多少客户被拒绝。

&#x8BBE;&#x5B9A;cutoff&#x70B9;&#xFF0C;&#x8861;&#x91CF;&#x6709;&#x6548;&#x6027;def rule_verify(df,col_score,target,cutoff):    """    df:&#x6570;&#x636E;&#x96C6;    target:&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x7684;&#x5B57;&#x6BB5;&#x540D;    col_score:&#x6700;&#x7EC8;&#x5F97;&#x5206;&#x7684;&#x5B57;&#x6BB5;&#x540D;    cutoff :&#x5212;&#x5206;&#x62D2;&#x7EDD;/&#x901A;&#x8FC7;&#x7684;&#x70B9;        return :&#x6DF7;&#x6DC6;&#x77E9;&#x9635;    """    df['result'] = df.apply(lambda x:30 if x[col_score]<=cutoff else 10,axis="1)" tp="df[(df['result']==30)&(df[target]==1)].shape[0]" fn="df[(df['result']==30)&(df[target]==0)].shape[0]" bad="df[df[target]==1].shape[0]" good="df[df[target]==0].shape[0]" refuse="df[df['result']==30].shape[0]" passed="df[df['result']==10].shape[0]" acc="round(TP/refuse,3)" tpr="round(TP/bad,3)" fpr="round(FN/good,3)" pass_rate="round(refuse/df.shape[0],3)" matrix_df="pd.pivot_table(df,index='result',columns=target,aggfunc={col_score:pd.Series.count},values=col_score)" print('精确率:{}'.format(acc)) print('查全率:{}'.format(tpr)) print('误伤率:{}'.format(fpr)) print('规则拒绝率:{}'.format(pass_rate)) return matrix_df< code></=cutoff>

Original: https://blog.csdn.net/weixin_31235909/article/details/112483413
Author: 红豆小漫
Title: 回归模型的score得分为负_逻辑回归评分卡实现和评估

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635284/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

1.什么是闭包

什么是闭包 1. 概念闭包（closure）指有权访问另一个函数作用域中变量的 函数。—《JavaScript高级程设计》简单理解就…

人工智能 2023年7月31日
0078
图像处理/人工智能/opencv之深入理解模板匹配算法

目录 * – 1、什么是模板匹配 – 2、模板匹配算法 – 3、介绍opencv相关api 1、什么是模板匹配简单来说模板匹配就是通过现有的模…

人工智能 2023年6月18日
00105
OpenCV和OpenGL的异同

OpenCV OpenCV是一个基于 BSD许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android、Mac OS操作系统上。轻量级…

人工智能 2023年7月18日
00158
如何搭建普罗米修斯 Prometheus

如何搭建普罗米修斯 Prometheus 1.下载Prometheus 进到这个网址 https://github.com/prometheus/prometheus/releas…

人工智能 2023年6月26日
0087
【OpenCV 例程 300 篇】101. 自适应中值滤波器

专栏地址：『youcans 的 OpenCV 例程 300篇 – 总目录』【第 7 章：图像复原与重建】100. 自适应局部降噪滤波器101. 自适应中值滤波器102…

人工智能 2023年6月20日
0083
Patch2Pix（CVPR 2021）特征点检测与匹配论文精度笔记

前言论文地址论文补充材料 / 附录代码地址翻译并记录阅读每段的感受和写作逻辑。大概了解特征点检测和目标检测的大致方法的话，不用递归式读论文也能基本理解本文的方法。参考文献检测…

人工智能 2023年5月28日
0062
NeRF OpenCV OpenGL COLMAP DeepVoxels坐标系朝向

OpenCV坐标系朝向 x points right, y points down, z points towards scene即[right, down, forwards] …

人工智能 2023年6月19日
00100
RNA 18. SCI 文章中基因集变异分析 GSVA

GSVA 也是 SCI 文章中常见的分析方法，在我们获得多个pathway的时候，可以比较pathway在样本分组中的差异，这样可以更好的确定每个通络的活性。前言 GSVA全名G…

人工智能 2023年6月19日
0066
【计算机视觉】不来试试图片轮廓提取？

文章目录 🚩 前言 🍈 边缘提取原理 * 卷积用特殊的卷积核进行轮廓提取 🍏 开始轮廓提取 * 代码 🚩 前言最近学到了深度学习的卷积操作，在卷积神经网络出现之前，就已经有使用…

人工智能 2023年7月27日
0069
如何搭建Pytorch环境（Windows版）

由于CUDA Version更新到11.7了，因此，本教程也同步更新 1 安装Anaconda （1）首先打开Anaconda官网，下载对应平台的安装包Anaconda官网我们这里…

人工智能 2023年7月21日
0061
RLS递归最小二乘法(Recursive Least Squares)

感谢B站Up 凩子白的讲解视频, 大多数的RLS算法介绍都是从各种专业领域角度讲解的(比如滤波器等角度), 对于缺…

人工智能 2023年6月15日
0087
Transformer是什么？看完这篇你就醍醐灌顶

前言由谷歌团队提出的预训练语言模型BERT近年来正在各大自然语言处理任务中屠榜（话说学者们也挺有意思的，模型名都强行凑个芝麻街的人物名，哈哈哈）。 BERT算法的最重要的部分便是…

人工智能 2023年6月16日
0071
全面解析Kmeans聚类算法（Python）

Clustering (聚类) 是常见的unsupervised learning (无监督学习)方法，简单地说就是把相似的数据样本分到一组（簇），聚类的过程. 我们并不清楚某一类…

人工智能 2023年5月31日
00146
Graphene图数据建模工具

Graphene图数据建模工具 Graphene图数据建模工具 * 一、Graphene是什么？二、谁可以使用它？三、为什么需要这样的工具？四、核心功能五、演示界面六、如…

人工智能 2023年6月1日
0087
通用目标检测开源框架YOLOv6在美团的量化部署实战

基于美团目标检测模型开源框架 YOLOv6，本文介绍了一种通用的量化部署方案，在保持精度的同时大幅提升了检测的速度，为通用检测的工业化部署探索出一条可行之路，希望能给大家带来一些启…

人工智能 2023年7月10日
0093
Prompt Learning详解

现阶段NLP最火的两个idea 一个是对比学习（contrastive learning）另一个就是 prompt prompt 说简单也很简单看了几篇论文之后发现其实就是构建…

人工智能 2023年5月27日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31