风控ML[15] | 风控模型报告以及上线后需要监控的内容

风控ML[15] | 风控模型报告以及上线后需要监控的内容

一个优秀的模型上线报告以及一个优秀的上线后模型监控报表,在我们日常风控建模中是非常的常用并且有用的,今天这个话题就来和大家聊聊怎么去制作 优秀的模型上线报告以及上线后的模型监控报表,主要聊聊思路,先要有一个 全局的感受,具体实现放在下一期吧。以下内容均基于自己浅薄的经历提炼的,如有纰漏,欢迎指正或补充哦,欢迎交流~

00 Index

01 聊聊为什么要做这件事
02 标配的风控模型上线报告应具备哪些内容
0201 模型现状
0202 KS值与各种曲线
0203 模型分组排序性
0204 跨时间模型分组稳定性
03 稳妥的模型监控报表应具备哪些内容
0301 模型一致性监控
0302 模型效果监控
0303 客群稳定性监控
0304 核心特征稳定性监控
0305 核心业务指标监控
04 总结一下

01 聊聊为什么要做这件事

其实是两件事,一份是模型报告,一份是模型监控报表。
前者,为什么要做其实大家也应该有自己的想法,主要就是为了 说服老板你这次开发的模型有用,要比线上正在运行的模型或者策略规则有用,不然为什么要费这么大劲去开发和上线呢?那么,我们需要从哪几个角度去描述我们的新模型效果,才能更好地让老板明白并接受?这是考验我们的地方。
后者,就是为了 持续监控我们的模型效果,从刚上线到稳定运行再到后续的迭代更新,都是依靠我们的监控结果的,明确几个监控的维度,写好脚本每天或者每周跑一下,可视化给到我们自己去看看,做到心中有数。
以下讲解的报告, 针对的对象偏向于模型本身的指标,而其实实际业务中,我们需要监控的内容有太多太多了,比如 各个审批节点的通过率、逾期分布情况、Vintage分析、Roll Rate分析、Flow Rate分析等等,这篇文章就不展开来讲咯。

02 标配的风控模型上线报告应具备哪些内容

0201 模型现状
想要突出你模型的好,你得先分析旧模型的不好。
比如说,把目前线上模型的实际表现进行统计,如 KS值、分组排序性、PSI等基础指标。一般,我们需要和当时模型上线时候的指标水平进行对比,然后按照年、月或者周去统计指标, 主要可以突出其趋势水平,也就是说模型慢慢地失效,从而引出做模型迭代的背景,另外,也可以作为新模型的基准。

0202 KS值与各种曲线
我们需要描述模型的效果,在风控领域最直接的指标就是KS值,我们一般会认为 KS>0.3才具备最基本的上线要求,而且我们要保证 训练集、测试集以及跨时间测试集都需要达到标准哦!

风控ML[15] | 风控模型报告以及上线后需要监控的内容
1)KS曲线:有两条关键曲线,分别是TPR和FPR,这是我们对于模型预测结果(正类的概率)划分不同阈值后得到的值所绘制出来的曲线。 TPR为True Position Rate,真阳率,也叫召回率,计算公式为:

402 Payment Required

FPR为False Position Rate,假阳率,计算公式为:

风控ML[15] | 风控模型报告以及上线后需要监控的内容

当然了,KS曲线的横纵坐标,还可以是 分桶桶号以及好坏样本累计占比率,如下图:

风控ML[15] | 风控模型报告以及上线后需要监控的内容

2)ROC曲线:ROC曲线又叫Receiver Operating Characteristic曲线,横坐标是FPR,纵坐标时TPR,我们希望TPR越大越好,最好等于1,FPR越小越好,最好等于0,而这条曲线下面的面积(under the curse),我们叫做AUC。

风控ML[15] | 风控模型报告以及上线后需要监控的内容

3)Lift曲线
Lift曲线,简单理解,就是对比在不使用模型的情况下,预测能力提升了多少,其计算公式如下:

402 Payment Required

风控ML[15] | 风控模型报告以及上线后需要监控的内容

0203 模型分组排序性
分组排序性在风控模型中的重要性不言而喻了,所以这个指标也是领导需要着重看的。我们对于目标的预测结果,都会在值域0-1之间,而预测值越大则代表越有可能是目标值1。一般情况下,我们会对预测结果按照一定的阈值,进行分组,比如分为A/B/C/D/E/F共6组,越靠后就意味着越有可能是高风险客户,我们给予一定的风控规则进行拦截。所以,我们的模型, 需要对于分组后的BadRate,满足从A->F组,逐步升高的趋势,才符合我们的期望!

风控ML[15] | 风控模型报告以及上线后需要监控的内容

0204 跨时间模型分组稳定性
当然,即便我们的训练、测试以及跨时间测试集均满足上述的要求,但还有一个点我们是需要关注的,那就是稳定性,特别是跨时间上的稳定性,我们需要保证我们新上线的模型, 在不同的月份上使用模型后得到的分组占比,相对稳定。

风控ML[15] | 风控模型报告以及上线后需要监控的内容

03 稳妥的模型监控报表应具备哪些内容

当我们的模型上线之后,我们需要持续地对模型进行监控,以免未来的变化导致我们的模型失效,无论是客群的变化、数据源的变化或者是政策的变化等,都会对我们的模型造成影响, 我们没法预知或改变,但我们需要感知

0301 模型一致性监控
这个监控在模型上线前期需要重点关注,因为我们模型各种指标的计算和效果评估,所用到的输入特征都是线下计算得到的, 虽然我们在上线前会去校验线上线下的特征一致性,但是也难免有些场景没有考虑到以及测试到的,还有就是模型运行环境的变化,也有可能带来模型分数的差异,如果刚好落在不同分桶的边界上,就会比较尴尬了,当然我们也允许一定的误差,但这个误差有多大?我们需要有感知。

风控ML[15] | 风控模型报告以及上线后需要监控的内容

我们可以按照天的时间维度去统计指标,最后前端报表展示的时候,可以适当地按照周或者月去进行深一层聚合。

0302 模型效果监控
当我们的数据积累到1个月以上之后,我们就可以来计算一下线上模型的效果了,比如 KS值、AUC等,同时也需要持续关注 模型的排序性情况。

风控ML[15] | 风控模型报告以及上线后需要监控的内容

0303 客群稳定性监控
随着时间的推移,我们的客群可能会因为这种原因而导致分布发生了改变,比如我们拒绝通过的客户、风控策略放松收紧、宣传方式改变、政策改变等等,会让当下的进件客群的好坏分布情况, 与当时建模时候的客群分布有较大的差异,从而导致模型的失效。我们需要感知到这种变化,因为这种变化一般来说 不是立竿见影的,而是一种趋势,慢慢地就变成了当前这个样子。而需要实现对这个客群变化的监控,我们可以 间接地使用分组稳定性来监控,如果上线后的分组占比情况与上线时一致,直观表现就是曲线的拟合程度高(基本重合),量化的话我们可以使用PSI指标来计算

风控ML[15] | 风控模型报告以及上线后需要监控的内容

0304 核心特征稳定性监控
这里其实可以理解是上一个监控的延续。当我们发现模型的分组占比分布出现了比较大的变化,第一个我们需要去定位一下的是模型特征是不是正常的。可能因为各种原因吧,比如数据源出问题了,导致缺失值增多,也有可能是某个值域范围内的客户增多,可让我们进一步分析变化的原因。

风控ML[15] | 风控模型报告以及上线后需要监控的内容

0305 核心业务指标监控
核心指标,主要就是模型部署节点的审批通过率情况,我们需要持续观测这个指标,从不同的时间维度、分组客户的情况去观测。另外,传统的Vintage分析、Roll Rate分析以及Flow Rate分析也需要安排上。

04 总结一下

上线前的模型报告我这边介绍的只是一个标准搭配版本,其实还可以有很多其他维度的,后续有机会继续分享一下。而模型上线后,我们前期主要监控模型整体及变量的稳定性,衡量标准主要是 排序性和PSI,并每日观察模型规则的拒绝率与线下的差异。后期积累一定线上用户后可评估线上模型的AUC与KS,不过需要注意的是,比如像线上KS值这种指标,可能会因为线上模型通过率越低,KS值越低,所以具体的值监控起来没有太大的意义, 我们更多的是需要关注趋势

Reference

[1] 风控模型监控报告系统设计
https://zhuanlan.zhihu.com/p/83025492
[2] 模型评估方法之KS曲线和ROC曲线
https://zhuanlan.zhihu.com/p/87456089

风控ML[15] | 风控模型报告以及上线后需要监控的内容

Original: https://blog.csdn.net/Pysamlam/article/details/124113927
Author: Pysamlam
Title: 风控ML[15] | 风控模型报告以及上线后需要监控的内容

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/600718/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 数据处理之异常值处理

    异常值是指那些在数据集中存在的不合理的值,需要注意的是,不合理的值是偏离正常范围的值,不是错误值。比如人的身高为-1m,人的体重为1吨等,都属于异常值的范围。虽然异常值不常出现,但…

    人工智能 2023年7月17日
    0108
  • ‘labelme‘ 不是内部或外部命令,也不是可运行的程序问题解决

    文章目录 一、安装labelme * 1.创建虚拟环境 2.安装pyqt支持库 3.安装Labelme 二、lableme启动 一、安装labelme 1.创建虚拟环境 命令行输入…

    人工智能 2023年6月17日
    0125
  • 超全!Python图形界面框架PyQt5使用指南!

    使用Python开发图形界面的软件其实并不多,相对于GUI界面,可能Web方式的应用更受人欢迎。但对于像我一样对其他编程语言比如C#或WPF并不熟悉的人来说,未必不是一个好的工具。…

    人工智能 2023年7月4日
    0102
  • 张量在神经网络算法中的角色是什么

    引言 在神经网络算法中,张量(tensor)起着非常重要的作用。它是表示多维数据的方式,可以存储和处理神经网络中的各种数据,并传递给下一层的神经元。本文将详细介绍张量在神经网络算法…

    人工智能 2024年1月1日
    069
  • 【WeiboSpider】微博爬虫使用攻略

    啊哦~你想找的内容离你而去了哦 内容不存在,可能为如下原因导致: ① 内容还在审核中 ② 内容以前存在,但是由于不符合新 的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。 可…

    人工智能 2023年7月4日
    064
  • 大三课设-分类聚类预测系统

    首先看一下我们的课设要求: 1.熟悉机器学习的完整流程,包括:问题建模,获取数据,特征工程,模型训练,模型调优,线上运行;或者分为三大块:数据准备与预处理,模型选择与训练,模型验证…

    人工智能 2023年7月2日
    086
  • 【自动驾驶】PID实现轨迹跟踪

    文章目录 参考资料 1. PID控制原理 * 1.1 基本概念 1.2 数字 PID 控制算法 – 1. 位置式PID + python代码实现 2. 增量式PID +…

    人工智能 2023年6月2日
    0106
  • matlab 回归

    我发现这两天写题目,回归真的是个万能方法,但是我只会最简单的线性回归,为此特地记录一下以下几种方法: 1):regress 简单线性回归,可以是一元,也可以是多元,具体用法可以看这…

    人工智能 2023年6月18日
    0103
  • 2022数模国赛C题思路解析(可供训练用 源码可供参考)

    博主和两位队友参加了此次比赛,仅以此篇博客聊表纪念,并且最后也获得了不错的成绩 希望对大家有所帮助 持续更新~~ 关于数据集和完整代码可以关注点赞收藏后评论区留下QQ邮箱或者私信博…

    人工智能 2023年7月26日
    099
  • ENVI结合ArcGIS制作2001-2018年NDVI趋势图(附实用工具和数据下载)

    趋势面分析是拟合数学面的一种统计方法.具体的方法就是用数学方法计算出一个数学曲面来拟合数据中的区域性变化的”趋势”,这个数学面叫做趋势面,方法的过程叫做趋势…

    人工智能 2023年6月17日
    0104
  • AirSim中获取视觉、惯性数据方法研究

    最近在做AirSim中部署V-SLAM,抽空将之前尝试的许多种AirSim获取数据的方法大致总结了一下 ​ AirSim自身提供了ros接口,可以将AirSim仿真中的数据发布到r…

    人工智能 2023年5月26日
    0102
  • python–matplotlib-绘制折线图

    matplotlib 一、matplotlib–数据可视化图表 二、绘制折线图 * – 1.设置图片大小: 2. 保存图片: 3.设置x、y轴的刻度 4.设置坐标中文字…

    人工智能 2023年5月26日
    085
  • 分类问题的评价指标

    符号含义TP将正类预测为正类FN将正类预测为负类FP将负类预测为正类TN将负类预测为负类 实际为正实际为负 TP真正例FP假正例 FN假负例TN真负例 P(positive) 和 …

    人工智能 2023年7月2日
    083
  • T5 模型:NLP Text-to-Text 预训练模型+数据清洗

    简单总结T5模型: T5模型:是一个端到端,text-to-text 预训练模型 T5模型也是训练七十个模型中一个较通用的一个框架。 T5模型:可以做文本分类,情感分析,机器翻译等…

    人工智能 2023年5月28日
    0120
  • torchserve使用教程

    官方文档地址: 下载项目: git clone GitHub – pytorch/serve: Model Serving on PyTorch —&#82…

    人工智能 2023年7月21日
    076
  • Pandas vs Spark:获取指定列的N种方式

    导读 本篇继续Pandas与Spark常用操作对比系列,针对常用到的获取指定列的多种实现做以对比。 注:此处的Pandas特指DataFrame数据结构,Spark特指spark….

    人工智能 2023年7月8日
    0103
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球