模型纠偏之保序回归

2023年6月17日下午12:17 • 人工智能 • 阅读 72

模型纠偏背景

广告系统和推荐系统有个显著的不同，广告模型要求预估值绝对的准确，而推荐模型大部分只要求序一致就行，主要是因为广告的模型设计到计费逻辑，所以需要保证预估绝对值的准确性，模型层面上，可以尽量保证特征、数据样本要做到准确，尽管如此，仍然模型可能存在预估的偏差，那么在模型层面之外，就需要一个更加强有力的纠偏策略，这也是本文介绍的点
reference

本文主要参考

[1]Predicting Good Probabilities With Supervised Learning
[2]ACTIVE SET ALGORITHMS FOR ISOTONIC REGRESSION; A UNIFYING FRAMEWORK
[3]1.15. Isotonic regression

两种纠偏方法

Platt Calibration

对于某个模型输出值f(x)，platt calibration的方法是将f(x)当做输入，再去训练交叉熵模型

f为原始模型预估值，A和B为训练参数

相当于再套了一层模型来做参数调整

保序回归 Isotonic Regression

保序回归问题定义：
这里用sklearn的定义：

上式 w i w_i w i 为样本i的权重，y i y_i y i 为样本真实值(实际一般是后验)， y i ^ \hat{y_i}y i ^ 为要求解的值，x i x_i x i 为样本i的模型预估值，需要保证的是对于任意的x i ≤ x j x_i \le x_j x i ≤x j 都有y i ^ ≤ y j ^ \hat{y_i} \leq \hat{y_j}y i ^≤y j ^ 这也就是保序的由来
保序的场景：在广告系统中，模型预估值会作用到后面的ranking排序，对于一个pv有n条候选，会预估出n个预估值 x i x_i x i ，同时会有对应的n个历史统计后验值y i y_i y i (一般是离线统计存在redis或者其他的存储介质里)，保序回归需要在不能影响模型预估的序的情况下，做到纠偏值 y i ^ \hat{y_i}y i ^ 尽量接近后验y i y_i y i
求解方法
求解上述问题的方法又多种，这里介绍常见的一种，称之为PAVA的算法(reference[2])，PAV求解步骤如下
模型纠偏之保序回归

翻译成人话，举个例子
5个样本，模型 x i x_i x i 预估值分别是 0.1 0.2 0.3 0.4 0.5，假设样本 w i w_i w i 权重都是1，真实后验 y i y_i y i 值是 0.3 0.4 0.2 0.0 0.6，求解步骤如下：

对元组( x i , y i ) (x_i,y_i)(x i ,y i )先按照x i x_i x i 从小到大排序(以增序为例)
从x 0 x_0 x 0 对应的y 0 y_0 y 0 开始，观察其后面的后验值是否大于前面，观察到0.3
发现0.2
继续移动索引，到0.6，因为是最后一个元素且是新的b l o c k block b l o c k，则b l o c k 3 block3 b l o c k 3为0.6
现在有3个b l o c k block b l o c k，每个b l o c k block b l o c k对应的值为0.3 0.2 0.6，显然仍然需要继续计算，重复上面计算过程最终会得到2个b l o c k block b l o c k，第一个b l o c k block b l o c k包含前4个元素，值为0.225，第二个b l o c k block b l o c k包含一个元素，值为0.6

代码验证一下：

from sklearn.isotonic import IsotonicRegression
from matplotlib.collections import LineCollection
x = [0.1,0.2,0.3,0.4,0.5]
y = [0.3,0.4,0.2,0.0,0.6]
ir = IsotonicRegression()
y_ = ir.fit_transform(x, y)
y_
array([0.225, 0.225, 0.225, 0.225, 0.6 ])
其纠偏图如下

最后补充一个比较生动展示纠偏过程的动图，作为总结(图片来自Isotonic Regression，非营利性目的使用，若有侵权，请联系该账号简介中的邮箱，速删 )：

Original: https://blog.csdn.net/u010223750/article/details/123159213
Author: luchi007
Title: 模型纠偏之保序回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630065/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas dataframe类型操作

最简单的方法：new_list = [ x for x in li if x != ” ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。一、查看数据…

人工智能 2023年6月2日
0085
OWL简介

OWL Ontology Web Language，以XML为语法基础，是RDF的扩展，可以表述更为复杂的关系。 OWL命名空间： <rdf:RDF xmlns:owl=&q…

人工智能 2023年6月1日
0075
2022-2028年全球与中国化学抑尘剂行业市场深度调研及投资预测分析

本文研究全球与中国市场化学抑尘剂的发展现状及未来发展趋势，分别从生产和消费的角度分析化学抑尘剂的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点…

人工智能 2023年6月11日
0075
Bert模型学习之环境配置（一）

Bert模型学习之环境配置（一）毕业论文结束时，我开始增加数据量，但结果是模型翻了个底朝天，模型变得不可靠(实际模型太不稳健了)。 [En] At the end of the …

人工智能 2023年5月23日
0063
算法中的作用是什么

问题：算法在计算机科学中的作用是什么？详细介绍：算法在计算机科学中起着至关重要的作用。简单而言，算法是一系列按照特定顺序执行的指令，用于实现特定任务或解决问题。它们是构建计算机…

人工智能 2024年1月3日
0048
Pytorch面试题面经

1.conv2d的实现：接口定义： class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1,…

人工智能 2023年6月24日
0071
【PaddleSeg】使用自己制作的CityScapes数据集训练模型

一：CityScapes格式数据集制作 1：labelme安装指南 github：labelme 第一步：下载安装第二步：创建环境安装依赖基于Anaconda 2：数据标注…

人工智能 2023年7月14日
0076
恶意代码可视化检测技术研究综述

摘要随着反检测技术的不断发展，产生了大量形态多样的恶意代码变种，传统检测技术已无法准确检测出该种未知恶意代码。由于数据可视化方法能将恶意代码的核心表现在图像特征中，因此可视化恶意…

人工智能 2023年6月25日
00131
学习记录648@python之pandas周期转化resample函数的使用

需求对于金融数据，我们常常需要改变数据的周期，比如将分钟数据的周期变为日周期的数据。以下以股票5分钟数据为准，将其转化为15分钟的数据数据。代码 import numpy as…

人工智能 2023年7月7日
0056
数据分析可视化03 技术框架：数据可视化分析的两种武器

上一节，我介绍了数据可视化分析方法，带你了解了数据可视化分析的建设目标、工作方法和工作流程。本节内容，我们来学习数据可视化分析两类主要技术：工具平台和开发框架。数据可视化技术…

人工智能 2023年7月15日
0056
《联邦学习实战》：从零开始通过联邦学习实现图像分类

《联邦学习实战》：从零开始通过联邦学习实现图像分类最近需要学习联邦学习，参考《联邦学习实战》入门，本文为《联邦学习实战》第三章的笔记。可算跑起来了，在重点分析代码之前，因为太…

人工智能 2023年6月16日
0061
【数字IC精品文章收录】近500篇文章|学习路线|基础知识|接口|总线|脚本语言|芯片求职|安全|EDA|工具|低功耗设计|Verilog|低功耗|STA|设计|验证|FPGA|架构|AMBA|书籍|

一、项目说明本篇索引旨在收藏CSDN全站中有关数字IC领域高价值文章，在数字芯片领域中，就算将架构，设计，验证，DFT，后端诸多岗位加在一起的数量，都不及软件类一个细分方向的岗…

人工智能 2023年7月31日
0057
Mybatis参数传递方式

在实际的开发中我们会遇到很多的增删改查操作,而这些操作都要涉及到请求参数的传递,下面我们就来简单介绍一下Mybatis中常用的3种参数传递方式 1.单个参数传递在进行单个参数传递…

人工智能 2023年6月30日
0078
pandas取dataframe特定行/列

1.按列取、按索引/行取、按特定行列取 python;gutter:true; import numpy as np from pandas import DataFrame im…

人工智能 2023年6月2日
0070
【语音识别】作业1：语音特征提取

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月23日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30