数据漂移？训练集测试集分布差异？用featexp解决

2023年7月2日上午11:36 • 人工智能 • 阅读 88

数据漂移是指由于时间的变动，之前的数据集的分布与现在的数据集的分布不一致，导致之前的模型不能很好的对现在的数据进行预测的情况。简单点说就是随着时间的推移，数据分布变了，基于以前的数据训练好的模型不好用了。

目前市面上常用的解决方法：

论文地址：https://arxiv.org/pdf/2004.03045.pdf
这个方法的好处是万一你只有少数当前时间段的数据，不足以用它来重新分割训练集测试集从而训练一个新的模型，你还有另一条路可以走。那就是从你原先的训练集里面选出与当前的数据尽可能接近的数据作为验证集，然后做K折交叉验证，使得训练出来的模型接可能的可以评估当前的数据。

核心点就是如何从原先的训练集里面挑选出一部分与当前数据的分布最为接近的数据作为验证集，that is the problem。对抗性验证用的方法就是新增一个标签（is_test），训练一个二分类模型来预测这个标签值，预测结果是概率值（有多大概率属于测试集）给预测结果根据概率值排序后选择最后20%的数据。具体的实现过程可以自行百度或者看论文。

最后要说的是，featexp可以做的事远不止数据漂移，具体能做哪些事可以参考这份中文教程，非常简单粗暴！

中问教程地址：https://www.jiqizhixin.com/articles/2018-11-06-7

featexp源码地址：https://github.com/abhayspawar/featexp

打完收工，谢谢观看！

Original: https://blog.csdn.net/chengyu950526/article/details/119860423
Author: chengyu950526
Title: 数据漂移？训练集测试集分布差异？用featexp解决

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665348/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多项式回归是一种回归算法，它假设输入特征和输出变量之间的关系是多项式的。它通过引入多项式特征，如$x^2$和$x^3$，来捕捉数据中的非线性关系

介绍多项式回归是一种回归算法，它假设输入特征和输出变量之间的关系是多项式的。与线性回归只能捕捉到输入特征和输出变量之间的线性关系不同，多项式回归通过引入多项式特征，如$x^2$和…

人工智能 2023年12月31日
0038
图像处理博客

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0055
FCN全卷积网络理解及代码实现（来自pytorch官方实现）

视频链接：https://www.bilibili.com/video/BV1J3411C7zd?vd_source=a0d4f7000e77468aec70dc618794d26…

人工智能 2023年5月26日
0086
这5种工作，非常对口人工智能专业，这些技能太硬核了

人工智能听起来神秘而遥远，但实际上它早已应用于我们生活和工作的方方面面。比如手机中的智能语音助手，比如机器人客服、扫地机器人、快递机器人等。 [En] Artificial int…

人工智能 2023年5月25日
00108
深度学习（1）：BP神经网络实现银行客户流失预测

目的：针对银行客户行为和统计数据实现客户流失预测任务。一. 数据准备 1. 数据集： “select-data.csv”作为训练样本，数据预处理方式：归一…

人工智能 2023年7月16日
0062
WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因 WGCNA 系列 WGCNA 系列参考关联模块与临床特征量化module-trait(模块-特征)关系基因与性…

人工智能 2023年6月16日
00318
ECCV2022论文汇总：检测/分割/跟踪/3D/深度估计/姿态解算等多个方向！

作者 | 汽车人编辑 | Autobox 目前，公众号正向大家广泛征稿中，欢迎童鞋们投稿，我们将有一定的稿费支持哦，详细信息请点击： COO: Comic Onomatopoei…

人工智能 2023年7月27日
0082
keras-yolo部署 – 权重转换(h5 -＞tflite) （2.0版）

本来我tensorflow1.13转换tflite还能转换的，但是后面我们对模型改造了一下，代码突然就抽风了，直接说当前版本不支持’流’（Switch、Me…

人工智能 2023年5月25日
0077
tensorflow,pytorch中normalize方法

def normalize(tensor, ord="euclidean", axis=None, name=None): """…

人工智能 2023年5月23日
0079
VR智慧生活助力千行百业，彰显VR全景制作价值

很多客户以为VR全景制作就是企业或者是商铺数字化转型的一种营销形式，这种说法虽然没错，但是过于片面，VR全景制作更多的价值则体现在解决全行业痛点问题上，为大众带来VR智慧生活。从…

人工智能 2023年6月28日
0083
《Pytorch深度学习实践》课程合集（刘二大人）笔记

目录 2 线性模型 * 深度学习步骤 ML常用损失函数模型可视化 visdom包 3 梯度下降 4 反向传播 5 用pytorch 实现线性回归 * numpy中的自动广播机制 …

人工智能 2023年7月23日
0053
sklearn实现决策树

sklearn实现决策树 sklearn中的决策树一、DecisionTreeClassifier * 1、重要参数 – 1.1 criterion 1.2 rand…

人工智能 2023年6月15日
0086
自制数据集数据增强

在用数据集进行测试的时候，不光是已经配置好的数据集，下面讲一下自己的数据集该怎么生成训练数据集。 1.观察数据集结构，配成特征标签对上面文件夹存放的是数据集的图片，其中训练集60…

人工智能 2023年5月25日
0062
【论文写作】闵帆老师论文写作课程心得体会30篇

我的博客一直记录代码，还是第一次记录心得体会。谢谢我闵帆老师。此次博客记录了我在这学期上闵帆老师《论文写作》后的一些心得体会。在这节课上，我学习了写论文的注意事项、写论文所用的工具…

人工智能 2023年7月29日
0054
三维重建之条纹投影结构光（一）

该系列为条纹投影结构光学习笔记，一共分为四篇。第一篇记录文献阅读的笔记，对重要知识点进行摘录介绍；第二篇为相位求解和相位展开；第三篇为相高模型的标定；第四篇为重构篇。本篇以理论知…

人工智能 2023年6月17日
0082
mplfinance 一个堪称完美python量化金融可视化工具详析

文章目录 1.mplfinance安装 2.获取数据（从tushare接口） 3. 获取数据（从本地csv） 4. mplfinance可视化 5. 自定义风格样式 6. 添加其他…

人工智能 2023年7月7日
00234

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据漂移？训练集测试集分布差异？用featexp解决

目前市面上常用的解决方法：

推荐的一种新方法featexp

最后要说的是，featexp可以做的事远不止数据漂移，具体能做哪些事可以参考这份中文教程，非常简单粗暴！

打完收工，谢谢观看！

大家都在看