机器学习(三十七)-样本负采样 & 对应修正公式

对于巨型互联网公司来说,为了控制数据规模,降低训练开销,降采样几乎是通用的手段,facebook 实践了两种降采样的方法,uniform subsampling 和 negative down sampling。

1、uniform subsampling

uniform subsampling 是 对所有样本进行无差别的随机抽样,为选取最优的采样频率,facebook 试验了 0.001,0.01,0.1,0.5 和 1 五个采样频率,loss 的比较如下:当采样率是 10% 时,相比全量数据训练的模型,仅损失了不到 1% 的效果。

机器学习(三十七)-样本负采样 & 对应修正公式

2、negative down sampling

negative down sampling 保留全量正样本,对负样本进行降采样。除了提高训练效率外,负采样还直接解决了 正负样本不均衡的问题,facebook 经验性的选择了从 0.0001 到 0.1 的一组负采样频率。当负采样频率在 0.025 时,loss 不仅优于更低的采样频率训练出来的模型,居然也优于负采样频率在 0.1 时训练出的模型。

机器学习(三十七)-样本负采样 & 对应修正公式

3、ctr预估漂移&模型校正

负采样带来的问题是 CTR 预估值的漂移,比如真实 CTR 是 0.1%,进行 0.01 的负采样之后,CTR 将会攀升到 10% 左右。而为了进行准确的竞价以及 ROI 预估等,CTR 预估模型是要提供准确的有物理意义的 CTR 值的,因此在进行负采样后需要进行 CTR 的校正,使 CTR 模型的预估值的期望回到 0.1%。校正的公式如下:

机器学习(三十七)-样本负采样 & 对应修正公式

机器学习(三十七)-样本负采样 & 对应修正公式

机器学习(三十七)-样本负采样 & 对应修正公式

机器学习(三十七)-样本负采样 & 对应修正公式

对于逻辑回归, 参考文献3计算方式:

机器学习(三十七)-样本负采样 & 对应修正公式

4、小经验

对于样本采样的一点心得,如果不是为了优化任务的复杂度或者优化训练的耗时,尽量不对样本进行采样,因为采样过后和原始数据的分布差异有变化,在线应用效果往往不好,即使通过变换,近似还原回原始分布,依然效果会比不采样有损失。很早以前训练展现时长模型就踩过坑,尝试过各种对负样本花式采样,一顿操作猛如虎,最后效果还是原始的好,当然为了优化任务的复杂度和训练耗时而进行的采样 是另外一回事了。

参考 文献:

  1. ctr预估的负采样比率修正公式
  2. 降采样和模型校正
  3. CTR负采样矫正原理

Original: https://www.cnblogs.com/eilearn/p/14923973.html
Author: 深度机器学习
Title: 机器学习(三十七)-样本负采样 & 对应修正公式

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/8118/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部