分层抽样的总结

2023年8月8日上午3:47 • Python • 阅读 61

抽样时，将总体分成互不交叉的层，然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本，这种抽样方法叫分层抽样。

有几个关键要点

总体个体差异明显，每层的差异比较大，层内个体间的差异比较小
每层可以抽取多少样本，常见的有以下这些方案
如果根据它在总体中占的比例来抽取，就是等比例抽样
也可以对不同的层赋予不同的权重，手动控制各层的抽样规模。
对每一层都分配同样的个体数
各层抽得的样本数与所抽得的总样本数之比等于该层方差与各类方差之和的比
每层抽取样本时，采用简单随机抽样

(1) 确定总体与样本容量抽取的比例

抽取比例 = 样本容量 / 总体个数

(2) 由分层情况，确定各层抽取的样本数

如果是等比例抽样，各层抽取个数 = 抽取比例 * 各层个数

如果是加权抽样，各层抽取个数自定义

(3) 各层抽取数之和应等于样本容量

一单位有 500 职工，不到 35 岁的有 125 人，35~49 有 280 人，50 以上有 95 人。

为例了解单位职工与身体状况有关的某指标。入后抽取一个容量为 100 的样本。

身体状况与年龄的关系非常大，因此适合分层抽样。

step1:j 确定比例

样本容量 / 总体个数 = 100 / 500 = 1/5

step2: 各层抽取的样本数

每一个层都应该按照 1/5 抽取，各层抽取的个数为

125/5, 280/5, 95/5 = 25, 56, 19

step3: 在各层用简单随机抽样

假设数据中有一个分类型变量 var0，以该变量 df[“var0”] 为依据分层抽样，各层的抽样个数均为 10

分层抽样
each_sample_count = 10 # 各层抽样个数
label_unique = np.unique(df['var0']) # 分层依据
df_sample = pd.DataFrame(np.zeros((1, len(df.columns))), columns=df.columns ,dtype=int)
for label in label_unique:
     sample = pd.DataFrame.sample(df[df['var0']==label], each_sample_count)
     df_sample = pd.concat([df_sample,sample])

在评分卡建模项目中，时间窗口确定之后，数据集也就定了下来，这份数据集相当于是总体。

在建模前，数据集一般分为 3 个子集：开发样本(dev)，验证样本(val)，时间外样本(OOT)。

一般情况下，时间外样本通常使用整个建模样本中最后一段时间的样本。而开发样本与验证样本使用分层抽样进行划分， 目的是保证两个数据集中的负样本占比相同。

但是评分卡建模中，从经验上看正负样本数量都应该 >= 1500，且总样本量最好不超过 50000，因为超过 5 万后，模型的效果就不在随着样本量增加而有显著变化了。此时一般需要对 正样本做欠采样处理。

用分层抽样对好样本欠采样

分层抽样是这里的欠采样的常用方法，保证抽样后，开发样本，验证样本，时间外样本的正负比例相同。

具体的做法是首先根据总体的负样本数，确定一个正样本和负样本想要保留的样本数， 正负样本比例也顺便确定了。然后将最后一段时间范围的样本作为时间外样本的候选样本，其余的为训练样本和测试样本的候选样本。

然后按照 正负样本比例和两份候选样本的负样本个数，以及训练集验证集的比例，得到训练集、验证集、时间外样本集需要抽样的正样本数，然后进行分层抽样即可。

然后按照 正负样本比例和时间内样本的负样本个数，得到需要抽样的正样本数，对时间外样本的候选样本分层抽样后，得到时间外样本；

例如我们有 200000 样本，其中有 5000 负样本(2.5%)，195000 正样本。

然后我们选定最后一段时间内的样本作为时间外样本的候选样本，假设这部分样本有 50000，其中 1000 负样本，占比 2%。那么开发样本和测试样本的候选样本就是 150000，其中 4000 负样本，占比 2.67%。

接下来抽样获取时间外样本。由于时间外样本有 1000 负样本，负样本比例 10%，因此我们需要抽样 9000 正样本。

开发样本和测试样本的候选样本我们称为时间内总体，共 150000，其中 4000 负样本。由于负样本比例 10%，因此我们需要从 146000 中抽样 36000。然后将 4000 负样本和 36000 正样本分别按某个测试集比例(例如 0.3) 切割即可。

抽样完成后，数据记录表大致是下面这样

好样本坏样本样本合计 数量(总体) 195000 5000 200000 占比(总体) 97.5% 2.5% 100% 数量(时间内总体) 146000 4000 150000 占比(时间内总体) 97.33% 2.67% 100%数量(训练集抽样)25200 2800 28000 占比(训练集抽样)90%10%100%权重(训练集抽样)4.0556 1 -加权(训练集抽样)102200 2800 105000(训练集占比0.7)数量(测试集抽样)10800 1200 12000 占比(训练集抽样)90%10%100%权重(测试集抽样)4.0556 1 -加权(测试集抽样)43800 1200 45000(测试集占比0.3) 数量(时间外总体) 49000 1000 50000 占比(时间外总体) 98.0% 2.0% 100%数量(时间外抽样)9000 1000 10000 占比(时间外总体)90%10%100%权重(时间外抽样)5.44 1 -加权(时间外抽样)49000 1000 50000

例子2

上面的例子中为了看的清楚，数据取的都很整。这里把数据做的乱一点再看一下。

总体数据为 230257，负样本 8139(占比 3.53%)，分出时间外样本后：
时间外候选样本 33115，负样本 1034(占比 3.12%)
开发测试候选样本 197142，负样本 7105(占比 3.60%)

依然取负样本比例 10%，测试集比例 0.3，分层抽样后，数据记录表大致如下(注意负样本也做了一定采样，因此抽样后，负样本也是有权重的)

好样本坏样本样本合计 数量(总体) 222118 8139 230257 占比(总体) 96.47% 3.53% 100% 数量(时间内总体) 190037 7105 197142 占比(时间内总体) 96.40% 3.60% 100%数量(训练集抽样)26945 3045 29990 占比(训练集抽样)89.85%10.15%100%权重(训练集抽样)4.93743 1.631856 -加权(训练集抽样)133039 4969 138008(训练集占比0.7)数量(测试集抽样)11544 1309 12853 占比(训练集抽样)89.82%10.18%100%权重(测试集抽样)4.93746 1.63178 -加权(测试集抽样)56998 2136 59134(测试集占比0.3) 数量(时间外总体) 32081 1034 33115 占比(时间外总体) 96.88% 3.12% 100%数量(时间外抽样)6511 646 7157 占比(时间外总体)90.97%9.03%100%权重(时间外抽样)4.9272 1.600619 -加权(时间外抽样)32081 1034 33115

Original: https://blog.csdn.net/u011472272/article/details/121890397
Author: 算法题刷刷
Title: 分层抽样的总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741488/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Javaweb-Servlet学习

1.Servlet简介 Servlet就是sun公司开发动态web的一门技术 Sun在这些API中提供一个借口叫做：Servlet，如果你想开发一个Servlet程序，只需要完成两…

Python 2023年6月12日
0073
Spring注解之@Import

@Import可以导入以下几种种类：普通类实现ImportSelector接口的类实现DeferredImportSelector接口的类实现ImportBeanDefin…

Python 2023年10月11日
0033
Python Web开发（九）：session|token 验证客户端请求

Python 2023年5月24日
0061
OpenCV的cv2.minAreaRect解析

在这个文章中，我们将学习如何在感兴趣区域周围画最小面积矩形框。 1.最小面积矩形框下图显示了两个矩形框，绿色的是普通矩形框，红色的是最小面积矩形框。可以发现，红色的是旋转矩形。O…

Python 2023年8月1日
0051
【docker】单容器部署Django + Uwsgi-20220320

容器文件结构 ; 作业顺序生成images 把uwsgi.ini放进去images文件包里 [uwsgi] project=training_system base=/code/…

Python 2023年8月4日
0053
Pandas知识点-详解分组函数groupby

Pandas知识点-详解分组函数groupby 在数据分析时，经常需要将数据分成不同的群组，pandas中的groupby()函数可以完美地完成各种分组操作。分组是根据DataFr…

Python 2023年8月16日
0035
【数模之数据分析-1】

对于ndarray结构老说&#xFF0C…

Python 2023年8月22日
0038
【Vue】【Python】【Flask】Vue连接Python Flask后端跨域问题，以及GET能用POST不能用

文章目录 Vue连接Flask后端跨域解决方案 * 1.安装配置flask_cors包 2. 使用nginx转发 GET能用POST不能用 Vue连接Flask后端跨域解决方案 V…

Python 2023年8月11日
0066
Pytest 自动化框架相关知识点

Fixture Fixture函数的定义和普通函数类似，区别在于函数上加个装饰器@pytest.fixture()。命名fixture函数不要以test开头，便于跟测试用例区分开 …

Python 2023年9月14日
0062
21天学通Python PDF完整版

《21天学通Python》全面、系统、深入地讲解了Python编程基础语法与高级应用。在讲解过程中，通过大量实际操作的实例将Python语言知识全面、系统、深入地呈现给读者。此外，…

Python 2023年5月24日
0088
开始在 Windows 上将 Python 用于 Web 开发

设置开发环境建议在构建 Web 应用程序时在 WSL 上安装 Python。有关 Python Web 开发的许多教程和说明是面向 Linux 用户编写的，并使用基于 Linu…

Python 2023年9月19日
0042
统计学习：逻辑回归与交叉熵损失（Pytorch实现）

1 Logistic 分布和对率回归监督学习的模型可以是概率模型或非概率模型，由条件概率分布(P(Y|\bm{X}))或决策函数(decision function)(Y=f(…

Python 2023年10月26日
0029
Pandas基础命令速查表

前言最近发现写的关于python的博客慢慢有人在看，并且关注。突然觉得分享学习内容供大家参考是一件快乐的事情，虽然跟其他大博主相差太远，文章质量也不在一个level。但是还是想在这…

Python 2023年8月16日
0056
Python可视化物理随机过程—pygame学习笔记2

Python可视化物理随机过程—pygame学习笔记2 文章目录 * – Python可视化物理随机过程—pygame学习笔记2 – 一、扩散现…

Python 2023年9月20日
0050
【2022-09-01】Django框架(三)

Django框架(三) Django请求生命周期流程图扩展知识点缓存数据库浏览器向后端发送请求，在经过 Django 中间件之后，会先从缓存数据库寻找数据，如果没有则向后端数…

Python 2023年6月11日
0069
记录几个不错的前端框架

1.AliceuiAliceui是支付宝的样式解决方案，是一套精选的基于 spm 生态圈的样式模块集合，是 Arale 的子集，也是一套模块化的样式命名和组织规范，是写 CSS 的…

Python 2023年6月11日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

分层抽样的总结

用分层抽样对好样本欠采样

例子2

大家都在看