因果推断-PSM的原理及python实现

2023年7月15日上午1:22 • 人工智能 • 阅读 64

一、背景：员工技能培训真的是浪费时间吗

假设你是一家大企业的老板，你希望知道员工技能培训对员工生产率的提升有多大帮助。已知参加培训的员工有500人，于是你又随机抽取了500个未参加培训的员工，观察两组之间生产率的差值（ATE），并打算以此作为培训对生产率提升的因果效应。结果发现，两组员工的生产率相差不大，于是你得出”员工培训都是浪费时间”的结论。

试问，这个老板得到的结论正确吗？我们且不说结论本身是否正确，但是可以确定老板得到结论的过程缺乏科学性（不满足CIA假设）。因为我们知道这两组员工本身生产能力可能就有差别，参加培训的员工往往都是技能水平不足想要提升的，而技能优秀的员工一般都不会参加培训。直接将两组生产率作差值忽略了两组员工本身技能水平的差异，这样计算得到的因果效应会偏小。那该怎么做才能得到正确的结论呢？

最理想的做法是说，让参加了培训的张三再倒退回参加培训前的时间点（回溯），然后不参加培训再过一遍人生，看看这两个人生的张三生产率有什么差异（ATT）。很明显，时光无法倒流，最真实的因果效应只停留在理论层面。但是可以退而求其次，尽最大努力去寻找一个没有参加培训的李四，他在各方面都和张三是一样的（替身），简直是张三的翻版。于是我们通过比较张三和李四生产率的差异，也能够得出比较准确的因果效应（ATT估计值）。那么该如何寻找李四呢？

二、PSM的原理及python实现

1、PSM的原理

这里倾向得分匹配（PSM，Propensity Score Matching）就要登场了。PSM通俗理解是说，首先计算每个人参加培训的倾向性，然后根据倾向性最相似的原则，为每个参加培训的人匹配未参加培训的人，最后计算两组人群的均值差异作为ATT的估计值（因果效应）。下面是PSM的详细步骤：

1.1 计算倾向性得分

关于PSM倾向性得分的计算方式，不能用简单的欧氏距离来计算是因为欧氏距离对每个协变量的权重是一样的，当协变量维度很高时会影响得分的计算效果。一般用LR来计算倾向性得分，因为LR能够赋予协变量不同的权重。还有很多方法比如用Propensity Tree来计算得分等等。

1.2 匹配对照组样本

倾向性得分计算完成后，还需要为实验组的每个样本，从对照组中采集合适的样本去做匹配。PSM匹配环节有以下几个要点：
1）采样方式，有放回or无放回采样：从对照组抽取样本去匹配实验组样本时，被抽到的对照组样本是否允许放回。
2）匹配方式，局部最优or全局最优：应当追求为实验组每个样本找到的替身都是最匹配的（局部最优），还是整体来看实验组找到的替身是最匹配的（全局最优）。
3）匹配数量，一对一or一对多：一个实验组样本匹配一个对照组样本（一对一，偏差小，方差大），还是一个实验组用户匹配多个对照组用户（一对多，偏差大，方差小）。
4）匹配质量，有卡尺or无卡尺：实验组和对照组做匹配时，他们之间相似度是否需要限制在一定范围内（有卡尺），还是只要当前对照组样本是最匹配的即可（无卡尺）。

1.3 平衡性检查

如何衡量PSM的匹配效果？或者说怎么判断PSM后实验组和对照组是否是同质的呢？下面介绍3种评估平衡性的方法：
1）观察法：直接做协变量分布的直方图或QQ-Plot，观察实验组和对照组的协变量是否符合同一分布。
2）量化法：计算每个混淆变量的标准化差值（stddiff），stddiff越小说明混淆变量在实验组和对照组间越均衡，因果效应的估计值也就越可靠。

3）卡方检验：每个协变量和treatment做卡方检验，若检验通过（p>0.05）则说明协变量和treatment是相互独立的，检验未通过（p

Original: https://blog.csdn.net/JeffffWang/article/details/126175255
Author: JeffffWang
Title: 因果推断-PSM的原理及python实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693267/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

演化博弈与GAN网络

演化博弈与GAN网络 0.摘要 1.引言 2.博弈论相关 * 2.1二人零和博弈 2.2交叉熵 3.对抗生成网络模型 * 3.1模型概述 3.2手写体数据集实验 3.3图片生成实验…

人工智能 2023年6月20日
0087
nnUNet推理与预测（手把手一步一步实现。接上文用自己的数据训练）

如上图所示，当我们训练了大概几轮之后会在nnUNet_trained_models文件下生成nnUNet以及2d的模型文件，我们可以看到fold_4里面会有model_best.m…

人工智能 2023年6月25日
0096
论文阅读——Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa

Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa Abs…

人工智能 2023年5月28日
0082
[Anaconda] 如何在conda下使用pip安装包

问题背景 conda 下载不到需要的包。很多包只在 pip 有：PYPI有15万可用包，而Anaconda repository中（使用conda命令安装）提供了1,500多个软…

人工智能 2023年6月16日
0062
朴素贝叶斯(Bayes)算法例题

由于要求buys_computer属性是啥值，所以先求其属性两种值分别的概率 P(buys_computer=”Y”)=9/14=0.643 P(buys_…

人工智能 2023年6月19日
0057
（Note）优化器Adam的学习率设置

记录一下知乎看到的问题：Adam的学习率设置常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应。从统计的角度看，Adam的自适应原理也是根据统计对梯度进行修正，…

人工智能 2023年6月23日
0080
dbscan算法中参数的意义_详解DBSCAN聚类

使用DBSCAN标识为员工分组基于密度的噪声应用空间聚类(DBSCAN)是一种无监督的ML聚类算法。无监督的意思是它不使用预先标记的目标来聚类数据点。聚类是指试图将相似的数据点分…

人工智能 2023年6月2日
0071
tensorflow2实现resnet50并用来分类猫狗

一、首先实现resnet50 具体可以参考这篇文章 import warnings warnings.filterwarnings("ignore") impo…

人工智能 2023年7月1日
0090
NER系列之《如何在pytorch搭建的模型中引入CRF(条件随机场)》（pytorch-crf库）

🦄crf可谓是NER任务小能手了，所以搞NER就得玩玩crf。 ⭐torch官方tutorials部分提供的crf链接：点击进入，该链接里是结合了bi-lstm和crf的代码教程（…

人工智能 2023年7月23日
0068
【目标检测】53、YOLOv6 | 论文来啦！专为工业应用设计

文章目录 * – 一、背景 – 二、方法 – + 2.1 Network Design + 2.2 Label Assignment：TAL …

人工智能 2023年6月17日
0092
水文数据库表结构及标识符—SL/T 324-2019

下载请点击SL/T 324-2019标准文件下载请点击 MySQL数据库建库sql文件 1、测站基本信息表(HYD_BI_STSC_B) 2、测站监测项目表(HYD_BI_STM…

人工智能 2023年7月17日
0075
cuda11.0版本的pytorch安装教程

目录官网安装添加源安装安装pytorch 测试是否安装成功判断是否是cuda版本官网安装 pytorch官网：pytorch官网复制这一段命令，改成自己需要的版本。或…

人工智能 2023年7月5日
00102
机器学习课后练习题（期末复习题目附答案）

此为第一章绪论部分正确答案: A 下面哪种说法有关机器学习的认识是错误的?( ) A. 高质量的数据、算力和算法对一个机器学习项目是必不可少的。 B. 深度学习是机器学习的一类高…

人工智能 2023年7月25日
0045
pandas-cut 函数

前言数值数据在数据分析中很常见。通常，您拥有连续的、非常大的比例或高度偏斜的数值数据。有时，将这些数据分成离散的区间会更容易。当值被划分为有意义的类别时，这有助于执行描述性统…

人工智能 2023年7月6日
0059
3C数字钥匙技术规范解读

CCC（Car Connectivity Consortium）车联网联盟是一个致力于制定智能手机到汽车连接解决方案标准的全球跨行业组织。2021年7月CCC将UWB定义为第三代数…

人工智能 2023年7月27日
0055
YOLOv5解析 | 第三篇：如何改进YOLOv5？

大家好，我是K同学啊！在前面的文章YOLOv5解析 | 第二篇：用YOLOv5训练自己的数据集（超级详细完整版）中我们介绍了使用训练自己的数据集。这一篇文章，我将带大家一起解析…

人工智能 2023年7月3日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

因果推断-PSM的原理及python实现

1、PSM的原理

1.1 计算倾向性得分

1.2 匹配对照组样本

1.3 平衡性检查

大家都在看