Heckman 两阶段法及与工具变量法的区别

2023年6月17日下午6:05 • 人工智能 • 阅读 98

一、适用范围

Heckman两阶段模型适用于解决由样本选择偏差（sample selection bias）造成的内生性问题。

在经济学领域，样本选择偏差的典型例子是研究女性的受教育情况对女性工资的影响。按照这个思路，一般会去问卷收集或在哪个网站下载部分女性的受教育情况，工资，及其他特征数据，例如年龄，毕业院校等级等个人特征，然后做回归。不过这样做有一个问题，就是登记的女性，都是在工作的，但是许多受教育程度较高的女性不工作，选择做家庭主妇，这部分样本就没有算在内，样本失去随机性。这就导致模型只是用到了在工作的女性，这样得出的结论是有偏差的。

在管理学领域，一个典型的问题是企业的某个特征，或者董事/CEO的某个特征，对企业R&D投入的影响。也是同样的问题，企业的R&D投入是企业自愿披露的内容，有的企业不披露，这时你做回归时就不能包括这部分样本，也会造成样本选择偏差，结果有偏。

二、分析步骤

经典的赫克曼二阶段法，具体步骤如下：

第一步，研究者根据管理学理论设计出一个计算企业披露R&D投入概率的模型，而该模型的统计估计结果可以用来预测每个个体的概率

第二步，研究者将这些被预测个体概率合并为一个额外的解释变量，与其他控制变量等变量一起来矫正自选择问题。这个比率叫逆米尔斯比率，inverse Mills ration， imr，也就是说，在第一步计算出imr，在第二步把imr当作一个控制变量。

三、主要原理

选择模型有两种主要应用，一是 处理效应 (treatment effect model)，即回归模型中包含一个内生的指示变量 (D)。例如，管理层是否发布盈余预测 (D=1 或 0) 对资本成本影响。二是 样本选择 (sample selection model)，即回归样本为一个子样本。例如，在管理层发布盈余预测子样本中 (D=1)，对管理层盈余预测精确度的影响因素进行分析。在上述模型中，内生的 D 都会导致有偏估计。

处理效应模型 (treatment effect model) 如下：

其中，

包含截距项和一组影响

的外生解释变量。指示性变量

可以通过以下二元选择模型进行回归得到：

通常，式 (1) 和式 (2) 的随机误差项

和

服从二元正态分布，其均值为 0，协方差矩阵为：

如果随机误差项

和

相关 (

)，则

，使得式 (1) 中的 OLS 估计量

有偏。 Heckman 方法就是通过式 (2) 构造 逆米尔斯比率 (IMR) 控制这个偏差。IMR 计算如下：

其中，

和

分别为标准正态分布的密度函数和累积分布函数。然后，将计算得到 IMR 加入式 (1) 进行回归：

此时，式 (3) 中随机误差项

与 D 不相关，

为无偏估计量。并且，可以通过 IMR 显著性和系数判断选择偏差是否存在以及方向。当然，式 (2) 和式 (3) 可以用传统两步法或最大似然估计法。

上述为处理效应模型 (treatment effect model)，除式 (3) 是以子样本回归外，样本选择模型与处理效应模型 (sample selection model)类似。例如，对管理层预测精确度 (Y) 分析中，回归样本为发布盈余预测的公司 (D=1)。此时，式 (3) 为

其中，IMR1 计算公式如下：

IMR可以识别选择性偏差的主要原因：

选择模型式 (3) 与 OLS 模型式 (1) 的区别在于前者加入了逆米尔斯比率 ()。IMR 可以识别选择性偏差主要是以下原因：

IMR 是和变量的非线性函数
变量从式 (3) 中已经排除

其中，Z 变量被假定为不会对

变量产生直接的影响，只能通过 IMR 产生间接影响，因此也被称为 排他性约束 (exclusion restrictions)。

排他性约束变量，也就是 Z 变量，在控制选择模型内生性问题过程中具有非常重要的作用:

变量必须是外生的，否则选择模型第一阶段回归 (式 2) 系数以及 IMR 会产生偏误；
变量对 D 具有较强的解释能力，使得 IMR 能够更好的检测和控制选择偏差；
式 (3) 中必须有效排除
变量的影响，即变量只能通过 IMR 对产生间接影响，否则 IMR 与随机误差项相关，使得 IMR 系数估计有偏，不能有效控制 D 变量的内生性。

找到一个好的

变量是困难的。在没有排他性约束情况下，即没有 Heckman 两阶段法及与工具变量法的区别

变量，仍可以通过 IMR 的非线性去识别偏差。但可能面临以下两个问题：

由于只能通过 IMR 的非线性识别偏差，非线性模型被错误设定为线性模型会被 IMR 吸收。
在式 (3) 中，IMR 与和 D 相关，这种相关性在没有排他性约束变量 () 情况下更加严重。

进一步，高的共线性会产生以下两个问题：

高共线性会使得系数的标准差变大，降低了系数的显著性。IMR 系数可能会变得不显著，进而得出错误结论。
在模型被正确设定下，即使存在高的共线性问题，系数也可以被无偏的估计。但是，事实上，选择模型被错误设定概率是很高的。若模型被错误设定，共线性会吸收这种偏差，导致系数估计有偏。

四、实例分析

以企业R&D投入问题为例，假设全样本是1000家公司，其中800家公司披露了其R&D投入。

第一阶段的模型，是一个包括全样本（1000家）的Probit模型，用来估计一家公司是否会披露其R&D投入的概率。这里的因变量是二元的，表示是否披露R&D投入；自变量是一些会影响是否披露R&D的外生变量，比如其他收入营业收入，杠杆率，公司规模，所属行业等等。然后根据这个Probit模型，为每一个样本计算出imr，IMR作用是为每一个样本计算出一个用于修正样本选择偏差的值。

第二阶段，在原来的回归方程，也就是原来只有800家公司的样本的方程假如imr作为控制变量，其他都不变，然后估计出回归参数。这时不管imr显著不显著都不重要，imr显著说明样本选择偏差的确影响了你最初模型的估计，这正表明了使用Heckman两步法纠正样本选择偏差的必要性。imr不显著说明原模型不存在严重的样本选择偏差，这时Heckman第二步得到的结果应该与原模型得到的结果差不多。(关于imr的显著性是否说明样本选择偏差存在目前还有争议，不过imr不是关注的变量)。第二步关注的对象是核心解释变量是否显著。只要核心解释变量显著，就说明结果稳健。

五、Stata实现

在stata上的实现，还是刚才的例子。假设问题是研究董事会的连锁懂事比例对企业R&D投入的影响，各变量如下：

因变量：企业R&D投入额度（rd）

自变量：董事会连锁懂事比例（interlockratio）

控制变量：公司规模（firmsize），杠杆率（leverage），公司成长性（growth），公司年龄（age），行业R&D投入（industryrd），行业集中度（cr4），行业净资产收益率（industryroa）等。

其中前三个控制变量还会影响企业R&D投入的概率。

总样本数1000家，其中800家披露了R&D投入，不考虑其他变量的缺失值。

Heckman&#x4E24;&#x6B65;&#x6CD5;
&#x7B2C;&#x4E00;&#x6B65;&#xFF0C;&#x547D;&#x540D;&#x4E00;&#x4E2A;&#x65B0;&#x7684;&#x56E0;&#x53D8;&#x91CF;&#xFF0C;&#x4F01;&#x4E1A;&#x662F;&#x5426;&#x62AB;&#x9732;R&D&#x6295;&#x5165;&#xFF0C;ifrd
xi: probit ifrd firmsize leverage growth i.year i.ind  r//Heckman&#x4E24;&#x9636;&#x6BB5;&#x7684;&#x7B2C;&#x4E00;&#x9636;&#x6BB5;&#x56DE;&#x5F52;&#xFF0C;&#x8FD9;&#x91CC;&#x7684;r&#x53EF;&#x52A0;&#x53EF;&#x4E0D;&#x52A0;&#xFF0C;&#x770B;&#x9700;&#x4E0D;&#x9700;&#x8981;&#x63A7;&#x5236;&#x5F02;&#x65B9;&#x5DEE;&#x95EE;&#x9898;&#x3002;
estimate store First
predict y_hat, xb
gen pdf = normalden(y_hat)
gen cdf = normal(y_hat)
gen imr = pdf/cdf//&#x751F;&#x6210;imr
 &#x7B2C;&#x4E8C;&#x6B65;&#x56DE;&#x5F52;&#xFF0C;&#x628A;imr&#x5F53;&#x4F5C;&#x63A7;&#x5236;&#x53D8;&#x91CF;&#x52A0;&#x5165;&#x539F;&#x6A21;&#x578B;&#xFF0C;&#x7528;&#x539F;&#x6765;&#x7684;&#x6570;&#x636E;&#x3002;
reg rd interlockratio leverage growth industryrd cr4 industryroa imr i.year i.ind , r if ifrd==1

六、回归变量选择

需要注意的是，在第一步，确定哪些变量会影响企业披露其R&D数据时，这些变量不一定是原模型的因变量，可以是可以不是，是不是要说明理由。

要真正解决样本选择问题，总样本模型中的解释因子群应该是选择模型（披露了R&D投入）的解释因子群的完全子集。而且，在选择模型中，至少要有一个解释变量不出现在主体模型之中。文章通常会选取与因变量不相关的变量加入进行估计。

eg. 在陈云松（2012）：农民工收入与村庄网络，《社会》发表的文章中，家庭劳动力数量被视为和农民工在城市的工资收入无关的因素而纳入打工决策的Logit模型

七、与工具变量区别

Heckman二阶段法只能解决样本选择问题，对于一般性的因遗漏变量引发的估计偏误和联立性问题（双向因果）却无能为力。

为解决这个问题，在陈云松（2012）：农民工收入与村庄网络，《社会》发表的文章中，Heckman二阶段模型的基础上进一步采用工具变量方法。这个工具变量必须是一个和农民工在城市的工资收入没有任何直接关系，但却又可以有力地影响村庄外出打工者数量的外生变量。利用工具变量所引发的自变量的差异，可以获得对因变量的无偏估计。

Original: https://blog.csdn.net/celine0227/article/details/121030224
Author: celine0227
Title: Heckman 两阶段法及与工具变量法的区别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631280/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何用matlab的CurveFitting拟合复杂特定公式的二维数据

今天分享一个如何用 CurveFitting拟合一个由五万多个数据组成的特定公式的曲线首先打开一个在桌面上名为 laohua.xlsx的 excel列表(文件所在位置很重要，放在桌…

人工智能 2023年7月15日
00202
Python 列表 append()函数使用详解

append() 函数可以向列表末尾添加元素 list.append( element ) element：任何类型的元素实例：向列表末尾添加一个元素 name_list = […

人工智能 2023年7月30日
0066
ICML 2022｜达摩院多模态模型OFA，实现模态、任务和架构三个统一

作者：霜清、钟煌、鸿侠通用统一的预训练大模型逐渐成为AI研究的一大趋势，本文将介绍达摩院提出的多模态模型OFA，是如何实现架构、模态、任务的三个统一。近年来，基于大规模无监督数…

人工智能 2023年6月25日
0070
Separabl

Separable函数问题在数学和优化领域，Separable函数是一类能被分解为多个独立的子函数的函数。具体形式如下： $$f(x) = \sum_{i=1}^{M} g_i(…

人工智能 2024年1月1日
0036
torchscript相关知识介绍（二）

1、TorchScript 是 Python 的静态类型子集，可以直接编写（使用@torch.jit.script装饰器）或者通过跟踪（tracing）从python代码自动生成。…

人工智能 2023年7月23日
0060
摆脱锚框：Anchor-Free

目录重新思考 Anchor * Anchor 的弊端 Anchor-Free 基于角点的检测: CornerNet * 沙漏结构 Hourglass 角点池化 Corner Po…

人工智能 2023年7月10日
0062
MacOS(M1芯片 arm架构)下如何安装tensorflow

导语由于目前anconda官网上对于macos系统只支持X86结构的，因此基于arm结构的MacOS暂时无法使用anconda来对tensorflow进行配置。虽然Anconda…

人工智能 2023年5月23日
00272
深度学习环境配置超详细教程【Anaconda+PyTorch(GPU版)+CUDA+cuDNN】

深度学习环境配置入门深度学习，首先要做的事情就是要搭建深度学习的环境。不管你是Windows用户，Mac用户还是Ubuntu用户，只要电脑配置允许，都可以做深度学习，毕竟Wind…

人工智能 2023年6月16日
0093
ubuntu20.04 +vscode+opencv4 安装与配置

一、VScode安装与设置 VScode安装 (1)在官网https://code.visualstudio.com/docs/?dv=linux64_deb 下载.deb文件 (…

人工智能 2023年7月19日
0053
PCA及其实战学习

知识学习整体思想就是根据重要特征（为主）附加其他特征（为辅）生成新的维度的特征 ; 代码实战学习视频链接：b站传送门这里使用了来自视频教程的数据集：github传送门数据集下载…

人工智能 2023年7月7日
0076
《知识图谱方法、实践与应用》- 第六章知识图谱推理

——总结自王昊奋、漆桂林、陈华钧主编的《知识图谱方法、实践及应用》一书的第六章知识图谱推理。 1 面向知识图谱的推理主要围绕关系的推理展开，即基于图谱中已有的事实或关系推断出未…

人工智能 2023年6月1日
0075
【机器学习项目实战】随机森林(random forest)回归(RandomForestRegressor)模型Python实现

说明：这是一个机器学习实战项目（附带数据+代码），如需数据+完整代码可以直接到文章最后获取。 1.定义问题在电子商务领域，现在越来越多的基于历史采购数据、订单数据等，进行销量的预…

人工智能 2023年6月16日
0097
【Pytorch】2022 Pytorch基础入门教程（完整详细版）

一、Pytorch 1.1 简介 Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对 GPU 加速的深度神经网络（DNN）编程。Torc…

人工智能 2023年7月30日
0093
Neo4j start 拒绝访问解决方案

问题：使用 ./neo4j start后打开7474呈现如下localhost拒绝访问 ; 解决流程如下 ./neo4j start 终端详细提示如下即根据 Warning 检查…

人工智能 2023年6月1日
00107
多版本cuda环境管理

多版本cuda环境管理 1、anaconda安装 1.1 下载 Anaconda 脚本 #wget下载 Anaconda &#x…

人工智能 2023年5月24日
00100
机器学习（十九）：梯度提升回归(GBR)

文章目录 * – 一、什么是梯度提升回归？ – + 1.1 介绍 + 1.2 步骤 + 1.3 梯度提升的优势 – 二、梯度提升 –…

人工智能 2023年6月16日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Heckman 两阶段法及与工具变量法的区别

大家都在看