R数据分析：工具变量回归的做法和解释，实例解析

2023年6月17日下午4:42 • 人工智能 • 阅读 79

什么是工具变量，以及什么是孟德尔随机化，以及孟德尔随机化怎么实现都给大家写了（大家去翻翻之前的文章呀），因为孟德尔随机化的工具变量是基因变量，所以我们会用专门的R包去做，普通的工具变量研究，我们要用的方法又不一样了。

我们做工具变量回归的时候用的方法叫做两阶段最小二乘估计– two-stage least squares (TSLS)，本文会给大家介绍该方法的原理和实际操作方法，希望能对大家有帮助。

两阶段最小二乘估计的基本原理

以下一步步给大家捋捋哈，假设我现在对学历和收入这两个变量有兴趣，我想知道学历在多大程度上影响了我们的收入，于是我把收入作为因变量，学历作为自变量做个回归：

y = α + βx + ε

弄个 β_出来，这个 β_能代表学历对收入的影响嘛？不行。

因为你根本就没考虑其它可能和x有关同时又影响y的因素，比如学历高的人通常家境好，社会资源好，敢创新，肯钻研等等，这些优秀的品质都有可能影响收入。但是我提到的这些变量你都没有收集，或者就算你收集了你其实也是没法控制的。

此时，我去找一个学历的工具变量（ 这个工具变量和x强相关，但和之前提到的各种混杂无关，也绝不会影响y）。然后有学者就找了吸烟这个工具变量，具体参考下面的文献：

Dickson, M. (2013). The causal effect of education on wages revisited. Oxford Bulletin of Economics and Statistics, 75(4), 477-498.

其中的基本思想就是 通过工具变量切断自变量和残差的关系，解决内生性问题和反向因果，得到更加准确的自变量系数估计（大家要明白完美的工具变量是很难找得到的）。

到这儿，为啥要用，用啥两个问题解决了，我们接下来看怎么用工具变量，或者说怎么做工具变量回归（两阶段最小二乘估计）：

两阶段最小二乘估计分为两个阶段，第一阶段是将自变量的变异分解，分解成只有工具变量解释的部分和与残差相关的部分，在我们的例子中就是将学历的变异分解成吸烟解释的部分和相应的残差，如下：

学历 = c + d*(吸烟) + v

这个方程是明确工具变量对自变量的作用（在之前孟德尔随机化的文章中一直用的是”暴露”这个词，一个意思哈），这儿要求我们的系数d一定需要显著（否则吸烟就不算是一个合格的工具变量），然后我们会将工具变量对自变量的预测值，作为第二阶段的自变量。

第二阶段就是用工具变量对自变量的预测值来估计回归系数：

收入 = α + β*学历预测值 + *ε（此处应该是学历”拔”哈，工具变量预测的学历。）

这一阶段估计出来的系数 _β_就是我们需要的啦，这个例子中，我们是只有一个内生变量—学历和一个工具变量—-吸烟的，这种情况叫做 just identified，我们还可以多找几个工具变量使得工具变量的数量大于内生变量的数量，此时就叫做 over-identified

实例操练

做两阶段最小二乘估计我们需要用到的函数是ivreg()，这个函数需要设置两个部分的参数，基本形式是：y ~ x1 + x2 | x1 + z1 + z2

其中x1和 x2是外生和内生解释变量，然后是一个竖杠，竖杠的右边就放的是解释变量，这儿需要注意的是在我们的解释变量x1也是需要放在右边一个的，如果外生变量很多的话，可以再写一个竖杠，形成外生|内生|工具变量的公式形式。

比如，我现在想要研究学历和收入的关系，我的数据如下图：

既有学历education还有收入wage，当然还有很多的协变量。

要研究学历如何影响了收入，普通来讲我就做个回归，把协变量加一加，甚至说加个二次项拟合得更好一点：

m_ols <- lm(log(wage) ~ education + poly(experience, 2) ethnicity smsa south, data="data)" summary(m_ols)< code></->

看输出：

哦， 似乎是学历或者教育可以提升收入0.074个单位的log收入哦，这个对吗？

并不对的，因为还有很多影响收入的变量你始终难以完全考虑或者说我这个数据中根本就没有，还有你的自变量的内生性问题，反向因果造成的问题等等都会影响我们的系数，这个时候我就找了个工具变量nearcollege想做工具变量回归，于是我就可以写出如下的代码：

m_iv <- ivreg(log(wage) ~ education + poly(experience, 2) ethnicity smsa south | nearcollege poly(age, south, data="SchoolingReturns)</code"></->

或者如下的代码：

m_iv <- ivreg(log(wage) ~ ethnicity + smsa south | education poly(experience, 2) nearcollege poly(age, 2), data="data)</code"></->

在上面的代码中第一种写法是将外生和内生解释变量写一起然后再写工具变量，第二种写法是先写外生再写内生再写工具变量，两个写法的输出都是一样的，注意虽然是两阶段最小二乘回归，但是在实际操作中都是在ivreg这一个函数中就可以完成的，结果见下图：

从结果中就可以看得出来，我们用两阶段最小二乘估计得到的系数是要大一点点的。

另外我们的结果中还有输出模型的诊断信息：

诊断信息中包含3个检验一个是weak instruments，一个是Wu–Hausman test，还有一个Sargan test，一个一个给大家写写是什么意思：

weak instruments：这个是检验我们的工具变量是不是一个好的工具变量，原假设是weak，所以我们希望这个统计量越大越好，p越小越好。
Wu–Hausman test：这个是检验内生性的，就是检验我们的自变量是不是和残差有关。无关的话你直接做回归就行。
Sargan test：这个检验只有在工具变量的个数超过内生变量的个数的时候才有，如果这个检验显著的话就说明至少有一个工具变量是不行的。

小结

今天给大家写了工具变量回归的做法和解释，感谢大家耐心看完，自己的文章都写的很细，代码都在原文中，希望大家都可以自己做一做，请关注后私信回复”数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏，再点赞转发。

也欢迎大家的意见和建议，大家想了解什么统计方法都可以在文章下留言，说不定我看见了就会给你写教程哦，另欢迎私信。

Original: https://blog.csdn.net/tm_ggplot2/article/details/119334696
Author: 公众号Codewar原创作者
Title: R数据分析：工具变量回归的做法和解释，实例解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631015/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ICRA2022 SLAM相关论文整理

线、面、3Dfeature EDPLVO: Efficient Direct Point-Line Visual Odometry 周博paper，高效的线特征使用方式，DSO-b…

人工智能 2023年6月15日
0070
造轮子 python 随机数填写体温并获取其他表格数据和并生成总表

疫情原因，要求填写体温，于是造了一个用于随机填充体温的轮子。 [严正声明] 禁止任何组织、团体与个人以任何不正当方式使用此程序。软件作者不承担任何由于不正确使用本程序造成的任何责…

人工智能 2023年7月7日
0042
语义网简介，常见的知识图谱应用场景

知识图谱简介及应用场景知识图谱最早是谷歌提出来的，又可以叫语义网，用来描述真实世界中存在的各种实体或概念及其关系，构成一张巨大的语义网络图，结点表示实体或概念，边由属性或关系构…

人工智能 2023年6月10日
0069
常见概率分布与采样方法

均匀分布与高斯分布如何由均匀分布生成标准正态分布？并且用python实现。 ^normal 给你一个0到1的均匀分布，如何近似地生成一个均值为0，标准差为1的标准正态分布。你只能…

人工智能 2023年6月4日
0069
YOLO-Darknet目标检测最强实战教程

文章目录 * – 一、Darknet 简介 – 二、专栏介绍 – 三、性能比较 – 四、检测效果 – 五、推荐学习资料 …

人工智能 2023年5月28日
0070
Anaconda安装与Python虚拟环境配置保姆级图文教程(附速查字典)

目录 1 混乱的Python库 2 什么是Anaconda？ 3 Anaconda的安装 * 3.1 Windows系统 3.2 Linux系统 3.3 测试 4 虚拟环境管理(速…

人工智能 2023年7月29日
0063
免费将中文视频转换为英文视频并添加中英双语字幕

人工智能 2023年5月23日
00185
相机内参数和外参数

求解相机内参：相机标定求解相机外参：相机位姿估计相机内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；相机外参数是在世界坐标系中的参数，比如相机的位置、旋转方向等。…

人工智能 2023年6月19日
0097
李宏毅2021《机器学习/深度学习》——学习笔记（3）

文章目录 DNN Training Procedure 深度学习简介 * 神经网络是一个函数神经网络中的矩阵运算手写体识别例子 Backpropagation（反向传播）参考…

人工智能 2023年6月15日
0081
bert 的输出格式详解

输出是一个元组类型的数据，包含四部分， last hidden state shape是(batch_size, sequence_length, hidden_size)，hi…

人工智能 2023年6月24日
0082
6、SpringBoot 整合定时任务task

注解使用：使用注解@EnableScheduling 开启定时任务,会自动扫描定义 @Component 作为组件被容器扫描推荐一个生成表达式网址工具：https://cron…

人工智能 2023年6月28日
0068
卷积神经网络模型之——GoogLeNet网络结构与代码实现

文章目录 GoogLeNet网络简介 GoogLeNet网络结构 * Inception之前的几层结构 Inception结构 – Inception3a模块 Ince…

人工智能 2023年7月23日
0076
Linux环境基础开发工具使用（上）

Linux环境基础开发工具使用（上） Linux 软件包管理器 yum * Linux中的软件安装方式什么是软件包关于 rzsz 注意事项查看软件包如何安装软件如何卸载软…

人工智能 2023年6月2日
0071
TensorFlow中的递归神经网络是如何实现的

问题：如何在TensorFlow中实现递归神经网络？介绍：递归神经网络（Recurrent Neural Network，简称RNN）是一种具有循环连接的神经网络，在自然语言处…

人工智能 2023年12月31日
0034
R语言使用t.test函数进行t检验、比较两组之间的数值指标是否有统计学差异、t 检验比较两个总体的均值、自定义设置参数 alternative（alt）进行单侧检验

R语言使用t.test函数进行t检验、比较两组之间的数值指标是否有统计学差异、 t 检验比较两个总体的均值、自定义设置参数 alternative（alt）进行单侧检验目录 R语…

人工智能 2023年7月16日
0057
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

sklearn数据集 ①sklearn数据集load_ 小数据集fetch_ 大数据集 ②数据集划分：训练集—建立模型：测试集—评估模型=7.5：2.5API:默认乱序：三个参数：…

人工智能 2023年7月2日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

R数据分析：工具变量回归的做法和解释，实例解析

大家都在看