stata回归分析与系数检验专题【计量经济系列（三）】

2023年7月14日下午9:00 • 人工智能 • 阅读 493

stata实证分析专题【计量经济系列（三）】

文章目录

1. 数据
2. 有常数项的回归
3. 无常数项的回归
4. 多元回归
5. 对部分满足条件数据做回归
6. predict
7. 系数的检验 test
8. 多元线性回归的古典假定
9. 练习

ʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞ

; 1. 数据

use grilic,clear
list s lnw in 1/10

有常数项的回归

reg lnw s

其中
SS中Model 表示可以被模型解释的平方和(回归解释平方和)，即ESS。
SS 中 Residual 表示残差平方和（未解释平方和），即RSS。

df表示自由度

MS表示单位自由度的平方和，M S = S S d f \displaystyle MS=\frac{SS}{df}M S =d f S S ，MS可以用来反映数据的变动趋势，对回归分析有一定参考价值。

Number of obs 表示观测值（数据）的个数

F(1, 756)表示检验整个方程显著性的F 统计量，即F ( k − 1 , n − k ) F(k-1,n-k)F (k −1 ,n −k )的值，这个在多元回归中更具有研究意义，但是这里还是要先讲一下：
其中k是2，表示有一个常数项，一个自变量的自由度之和为2。
k-1表示减去常数项的自由度。n是758，即758个样本数据的自由度。
将F值与临界值F α ( k − 1 , n − k ) F_{\alpha}(k-1,n-k)F α(k −1 ,n −k )的大小比较，
在5%的置信水平下，因为n-k大于了120，则视为无穷大，即F α ( 1 , ∞ ) F_{\alpha}(1,\infty)F α(1 ,∞)值为3.84，F(1, 756)值为255.7，远大于它，则应拒绝原假设N 0 N_0 N 0 ：β_1=β_2=…=0(即模型联合不显著)。表明模型是联合显著的。

在使用stata等工具时，相比F值，更常用的是P值。

Prob>F 即P值，
在此例中，
P值为0，即在0.1、0.05、0.02、0.01的显著性水平下，P值都小于他们，也可以得出拒绝原假设的结论，即模型是联合显著的。

R-squared即R 2 R^2 R 2，可决系数，或拟合优度。
Adj R-squared 即修正可决系数

R ‾ 2 = 1 − ∑ e i 2 / ( n − k ) ∑ ( Y i − Y ‾ ) 2 / ( n − 1 ) = 1 − n − 1 n − k ∑ e i 2 ∑ ( Y i − Y ‾ ) 2 \overline{R}^2=1-\frac{\sum{e_i^2}/(n-k)}{\sum{(Y_i-\overline{Y})^2}/(n-1)}=1-\frac{n-1}{n-k}\frac{\sum{e_i^2}}{\sum{(Y_i-\overline{Y})^2}}R 2 =1 −∑(Y i −Y )2 /(n −1 )∑e i 2 /(n −k )=1 −n −k n −1 ∑(Y i −Y )2 ∑e i 2

Root MSE是均方根误差，也叫方程的标准偏差或方程的标准误差。
其不同于标准差

标准差是用来衡量一组数自身的离散程度，而均方根误差是用来衡量观测值同真值之间的偏差，它们的研究对象和研究目的不同，但是计算过程类似。

计算公式为
Root MSE = d i 2 n \displaystyle = \sqrt{\frac{di^2}{n}}=n d i 2 = ( y i − y i ^ ) 2 n \displaystyle=\sqrt{\frac{{(y_i−\hat{y_i})}^2}{n}}=n (y i −y i ^)2

其中y i y_i y i 是真实值，y i ^ \hat{y_i}y i ^是拟合值。而是方差和标准差中则是真实值减去均值进行计算的。

“Coef.”表示回归系数（Coefficient），
“_cons”表示常数项（constant）

所以此处得到的回归线为：

ln ⁡ w ^ = 4.391 + 0.097 s \displaystyle \hat{\ln{w}}=4.391 + 0.097s ln w ^=4 .3 9 1 +0 .0 9 7 s

t表示T统计量的值，可以与临界值相比较。
P>|t| 即P值。将其与目标显著性水平相比较，具体不再赘述。

[95% Conf. Interval]则表示置信水平为95%的置信区间。

绘制散点图与回归线

twoway (scatter lnw s)(lfit lnw s)

无常数项的回归

少数情形，我们希望在做回归的时候施加一定的约束，即x=0时y=0，即截距为零。比如对于一对密度不尽相同的石头，当其体积为0时，质量一定也为0。

noc全称为noconstant

reg lnw s,noc

上边解释得太详细了，这里的输出结果就不再一一解释了。

两次计算R 2 R^2 R 2的公式是不相同的，
如果使用原来的公式计算没有常数项的方程R 2 R^2 R 2，即

1 − ∑ i = 1 n ( y i − β 1 x i ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 \displaystyle 1-\frac{\sum_{i=1}^{n}{(y_i-\beta_1x_i)^2}}{\sum_{i=1}^{n}{(y_i-\overline{y})^2}}1 −∑i =1 n (y i −y )2 ∑i =1 n (y i −β1 x i )2

则计算结果为负值。

这里的的R 2 R^2 R 2是由新的公式：

1 − ∑ i = 1 n ( y i − β 1 x i ) 2 ∑ i = 1 n y i 2 \displaystyle 1-\frac{\sum_{i=1}^{n}{(y_i-\beta_1x_i)^2}}{\sum_{i=1}^{n}{y_i^2}}1 −∑i =1 n y i 2 ∑i =1 n (y i −β1 x i )2

计算出的。

通过两次回归，可以看到前者仅有0.2527，而后者高达0.9798。无常数项的R 2 R^2 R 2和有常数项的R 2 R^2 R 2之间是不可比的。
在合适的情形下选择不具有常数项的模型，会更具有经济意义。

而且，无常数项的回归结果得到的系数0.4154作为投资回报率，明显是不合理的。
而从有常数项的回归结果中，可以看到常数项的P值为0，说明拒绝原假设，常数项是显著不为0的，也说明此模型的选择应该有常数项。

多元回归

reg lnw s expr tenure smsa rns

图表读法同上文所述。

回归系数协方差矩阵 vce

vce指的是 variance covariance matrix estimated
使用命令vce可以实现显示回归系数的协方差矩阵。
其对上一次回归命令的回归结果进行操作，而不需要指定参数。

vce

对部分满足条件数据做回归

其中rns有0和1两种取值，0表示北方，1表示南方，
如果只对南方居民样本进行回归

reg lnw s expr tenure smsa if rns

反之，只对北方居民做回归，则使用波浪线符号 ~ 表示逻辑否：

reg lnw s expr tenure smsa if ~rns

对变量s大于等于12且rns为1的数据，且不要常数项：

reg lnw s expr tenure smsa if rns & s>=12,noc

predict

使用predict求被解释变量的拟合值，并生成一列新的变量lnw1

use grilic,clear
quietly reg lnw s expr tenure smsa rns
predict lnw1

其中在命令前加quietly命令，可以使命令悄无声息地执行，而不汇报结果。
使用predict前需要先做回归。
生成的新变量lnw1如图所示，即为被解释变量的拟合值。

使用predict求计算残差，并生成一列新的变量e

use grilic,clear
quietly reg lnw s expr tenure smsa rns
predict e,residual

系数的检验 test

使用test命令可以实现对回归系数的检验

还使用grillic数据，
检验教育投资回报率是否为0.1
原假设H 0 H_0 H 0 即为：β 2 = 0.1 \displaystyle \beta_2=0.1 β2 =0 .1:

use grilic,clear
quietly reg lnw s expr tenure smsa rns
test s=0.1

命令执行效果如下：

这里汇报看F统计量的值和P值。
由P值等于0.6515过大，故这里无法拒绝原假设。

多元线性回归的古典假定

y i = β 1 + β 2 x i 2 + . . . + β k x i k + ϵ i \displaystyle y_i =\beta1+\beta2 x_{i2}+…+\beta k x_{ik} +\epsilon_i y i =β1 +β2 x i 2 +…+βk x i k +ϵi ( i = 1 , . . . , n ) (i=1,…,n)(i =1 ,…,n )

①零均值假定

即严格外生性（strict exogeneity），随机扰动项的条件期望为0。
此假定要求E ( ϵ i ∣ X ) = E ( ϵ i ∣ x 1 , . . . , x n ) = 0 \displaystyle E(\epsilon_i|X)=E(\epsilon_i|x1,…,x_n)=0 E (ϵi ∣X )=E (ϵi ∣x 1 ,…,x n )=0 ( i = 1 , . . . , n ) (i=1,…,n)(i =1 ,…,n )
严格外生性意味着，给定数据矩阵X X X，扰动项ϵ i \epsilon_i ϵi 的条件期望为0。

②球形扰动项
即随机扰动项满足同方差、无自相关。
C o v ( u i , u k ) = \displaystyle Cov(u_i,u_k)=C o v (u i ,u k )=

E [ ( u i − E u i ) ( u k − E u k ) ] \displaystyle E[(u_i-Eu_i)(u_k-Eu_k)]E [(u i −E u i )(u k −E u k )]

= E ( u i u k ) = { σ 2 , i = k 0 , i ≠ k ( i , k = 1 , 2 , . . . n ) \displaystyle =E(u_iu_k)=\left{ \begin{aligned} \sigma^2 ,i = k \ 0 ,i ≠k \ \end{aligned} \right.(i,k=1,2,…n)=E (u i u k )={σ2 ,i =k 0 ,i =k (i ,k =1 ,2 ,…n )

随机扰动项的方差-协方差矩阵为

VAR(U)= [ σ 2 0 . . . 0 0 σ 2 . . . 0 . . . . . . . . . 0 0 . . . σ 2 ] = σ 2 I n \displaystyle =\left[ \begin{matrix} \sigma^2 & 0 & … & 0 \ 0 & \sigma^2 & … & 0 \ … & … & & … \ 0 & 0 & … & \sigma^2 \ \end{matrix} \right]=\sigma^2I_n =⎣⎢⎢⎡σ2 0 …0 0 σ2 …0 ………0 0 …σ2 ⎦⎥⎥⎤=σ2 I n

③随机扰动项与解释变量不相关假定
C o v ( X j i , u i ) = 0 Cov(X_{ji},u_i)=0 C o v (X j i ,u i )=0 ( j = 2 , 3 , . . . , k ; i = 1 , 2 , . . . , n ) (j=2,3,…,k;i=1,2,…,n)(j =2 ,3 ,…,k ;i =1 ,2 ,…,n )

④无多重共线性假定
不存在”严格多重共线性”
即数据矩阵X X X满列秩。
即数据矩阵各列向量线性无关，不存在哪个解释变量是另一个解释变量的倍数，或者说可以被其他解释变量线性表示的情况。

⑤正态性假定
随机扰动项u i u_i u i 服从正态分布
u i u_i u i ~N ( 0 , σ 2 ) N(0,σ^2)N (0 ,σ2 )

练习

数据集 airq. dta包含1972年美国加州30个大城市的如下变量:airq(空气质量指数,越低越好) , vala(公司的增加值,千美元) , rain(降雨量,英寸) , coast(是否为海岸城市) , den-sity(人口密度,每平方英里) , income(人均收入,美元)。
(1)把airq对其他变量进行OLS回归。
(2)检验原假设”平均收入对空气质量没有影响”。
(3）检验经济变量density 与 income的联合显著性。
(4)检验环境变量rain 与coast的联合显著性。
(5)检验所有解释变量的联合显著性。

use airq,clear

（1）

reg airq vala rain coast density income

（2）

test income=0

（3）

test density income

（4）

test rain coast

（5）

test vala rain coast density income

本次分享就到这里，小啾感谢您的关注与支持！
🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ

Original: https://blog.csdn.net/weixin_48964486/article/details/124509952
Author: 侯小啾
Title: stata回归分析与系数检验专题【计量经济系列（三）】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692867/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（论文加源码）基于时频域特征分析和SVM分类器的DEAP脑电信号情感状态识别（matlab代码）（四分类）

论文和源码见个人主页：https://download.csdn.net/download/qq_45874683/85069822 （论文加源码）（matlab代码）基于时频域特…

人工智能 2023年7月2日
0084
HRNet代码及原理分析（一）– 网络结构

HRNet代码及原理分析（一）– 网络结构通常来说，目前市场上主流物体关键点的方法一般分两类：基于坐标回归，热力图。而后者主要是由高到低分辨率网络然后由低分辨率网络再…

人工智能 2023年5月23日
00206
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java拼车平台0k47u

马上就要做毕业设计啦，计算机专业的小伙伴们终于开始紧张啦~ 这个问题主要看自己有没有时间，有的话建议还是自己做不要去买。无非就是多花点时间。但是Java相关的毕业设计，真的太难啦…

人工智能 2023年6月27日
0089
一、Matlab图像处理入门

专栏文章目录一、 Matlab图像处理入门文章目录专栏文章目录今日任务：一、千呼万唤始出来——主角介绍 * 1、初识数字图像处理 2、初识MATLAB 二、言归正传——快…

人工智能 2023年6月17日
0086
设置优秀的超参数制作完美的深度学习模型

设计深度学习模型深度学习中的超参数 * 学习率 Momentum Dropout 架构——层数、每层神经元等。超参数优化算法 * – 网格搜索随机搜索贝叶斯优化…

人工智能 2023年5月25日
0072
分类评价指标 F值详解 | Micro F1 & Macro F1 & Weight F1

之前写一个作业样本不均衡问题。然后查了很多文章都说要更换评价指标，不能再使用准确率了，要计算F值。我看了一下F值怎么计算，看了挺多文章的，但是感觉说的比较迷惑，或者说法比较拗口。最…

人工智能 2023年6月30日
00147
机器学习：KL散度详解

KL 散度，是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样…

人工智能 2023年6月26日
0099
经常进行数据处理？这6个 Python 代码块值得收藏

大家好，今天和大家分享自己总结的6个常用的 Python 数据处理代码，对于经常处理数据的coder最好熟练掌握。选取有空值的行在观察数据结构时，该方法可以快速定位存在缺失值的…

人工智能 2023年7月8日
0086
10.聚类模型–相比分类模型事先不知道类别

聚类模型 1.K-means聚类算法 * 基本流程更好的求解K的聚类中心的方法 spss求解k均值聚类 3.层次聚类 * 基本流程距离的介绍 spss实现层次聚类确定k值确定…

人工智能 2023年6月2日
00108
windows下编译opencv 3.4.0

为了方便后期的调试，自己动手编译opencv3.4.0，这样有需要的时候还可以自己修改修改源代码。通常来说，编译32位比较简单，直接用cmake生成编译的工程就行了，但64位就比…

人工智能 2023年7月20日
0097
什么是过滤(Filtering)算法在人工智能领域中的应用

什么是过滤算法在人工智能领域中的应用在人工智能领域中，过滤算法是一种常用的技术，用于从大量的数据中筛选出特定的信息或模式。它可以应用于各种领域，如推荐系统、图像处理、语音识别等。…

人工智能 2024年1月4日
0051
自动驾驶算法岗笔试题 | 一道有意思的数学题 | 解析及代码实现

文章目录参考资料 1. 题目描述 2. 问题分析 * 1. 问题 1 – 分析 python代码实现 2. 问题 2-1 3. 问题 2-2 参考资料 https:/…

人工智能 2023年6月1日
0099
五分钟了解机器学习的基本概念

目录 1、人工智能、机器学习、深度学习之间的关系 2、什么是机器学习？ 3、机器学习的常见问题之过拟合 4、如何克服过拟合？ 5、机器学习的类型 6、分类和回归 1、人工智能、机…

人工智能 2023年7月27日
0081
halcon中木材提取

要求：提取下图中木材截面并计数结果：代码： *读取图像 read_image(imag…

人工智能 2023年6月21日
0094
《知识图谱概念与技术》读书笔记：概念图谱中的isA关系

读完可以回答以下问题： 1.概念图谱构建的要素是什么？如何构建优质的概念图谱？2.概念图谱中isA关系的抽取方法有哪些？实际应用较多的方法有哪些？实际应用时抽取过程是怎样的？3.中…

人工智能 2023年6月1日
0083
搭建Hyperledger Fabric 2.3.2开发环境及简单案例运行

前言在基于truffle框架实现以太坊公开拍卖智能合约中我们已经实现了以太坊智能合约的编写及部署，但其工作方式注定其只能应用于有限的业务场景中。相比之下，基于超级账本的 Fabr…

人工智能 2023年6月4日
00123

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

stata回归分析与系数检验专题【计量经济系列（三）】

文章目录

大家都在看