3.1 最小二乘估计
用 y y y 表示因变量,x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 表示对 y y y 有影响的 p p p 个自变量。
- 总体回归模型:假设 y y y 和 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 之间满足如下线性关系式
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p + e , y=\beta_0+\beta_1 x_1+\beta_2x_2+\cdots+\beta_px_p+e \ ,y =β0 +β1 x 1 +β2 x 2 +⋯+βp x p +e ,
其中 e e e 是随机误差,将 β 0 \beta_0 β0 称为回归常数,将 β 1 , β 1 , ⋯ , β p \beta_1,\beta_1,\cdots,\beta_p β1 ,β1 ,⋯,βp 称为回归系数。 - 总体回归函数:定量地刻画因变量的条件均值与自变量之间的相依关系,即
E ( y ∣ x ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p , {\rm E}(y|x)=\beta_0+\beta_1 x_1+\beta_2x_2+\cdots+\beta_px_p \ ,E (y ∣x )=β0 +β1 x 1 +β2 x 2 +⋯+βp x p ,
回归分析的首要目标就是估计回归函数。
假定已有因变量 y y y 和自变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 的 n n n 组观测样本 ( x i 1 , x i 2 , ⋯ , x i p ) , i = 1 , 2 , ⋯ , n \left(x_{i1},x_{i2},\cdots,x_{ip}\right),\,i=1,2,\cdots,n (x i 1 ,x i 2 ,⋯,x i p ),i =1 ,2 ,⋯,n 。
- 样本回归模型:样本观测值满足如下线性方程组
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β p x i p + e i , i = 1 , 2 , ⋯ , n . y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+e_i \ , \quad i=1,2,\cdots,n \ .y i =β0 +β1 x i 1 +β2 x i 2 +⋯+βp x i p +e i ,i =1 ,2 ,⋯,n .
- Gauss-Markov 假设:随机误差项e i , i = 1 , 2 , ⋯ , n e_i,\,i=1,2,\cdots,n e i ,i =1 ,2 ,⋯,n 满足如下假设:
- 零均值:E ( e i ) = 0 {\rm E}(e_i)=0 E (e i )=0 ;
- 同方差:V a r ( e i ) = σ 2 {\rm Var}(e_i)=\sigma^2 V a r (e i )=σ2 ;
- 不相关:C o v ( e i , e j ) = 0 , i ≠ j {\rm Cov}(e_i,e_j)=0 \ , \ \ i\neq j C o v (e i ,e j )=0 ,i =j 。
如果将样本回归模型中的线性方程组,用矩阵形式表示为
Y = d e f ( y 1 y 2 ⋮ y n ) = ( 1 x 11 ⋯ x 1 p 1 x 21 ⋯ x 2 p ⋮ ⋮ ⋱ ⋮ 1 x n 1 ⋯ x n p ) ( β 0 β 1 ⋮ β p ) + ( e 1 e 2 ⋮ e n ) = d e f X β + e , Y\xlongequal{def}\left(\begin{array}{c} y_1 \ y_2 \ \vdots \ y_n \end{array}\right)=\left(\begin{array}{c} 1 & x_{11} & \cdots & x_{1p} \ 1 & x_{21} & \cdots & x_{2p} \ \vdots & \vdots & \ddots & \vdots \ \ 1 & x_{n1} & \cdots & x_{np} \ \end{array}\right)\left(\begin{array}{c} \beta_0 \ \beta_1 \ \vdots \ \beta_p \end{array}\right)+\left(\begin{array}{c} e_1 \ e_2 \ \vdots \ e_n \end{array}\right)\xlongequal{def}X\beta+e \ ,Y d e f ⎝⎜⎜⎜⎛y 1 y 2 ⋮y n ⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛1 1 ⋮1 x 1 1 x 2 1 ⋮x n 1 ⋯⋯⋱⋯x 1 p x 2 p ⋮x n p ⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛β0 β1 ⋮βp ⎠⎟⎟⎟⎞+⎝⎜⎜⎜⎛e 1 e 2 ⋮e n ⎠⎟⎟⎟⎞d e f X β+e ,
其中 X X X 称为设计矩阵。若将 Gauss-Markov 假设也用矩阵形式表示为
E ( e ) = 0 , C o v ( e ) = σ 2 I n , {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ ,E (e )=0 ,C o v (e )=σ2 I n ,
将矩阵方程和 Gauss-Markov 假设合写在一起,即可得到最基本的 线性回归模型:
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I n . Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ .Y =X β+e ,E (e )=0 ,C o v (e )=σ2 I n .
最小二乘估计:寻找一个 β \beta β 的估计,使得误差向量 e = Y − X β e=Y-X\beta e =Y −X β 的长度的平方达到最小。设
Q ( β ) = ∥ Y − X β ∥ 2 = ( Y − X β ) ′ ( Y − X β ) = Y ′ Y − 2 Y ′ X β + β ′ X ′ X β , \begin{aligned} Q(\beta)&=\|Y-X\beta\|^2 \ \ &=(Y-X\beta)'(Y-X\beta) \ \ &=Y’Y-2Y’X\beta+\beta’X’X\beta \ , \end{aligned}Q (β)=∥Y −X β∥2 =(Y −X β)′(Y −X β)=Y ′Y −2 Y ′X β+β′X ′X β,
对 β \beta β 求导,令其等于零,可得 正规方程组
X ′ X β = X ′ Y . X’X\beta=X’Y \ .X ′X β=X ′Y .
正规方程组有唯一解的充要条件是 r a n k ( X ′ X ) = p + 1 {\rm rank}\left(X’X\right)=p+1 r a n k (X ′X )=p +1 ,这等价于 r a n k ( X ) = p + 1 {\rm rank}(X)=p+1 r a n k (X )=p +1 ,即 X X X 是列满秩的。正规方程组的唯一解为
β ^ = ( X ′ X ) − 1 X ′ Y . \hat\beta=\left(X’X\right)^{-1}X’Y \ .β^=(X ′X )−1 X ′Y .
以上的讨论说明 β ^ \hat\beta β^ 是 Q ( β ) Q(\beta)Q (β) 的一个驻点,下面证明 β ^ \hat\beta β^ 是 Q ( β ) Q(\beta)Q (β) 的最小值点。
对任意的 β ∈ R p + 1 \beta\in\mathbb{R}^{p+1}β∈R p +1 ,有
∥ Y − X β ∥ 2 = ∥ Y − X β ^ + X ( β ^ − β ) ∥ 2 = ∥ Y − X β ^ ∥ 2 + ∥ X ( β ^ − β ) ∥ 2 + 2 ( β ^ − β ) ′ X ′ ( Y − X β ^ ) . \begin{aligned} \|Y-X\beta\|^2&=\left\|Y-X\hat\beta+X\left(\hat\beta-\beta\right)\right\|^2 \ \ &=\left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\beta\right)\right\|^2+2\left(\hat\beta-\beta\right)’X’\left(Y-X\hat\beta\right) \ . \end{aligned}∥Y −X β∥2 =∥∥∥Y −X β^+X (β^−β)∥∥∥2 =∥∥∥Y −X β^∥∥∥2 +∥∥∥X (β^−β)∥∥∥2 +2 (β^−β)′X ′(Y −X β^).
因为 β ^ \hat\beta β^ 满足正规方程组 X ′ X β ^ = X ′ Y X’X\hat\beta=X’Y X ′X β^=X ′Y ,所以 X ′ ( Y − X β ^ ) = 0 X’\left(Y-X\hat\beta\right)=0 X ′(Y −X β^)=0 ,所以对任意的 β ∈ R p + 1 \beta\in\mathbb{R}^{p+1}β∈R p +1 ,有
∥ Y − X β ∥ 2 = ∥ Y − X β ^ ∥ 2 + ∥ X ( β ^ − β ) ∥ 2 . \begin{aligned} \|Y-X\beta\|^2&=\left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\beta\right)\right\|^2 \ . \end{aligned}∥Y −X β∥2 =∥∥∥Y −X β^∥∥∥2 +∥∥∥X (β^−β)∥∥∥2 .
所以有
Q ( β ) = ∥ Y − X β ∥ 2 ≥ ∥ Y − X β ^ ∥ 2 = Q ( β ^ ) . Q(\beta)=\|Y-X\beta\|^2\geq \left\|Y-X\hat\beta\right\|^2=Q\left(\hat\beta\right) \ .Q (β)=∥Y −X β∥2 ≥∥∥∥Y −X β^∥∥∥2 =Q (β^).
当且仅当 β = β ^ \beta=\hat\beta β=β^ 时等号成立。
我们将 Y ^ = X β ^ \hat{Y}=X\hat\beta Y ^=X β^ 称为 Y Y Y 的拟合值向量或投影向量,注意到
Y ^ = X β ^ = X ( X ′ X ) − 1 X ′ Y = d e f H Y , \hat{Y}=X\hat\beta=X\left(X’X\right)^{-1}X’Y\xlongequal{def}HY \ ,Y ^=X β^=X (X ′X )−1 X ′Y d e f H Y ,
我们将 H = X ( X ′ X ) − 1 X ′ H=X\left(X’X\right)^{-1}X’H =X (X ′X )−1 X ′ 称为帽子矩阵,它是自变量空间的投影矩阵,这里的自变量空间指的是矩阵 X X X 的列空间。此外,我们将 e ^ = Y − Y ^ = ( I − H ) Y \hat{e}=Y-\hat{Y}=(I-H)Y e ^=Y −Y ^=(I −H )Y 称为残差向量。
中心化模型:将原始数据进行中心化,令
x ˉ j = 1 n ∑ i = 1 n x i j , j = 1 , 2 , ⋯ , p . \bar{x}j=\frac1n\sum{i=1}^nx_{ij} \ , \quad j=1,2,\cdots,p \ .x ˉj =n 1 i =1 ∑n x i j ,j =1 ,2 ,⋯,p .
将样本回归模型改写为
y i = α + β 1 ( x i 1 − x ˉ 1 ) + β 2 ( x i 2 − x ˉ 2 ) + ⋯ + β p ( x i p − x ˉ p ) + e i , i = 1 , 2 , ⋯ , n y_i=\alpha+\beta_1\left(x_{i1}-\bar{x}1\right)+\beta_2\left(x{i2}-\bar{x}2\right)+\cdots+\beta_p\left(x{ip}-\bar{x}p\right)+e_i \ , \quad i=1,2,\cdots,n y i =α+β1 (x i 1 −x ˉ1 )+β2 (x i 2 −x ˉ2 )+⋯+βp (x i p −x ˉp )+e i ,i =1 ,2 ,⋯,n
其中 α = β 0 + β 1 x ˉ 1 + β 2 x ˉ 2 + ⋯ + β p x ˉ p \alpha=\beta_0+\beta_1\bar{x}_1+\beta_2\bar{x}_2+\cdots+\beta_p\bar{x}_p α=β0 +β1 x ˉ1 +β2 x ˉ2 +⋯+βp x ˉp 。定义设计矩阵为
X c = ( x 11 − x ˉ 1 x 12 − x ˉ 2 ⋯ x 1 p − x ˉ p x 21 − x ˉ 1 x 22 − x ˉ 2 ⋯ x 2 p − x ˉ p ⋮ ⋮ ⋱ ⋮ x n 1 − x ˉ 1 x n 2 − x ˉ 2 ⋯ x n p − x ˉ p ) , X_c=\begin{pmatrix} x{11}-\bar{x}1 & x{12}-\bar{x}2 & \cdots &x{1p}-\bar{x}p \ x{21}-\bar{x}1 & x{22}-\bar{x}2 & \cdots &x{2p}-\bar{x}p \ \vdots &\vdots & \ddots & \vdots \ x{n1}-\bar{x}1 & x{n2}-\bar{x}2 & \cdots &x{np}-\bar{x}p \ \end{pmatrix} \ ,X c =⎝⎜⎜⎜⎛x 1 1 −x ˉ1 x 2 1 −x ˉ1 ⋮x n 1 −x ˉ1 x 1 2 −x ˉ2 x 2 2 −x ˉ2 ⋮x n 2 −x ˉ2 ⋯⋯⋱⋯x 1 p −x ˉp x 2 p −x ˉp ⋮x n p −x ˉp ⎠⎟⎟⎟⎞,
将中心化模型写成矩阵形式:
Y = 1 n α + X β + e = ( 1 n X c ) ( α β ) + e . Y=\boldsymbol 1_n\alpha+X\beta+e=\begin{pmatrix} \boldsymbol 1_n & X_c \end{pmatrix}\begin{pmatrix} \alpha \ \beta \end{pmatrix}+e \ .Y =1 n α+X β+e =(1 n X c )(αβ)+e .
其中 β = ( β 1 , β 2 , ⋯ , β p ) ′ \beta=\left(\beta_1,\beta_2,\cdots,\beta_p\right)’β=(β1 ,β2 ,⋯,βp )′ 。注意到
1 n ′ X c = 0 , \boldsymbol 1_n’X_c=0 \ ,1 n ′X c =0 ,
因此正规方程组可以写为
( n 0 0 X c ′ X c ) ( α β ) = ( 1 n ′ Y X c ′ Y ) ⟺ { n α = 1 n ′ Y , X c ′ X c β = X c ′ Y , \begin{pmatrix} n & 0 \ 0 & X_c’X_c \end{pmatrix} \begin{pmatrix} \alpha \ \beta \end{pmatrix} =\begin{pmatrix} \boldsymbol 1_n’Y \ X_c’Y \end{pmatrix} \quad \iff \quad \left{\begin{array}{l} n\alpha=\boldsymbol 1_n’Y \ , \ X_c’X_c\beta=X_c’Y \ , \end{array}\right.(n 0 0 X c ′X c )(αβ)=(1 n ′Y X c ′Y )⟺{n α=1 n ′Y ,X c ′X c β=X c ′Y ,
解得回归参数的最小二乘估计为
{ α ^ = y ˉ , β ^ = ( X c ′ X c ) − 1 X c ′ Y . \left{\begin{array}{l} \hat\alpha=\bar{y} \ , \ \hat\beta=\left(X_c’X_c\right)^{-1}X_c’Y \ . \end{array}\right.{α^=y ˉ,β^=(X c ′X c )−1 X c ′Y .
标准化模型:将原始数据进行标准化,令
s j 2 = ∑ i = 1 n ( x i j − x ˉ j ) 2 , j = 1 , 2 , ⋯ , p , z i j = x i j − x ˉ j s j , i = 1 , 2 , ⋯ , n j = 1 , 2 , ⋯ , p , \begin{aligned} &s_j^2=\sum{i=1}^n\left(x_{ij}-\bar{x}j\right)^2 \ , \quad j=1,2,\cdots,p \ , \ \ &z{ij}=\frac{x_{ij}-\bar{x}j}{s{j}} \ , \quad i=1,2,\cdots,n \quad j=1,2,\cdots,p \ , \end{aligned}s j 2 =i =1 ∑n (x i j −x ˉj )2 ,j =1 ,2 ,⋯,p ,z i j =s j x i j −x ˉj ,i =1 ,2 ,⋯,n j =1 ,2 ,⋯,p ,
将样本回归模型改写为
y i = γ + x i 1 − x ˉ 1 s 1 β 1 + x i 2 − x ˉ 2 s 2 β 1 + ⋯ x i p − x ˉ p s p β 1 + e i , i = 1 , 2 , ⋯ , n , y_i=\gamma+\frac{x_{i1}-\bar{x}1}{s_1}\beta_1+\frac{x{i2}-\bar{x}2}{s_2}\beta_1+\cdots\frac{x{ip}-\bar{x}p}{s_p}\beta_1+e_i \ , \quad i=1,2,\cdots,n \ ,y i =γ+s 1 x i 1 −x ˉ1 β1 +s 2 x i 2 −x ˉ2 β1 +⋯s p x i p −x ˉp β1 +e i ,i =1 ,2 ,⋯,n ,
令 Z = ( z i j ) n × p Z=(z{ij}){n\times p}Z =(z i j )n ×p ,将标准化模型写成矩阵形式:
Y = 1 n γ + Z β + e = ( 1 n Z ) ( γ β ) + e . Y=\boldsymbol 1_n\gamma+Z\beta+e=\begin{pmatrix} \boldsymbol 1_n & Z \end{pmatrix}\begin{pmatrix} \gamma \ \beta \end{pmatrix}+e \ .Y =1 n γ+Z β+e =(1 n Z )(γβ)+e .
解得回归参数的最小二乘估计为
{ γ ^ = y ˉ , β ^ = ( Z ′ Z ) − 1 Z ′ Y . \left{\begin{array}{l} \hat\gamma=\bar{y} \ , \ \hat\beta=\left(Z’Z\right)^{-1}Z’Y \ . \end{array}\right.{γ^=y ˉ,β^=(Z ′Z )−1 Z ′Y .
这里矩阵 Z Z Z 具有如下性质:
1 n ′ Z = 0 , R = Z ′ Z = ( r i j ) p × p . \boldsymbol{1}_n’Z=0 \ , \quad R=Z’Z=(r{ij})_{p\times p} \ .1 n ′Z =0 ,R =Z ′Z =(r i j )p ×p .
其中 r i j r_{ij}r i j 为自变量 x i x_i x i 和 x j x_j x j 的样本相关系数,矩阵 R R R 是自变量的样本相关系数矩阵。
3.2 最小二乘估计的性质
设线性回归模型满足 Gauss-Markov 假设,即
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I n . Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ .Y =X β+e ,E (e )=0 ,C o v (e )=σ2 I n .
下面我们来讨论最小二乘估计 β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=\left(X’X\right)^{-1}X’Y β^=(X ′X )−1 X ′Y 的一些良好的性质。
定理 3.2.1:对于线性回归模型,最小二乘估计 β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=\left(X’X\right)^{-1}X’Y β^=(X ′X )−1 X ′Y 具有下列性质:
(1) E ( β ^ ) = β {\rm E}\left(\hat\beta\right)=\beta E (β^)=β 。
(2) C o v ( β ^ ) = σ 2 ( X ′ X ) − 1 {\rm Cov}\left(\hat\beta\right)=\sigma^2\left(X’X\right)^{-1}C o v (β^)=σ2 (X ′X )−1 。
(1) 因为 E ( Y ) = X β {\rm E}(Y)=X\beta E (Y )=X β ,所以
E ( β ^ ) = ( X ′ X ) − 1 X ′ E ( Y ) = ( X ′ X ) − 1 X ′ X β = β . {\rm E}\left(\hat\beta\right)=\left(X’X\right)^{-1}X'{\rm E}(Y)=\left(X’X\right)^{-1}X’X\beta=\beta \ .E (β^)=(X ′X )−1 X ′E (Y )=(X ′X )−1 X ′X β=β.
(2) 因为 C o v ( Y ) = C o v ( e ) = σ 2 I n {\rm Cov}(Y)={\rm Cov}(e)=\sigma^2I_n C o v (Y )=C o v (e )=σ2 I n ,所以
C o v ( β ^ ) = C o v ( ( X ′ X ) − 1 X ′ Y ) = ( X ′ X ) − 1 X ′ C o v ( Y ) X ( X ′ X ) − 1 = ( X ′ X ) − 1 X σ 2 I n X ( X ′ X ) − 1 = σ 2 ( X ′ X ) − 1 . \begin{aligned} {\rm Cov}\left(\hat\beta\right)&={\rm Cov}\left(\left(X’X\right)^{-1}X’Y\right) \ \ &=\left(X’X\right)^{-1}X'{\rm Cov}(Y)X\left(X’X\right)^{-1} \ \ &=\left(X’X\right)^{-1}X\sigma^2I_nX\left(X’X\right)^{-1} \ \ &=\sigma^2\left(X’X\right)^{-1} \ . \end{aligned}C o v (β^)=C o v ((X ′X )−1 X ′Y )=(X ′X )−1 X ′C o v (Y )X (X ′X )−1 =(X ′X )−1 X σ2 I n X (X ′X )−1 =σ2 (X ′X )−1 .
推论 3.2.1:设 c c c 是 p + 1 p+1 p +1 维常数向量,我们称 c ′ β ^ c’\hat\beta c ′β^ 是 c ′ β c’\beta c ′β 的最小二乘估计,具有下列性质:
(1) E ( c ′ β ^ ) = c ′ β {\rm E}\left(c’\hat\beta\right)=c’\beta E (c ′β^)=c ′β 。
(2) C o v ( c ′ β ^ ) = σ 2 c ′ ( X ′ X ) − 1 c {\rm Cov}\left(c’\hat\beta\right)=\sigma^2c’\left(X’X\right)^{-1}c C o v (c ′β^)=σ2 c ′(X ′X )−1 c 。
该推论说明,对任意的线性函数 c ′ β c’\beta c ′β ,都有 c ′ β ^ c’\hat\beta c ′β^ 是 c ′ β c’\beta c ′β 的无偏估计,
定理 3.2.2 (Gauss-Markov):对于线性回归模型,在 c ′ β c’\beta c ′β 的所有线性无偏估计中,最小二乘估计 c ′ β ^ c’\hat\beta c ′β^ 是唯一的最小方差线性无偏估计 (best linear unbiased estimator, BLUE) 。
假设 a ′ Y a’Y a ′Y 是 c ′ β c’\beta c ′β 的一个线性无偏估计,则对 ∀ β ∈ R p + 1 \forall\beta\in\mathbb{R}^{p+1}∀β∈R p +1 ,都有
E ( a ′ Y ) = a ′ X β = c ′ β . {\rm E}\left(a’Y\right)=a’X\beta=c’\beta \ .E (a ′Y )=a ′X β=c ′β.
所以 a ′ X = c ′ a’X=c’a ′X =c ′ 。又因为
V a r ( a ′ Y ) = σ 2 a ′ a = σ 2 ∥ a ∥ 2 , V a r ( c ′ β ^ ) = σ 2 c ′ ( X ′ X ) − 1 c , \begin{aligned} &{\rm Var}(a’Y)=\sigma^2a’a=\sigma^2\|a\|^2 \ , \ \ &{\rm Var}\left(c’\hat\beta\right)=\sigma^2c’\left(X’X\right)^{-1}c \ , \end{aligned}V a r (a ′Y )=σ2 a ′a =σ2 ∥a ∥2 ,V a r (c ′β^)=σ2 c ′(X ′X )−1 c ,
对 ∥ a ∥ 2 \|a\|^2 ∥a ∥2 做分解有
∥ a ∥ 2 = ∥ a − X ( X ′ X ) − 1 c + X ( X ′ X ) − 1 c ∥ 2 = ∥ a − X ( X ′ X ) − 1 c ∥ 2 + ∥ X ( X ′ X ) − 1 c ∥ 2 + 2 c ′ ( X ′ X ) − 1 X ′ ( a − X ( X ′ X ) − 1 c ) = ∥ a − X ( X ′ X ) − 1 c ∥ 2 + ∥ X ( X ′ X ) − 1 c ∥ 2 . \begin{aligned} \|a\|^2&=\left\|a-X\left(X’X\right)^{-1}c+X\left(X’X\right)^{-1}c\right\|^2 \ \ &=\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\left\|X\left(X’X\right)^{-1}c\right\|^2 +2c’\left(X’X\right)^{-1}X’\left(a-X\left(X’X\right)^{-1}c\right) \ \ &=\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\left\|X\left(X’X\right)^{-1}c\right\|^2 \ . \end{aligned}∥a ∥2 =∥∥∥a −X (X ′X )−1 c +X (X ′X )−1 c ∥∥∥2 =∥∥∥a −X (X ′X )−1 c ∥∥∥2 +∥∥∥X (X ′X )−1 c ∥∥∥2 +2 c ′(X ′X )−1 X ′(a −X (X ′X )−1 c )=∥∥∥a −X (X ′X )−1 c ∥∥∥2 +∥∥∥X (X ′X )−1 c ∥∥∥2 .
最后一个等号是因为
2 c ′ ( X ′ X ) − 1 X ′ ( a − X ( X ′ X ) − 1 c ) = 2 c ′ ( X ′ X ) − 1 ( X ′ a − c ) = 0 . \begin{aligned} 2c’\left(X’X\right)^{-1}X’\left(a-X\left(X’X\right)^{-1}c\right)&=2c’\left(X’X\right)^{-1}\left(X’a-c\right)=0 \ . \end{aligned}2 c ′(X ′X )−1 X ′(a −X (X ′X )−1 c )=2 c ′(X ′X )−1 (X ′a −c )=0 .
代入 a ′ Y a’Y a ′Y 的方差,所以
V a r ( a ′ Y ) = σ 2 ∥ a ∥ 2 = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + σ 2 ∥ X ( X ′ X ) − 1 c ∥ 2 = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + σ 2 c ′ ( X ′ X ) − 1 X ′ X ( X ′ X ) − 1 c = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + V a r ( c ′ β ^ ) ≥ V a r ( c ′ β ^ ) . \begin{aligned} {\rm Var}\left(a’Y\right)&=\sigma^2\|a\|^2 \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\sigma^2\left\|X\left(X’X\right)^{-1}c\right\|^2 \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\sigma^2c’\left(X’X\right)^{-1}X’X\left(X’X\right)^{-1}c \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+{\rm Var}\left(c’\hat\beta\right) \ \ &\geq{\rm Var}\left(c’\hat\beta\right) \ . \end{aligned}V a r (a ′Y )=σ2 ∥a ∥2 =σ2 ∥∥∥a −X (X ′X )−1 c ∥∥∥2 +σ2 ∥∥∥X (X ′X )−1 c ∥∥∥2 =σ2 ∥∥∥a −X (X ′X )−1 c ∥∥∥2 +σ2 c ′(X ′X )−1 X ′X (X ′X )−1 c =σ2 ∥∥∥a −X (X ′X )−1 c ∥∥∥2 +V a r (c ′β^)≥V a r (c ′β^).
等号成立当且仅当 ∥ a − X ( X ′ X ) − 1 c ∥ = 0 \left\|a-X\left(X’X\right)^{-1}c\right\|=0 ∥∥∥a −X (X ′X )−1 c ∥∥∥=0 ,即 a = X ( X ′ X ) − 1 c a=X\left(X’X\right)^{-1}c a =X (X ′X )−1 c ,此时 c ′ Y = c ′ β ^ c’Y=c’\hat\beta c ′Y =c ′β^ ,得证。
误差方差 σ 2 \sigma^2 σ2 反映了模型误差对因变量的影响大小,下面来估计 σ 2 \sigma^2 σ2 。
注意到误差向量 e = Y − X β e=Y-X\beta e =Y −X β 是不可观测的,用 β ^ \hat\beta β^ 代替 β \beta β ,称
e ^ = Y − X β ^ = Y − Y ^ . \hat{e}=Y-X\hat\beta=Y-\hat{Y} \ .e ^=Y −X β^=Y −Y ^.
为残差向量。设 x i ′ x_i’x i ′ 为设计矩阵 X X X 的第 i i i 行,则第 i i i 次观测的残差可以表示为
e ^ i = y i − x i ′ β ^ = y i − y ^ i , i = 1 , 2 , ⋯ , n , \hat e_i=y_i-x_i’\hat\beta=y_i-\hat{y}_i \ , \quad i=1,2,\cdots,n \ ,e ^i =y i −x i ′β^=y i −y ^i ,i =1 ,2 ,⋯,n ,
称 y ^ i \hat{y}_i y ^i 为第 i i i 次观测的拟合值,称 Y ^ \hat{Y}Y ^ 为拟合值向量。
将 e ^ \hat{e}e ^ 看作 e e e 的一个估计,定义残差平方和为
R S S = e ^ ′ e ^ = ∑ i = 1 n e ^ i 2 , {\rm RSS}=\hat{e}’\hat{e}=\sum_{i=1}^n\hat{e}_i^2 \ ,R S S =e ^′e ^=i =1 ∑n e ^i 2 ,
它从整体上反映了观测数据与回归直线的偏离程度。
定理 3.2.3:我们用 R S S {\rm RSS}R S S 来构造 σ 2 \sigma^2 σ2 的无偏估计量。
(a) R S S = Y ′ ( I n − X ( X ′ X ) − 1 X ′ ) Y = Y ′ ( I n − H ) Y {\rm RSS}=Y’\left(I_n-X\left(X’X\right)^{-1}X’\right)Y=Y’\left(I_n-H\right)Y R S S =Y ′(I n −X (X ′X )−1 X ′)Y =Y ′(I n −H )Y ;
(b) 若定义 σ 2 \sigma^2 σ2 的估计量为
σ ^ 2 = R S S n − r a n k ( X ) , \hat\sigma^2=\frac{\rm RSS}{n-{\rm rank}(X)} \ ,σ^2 =n −r a n k (X )R S S ,
则 σ ^ 2 \hat\sigma^2 σ^2 是 σ 2 \sigma^2 σ2 的无偏估计量。
(a) 引入帽子矩阵 Y ^ = H Y \hat{Y}=HY Y ^=H Y ,所以 e ^ = ( I n − H ) Y \hat{e}=\left(I_n-H\right)Y e ^=(I n −H )Y ,所以
R S S = e ^ ′ e ^ = Y ′ ( I n − H ) ′ ( I n − H ) Y = Y ′ ( I n − H ) Y . {\rm RSS}=\hat{e}’\hat{e}=Y'(I_n-H)'(I_n-H)Y=Y'(I_n-H)Y \ .R S S =e ^′e ^=Y ′(I n −H )′(I n −H )Y =Y ′(I n −H )Y .
(b) 把 Y = X β + e Y=X\beta+e Y =X β+e 代入 R S S {\rm RSS}R S S 的表达式可得
R S S = ( X β + e ) ′ ( I n − H ) ( X β + e ) = β ′ X ′ ( I n − H ) X β + e ′ ( I n − H ) e = β ′ X ′ X β − β ′ X ′ X ( X ′ X ) − 1 X ′ X β + + e ′ ( I n − H ) e = e ′ ( I n − H ) e . \begin{aligned} {\rm RSS}&=(X\beta+e)'(I_n-H)(X\beta+e) \ \ &=\beta’X'(I_n-H)X\beta+e'(I_n-H)e \ \ &=\beta’X’X\beta-\beta’X’X(X’X)^{-1}X’X\beta++e'(I_n-H)e \ \ &=e'(I_n-H)e \ . \end{aligned}R S S =(X β+e )′(I n −H )(X β+e )=β′X ′(I n −H )X β+e ′(I n −H )e =β′X ′X β−β′X ′X (X ′X )−1 X ′X β++e ′(I n −H )e =e ′(I n −H )e .
由定理 2.2.1 可知
E ( R S S ) = E [ e ′ ( I n − H ) e ] = 0 + t r [ ( I n − H ) σ 2 I n ] = σ 2 ( n − t r ( H ) ) . \begin{aligned} {\rm E}\left({\rm RSS}\right)&={\rm E}\left[e'(I_n-H)e\right] \ \ &=0+{\rm tr}\left[(I_n-H)\sigma^2I_n\right] \ \ &=\sigma^2(n-{\rm tr}(H)) \ . \end{aligned}E (R S S )=E [e ′(I n −H )e ]=0 +t r [(I n −H )σ2 I n ]=σ2 (n −t r (H )).
根据对称幂等矩阵的秩与迹相等这一性质可得
t r ( H ) = r a n k ( H ) = r a n k ( X ) . {\rm tr}(H)={\rm rank}(H)={\rm rank}(X) \ .t r (H )=r a n k (H )=r a n k (X ).
所以有
E ( R S S ) = σ 2 ( n − r a n k ( X ) ) . {\rm E}\left({\rm RSS}\right)=\sigma^2(n-{\rm rank}(X)) \ .E (R S S )=σ2 (n −r a n k (X )).
进而
σ ^ 2 = R S S n − r a n k ( X ) \hat\sigma^2=\frac{\rm RSS}{n-{\rm rank}(X)}σ^2 =n −r a n k (X )R S S
是 σ 2 \sigma^2 σ2 的无偏估计量。
如果误差向量 e e e 服从正态分布,即 e ∼ N n ( 0 , σ 2 I n ) e\sim N_n\left(0,\sigma^2I_n\right)e ∼N n (0 ,σ2 I n ) ,则可以得到 β ^ \hat\beta β^ 和 σ ^ 2 \hat\sigma^2 σ^2 的更多性质。
定理 3.2.4:对于线性回归模型,如果误差向量 e ∼ N n ( 0 , σ 2 I n ) e\sim N_n\left(0,\sigma^2I_n\right)e ∼N n (0 ,σ2 I n ) ,则
(a) β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) \hat\beta\sim N\left(\beta,\sigma^2\left(X’X\right)^{-1}\right)β^∼N (β,σ2 (X ′X )−1 ) ;
(b) R S S / σ 2 ∼ χ 2 ( n − r a n k ( X ) ) {\rm RSS}/\sigma^2\sim\chi^2(n-{\rm rank}(X))R S S /σ2 ∼χ2 (n −r a n k (X )) ;
© β ^ \hat\beta β^ 与 R S S {\rm RSS}R S S 相互独立。
(a) 注意到
β ^ = ( X ′ X ) − 1 X ′ Y = ( X ′ X ) − 1 X ′ ( X β + e ) = β + ( X ′ X ) − 1 X ′ e . \hat\beta=\left(X’X\right)^{-1}X’Y=\left(X’X\right)^{-1}X'(X\beta+e)=\beta+\left(X’X\right)^{-1}X’e \ .β^=(X ′X )−1 X ′Y =(X ′X )−1 X ′(X β+e )=β+(X ′X )−1 X ′e .
由定理 2.3.4 和定理 3.2.1 可得
β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) . \hat\beta\sim N\left(\beta,\sigma^2\left(X’X\right)^{-1}\right) \ .β^∼N (β,σ2 (X ′X )−1 ).
(b) 注意到
e σ ∼ N ( 0 , I n ) , R S S σ 2 = e ′ ( I n − H ) e σ 2 = ( e σ ) ′ ( I n − H ) ( e σ ) , \begin{aligned} &\frac{e}{\sigma}\sim N(0,I_n) \ , \ \ &\frac{\rm RSS}{\sigma^2}=\frac{e'(I_n-H)e}{\sigma^2}=\left(\frac{e}{\sigma}\right)'(I_n-H)\left(\frac{e}{\sigma}\right) \ , \end{aligned}σe ∼N (0 ,I n ),σ2 R S S =σ2 e ′(I n −H )e =(σe )′(I n −H )(σe ),
根据对称幂等矩阵的秩与迹相等这一性质可得
r a n k ( I n − H ) = t r ( I n − H ) = n − t r ( H ) = n − r a n k ( H ) = n − r a n k ( X ) . {\rm rank}(I_n-H)={\rm tr}(I_n-H)=n-{\rm tr}(H)=n-{\rm rank}(H)=n-{\rm rank}(X) \ .r a n k (I n −H )=t r (I n −H )=n −t r (H )=n −r a n k (H )=n −r a n k (X ).
由定理 2.4.3 可得
R S S σ 2 ∼ χ 2 ( n − r a n k ( X ) ) . \frac{\rm RSS}{\sigma^2}\sim\chi^2\left(n-{\rm rank}(X)\right) \ .σ2 R S S ∼χ2 (n −r a n k (X )).
© 因为 β ^ = β + ( X ′ X ) − 1 X ′ e \hat\beta=\beta+\left(X’X\right)^{-1}X’e β^=β+(X ′X )−1 X ′e ,而 R S S = e ′ ( I n − H ) e {\rm RSS}=e’\left(I_n-H\right)e R S S =e ′(I n −H )e ,注意到
( X ′ X ) − 1 X ′ ⋅ σ 2 I n ⋅ ( I n − H ) = 0 , \left(X’X\right)^{-1}X’\cdot\sigma^2I_n\cdot\left(I_n-H\right)=0 \ ,(X ′X )−1 X ′⋅σ2 I n ⋅(I n −H )=0 ,
由推论 2.4.10 可知 ( X ′ X ) − 1 X ′ e \left(X’X\right)^{-1}X’e (X ′X )−1 X ′e 与 R S S {\rm RSS}R S S 相互独立,从而 β ^ \hat\beta β^ 与 R S S {\rm RSS}R S S 相互独立。
当 β \beta β 的第一个分量是 β 0 \beta_0 β0 时,取 c = ( 0 , ⋯ , 0 , 1 , 0 , ⋯ , 0 ) ′ c=(0,\cdots,0,1,0,\cdots,0)’c =(0 ,⋯,0 ,1 ,0 ,⋯,0 )′ ,其中 1 1 1 在 c c c 的第 i + 1 i+1 i +1 个位置,则
c ′ β = β i , c ′ β ^ = β ^ i , i = 1 , 2 , ⋯ , p . c’\beta=\beta_i \ , \quad c’\hat\beta=\hat\beta_i \ , \quad i=1,2,\cdots,p \ .c ′β=βi ,c ′β^=β^i ,i =1 ,2 ,⋯,p .
推论 3.2.2:对于线性回归模型,若 e ∼ N ( 0 , σ 2 I n ) e\sim N\left(0,\sigma^2I_n\right)e ∼N (0 ,σ2 I n ) ,则
(a) β i \beta_i βi 的最小二乘估计 β ^ i \hat\beta_i β^i 的分布为:
β ^ i ∼ N ( β i , σ 2 ( ( X ′ X ) − 1 ) i + 1 , i + 1 ) , i = 1 , 2 , ⋯ , p ; \hat\beta_i\sim N\left(\beta_i,\sigma^2\left(\left(X’X\right)^{-1}\right)_{i+1,i+1}\right) \ , \quad i=1,2,\cdots,p \ ;β^i ∼N (βi ,σ2 ((X ′X )−1 )i +1 ,i +1 ),i =1 ,2 ,⋯,p ;
(b) 在 β i \beta_i βi 的一切线性无偏估计中,β ^ i \hat\beta_i β^i 是唯一的方差最小者,i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i =1 ,2 ,⋯,p 。
推论 3.2.3:对于中心化模型,此时 β = ( β 1 , β 2 , ⋯ , β p ) ′ \beta=\left(\beta_1,\beta_2,\cdots,\beta_p\right)’β=(β1 ,β2 ,⋯,βp )′ ,则有
(a) E ( α ^ ) = α , E ( β ^ ) = β {\rm E}\left(\hat\alpha\right)=\alpha,\,{\rm E}\left(\hat\beta\right)=\beta E (α^)=α,E (β^)=β ,其中 α ^ = y ˉ , β ^ = ( X c ′ X c ) − 1 X c ′ Y \hat\alpha=\bar{y},\,\hat\beta=\left(X_c’X_c\right)^{-1}X_c’Y α^=y ˉ,β^=(X c ′X c )−1 X c ′Y ;
(b)
C o v ( α ^ β ^ ) = σ 2 ( 1 n 0 0 ( X c ′ X c ) − 1 ) ; {\rm Cov}\begin{pmatrix} \hat\alpha \ \hat\beta \end{pmatrix}=\sigma^2\begin{pmatrix} \cfrac1n & 0 \ 0 & \left(X_c’X_c\right)^{-1} \end{pmatrix} \ ;C o v (α^β^)=σ2 ⎝⎛n 1 0 0 (X c ′X c )−1 ⎠⎞;
© 若进一步假设 e ∼ N ( 0 , σ 2 I n ) e\sim N\left(0,\sigma^2I_n\right)e ∼N (0 ,σ2 I n ) ,则
α ^ ∼ N ( α , σ 2 n ) , β ^ ∼ N ( β , σ 2 ( X c ′ X c ) − 1 ) , \hat\alpha\sim N\left(\alpha,\frac{\sigma^2}{n}\right) \ , \quad \hat\beta\sim N\left(\beta,\sigma^2\left(X_c’X_c\right)^{-1}\right) \ ,α^∼N (α,n σ2 ),β^∼N (β,σ2 (X c ′X c )−1 ),
且 α ^ \hat\alpha α^ 与 β ^ \hat\beta β^ 相互独立。
总偏差平方和的分解:为了度量数据拟合的程度,我们在已经给出残差平方和 R S S {\rm RSS}R S S 的定义的基础上,继续给出回归平方和 E S S {\rm ESS}E S S 以及总偏差平方和 T S S {\rm TSS}T S S 的定义。
-
回归平方和:
E S S = ∑ i = 1 n ( y ^ i − y ˉ ) 2 = ( Y ^ − 1 n y ˉ ) ′ ( Y ^ − 1 n y ˉ ) . {\rm ESS}=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2=\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)’\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right) \ .E S S =i =1 ∑n (y ^i −y ˉ)2 =(Y ^−1 n y ˉ)′(Y ^−1 n y ˉ). -
总偏差平方和:
T S S = ∑ i = 1 n ( y i − y ˉ ) 2 = ( Y − 1 n y ˉ ) ′ ( Y − 1 n y ˉ ) . {\rm TSS}=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2=\left(Y-\boldsymbol{1}_n\bar{y}\right)’\left(Y-\boldsymbol{1}_n\bar{y}\right) \ .T S S =i =1 ∑n (y i −y ˉ)2 =(Y −1 n y ˉ)′(Y −1 n y ˉ). -
判定系数/测定系数:
R 2 = E S S T S S . R^2=\frac{\rm ESS}{\rm TSS} \ .R 2 =T S S E S S .
称 R = R 2 R=\sqrt{R^2}R =R 2 为复相关系数。
为了探究 T S S , E S S , R S S {\rm TSS},\,{\rm ESS},\,{\rm RSS}T S S ,E S S ,R S S 之间的关系,需要给出正规方程组的另一个等价写法。写出目标函数:
Q ( β ) = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) 2 , Q(\beta)=\sum_{i=1}^ne_i^2=\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)^2 \ ,Q (β)=i =1 ∑n e i 2 =i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )2 ,
关于 β 0 , β 1 , ⋯ , β p \beta_0,\beta_1,\cdots,\beta_p β0 ,β1 ,⋯,βp 分别求偏导数,并令这些导函数等于 0 0 0 可得
{ ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) = 0 , ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) x i 1 = 0 , ⋮ ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) x i p = 0 , \left{\begin{array}{c} \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)=0 \ , \ \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)x_{i1}=0 \ , \ \vdots \ \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)x_{ip}=0 \ , \end{array}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )=0 ,i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )x i 1 =0 ,⋮i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )x i p =0 ,
这个方程组与 X ′ X β = X ′ Y X’X\beta=X’Y X ′X β=X ′Y 等价。由于最小二乘估计 β ^ 0 , β ^ 1 , ⋯ , β ^ p \hat\beta_0,\hat\beta_1,\cdots,\hat\beta_p β^0 ,β^1 ,⋯,β^p 是正规方程组的解,所以
{ ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) = 0 , ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) x i 1 = 0 , ⋮ ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) x i p = 0 , \left{\begin{array}{l} \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)=0 \ , \ \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)x_{i1}=0 \ , \ \qquad \vdots \ \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)x_{ip}=0 \ , \end{array}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧i =1 ∑n (y i −β^0 −β^1 x i 1 −⋯−β^p x i p )=0 ,i =1 ∑n (y i −β^0 −β^1 x i 1 −⋯−β^p x i p )x i 1 =0 ,⋮i =1 ∑n (y i −β^0 −β^1 x i 1 −⋯−β^p x i p )x i p =0 ,
由第一个方程可知
∑ i = 1 n e ^ i = 0 , 1 n ∑ i = 1 n y ^ i = y ˉ = 1 n ∑ i = 1 n y i . \sum_{i=1}^n\hat{e}i=0 \ , \quad \frac1n\sum{i=1}^n\hat{y}i=\bar{y}=\frac1n\sum{i=1}^ny_i \ .i =1 ∑n e ^i =0 ,n 1 i =1 ∑n y ^i =y ˉ=n 1 i =1 ∑n y i .
所以有
T S S = ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i + y ^ i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 0 = R S S + E S S . \begin{aligned} {\rm TSS}&=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 \ \ &=\sum_{i=1}^n\left(y_i-\hat{y}i+\hat{y}_i-\bar{y}\right)^2 \ \ &=\sum{i=1}^n\left(y_i-\hat{y}i\right)^2+\sum{i=1}^n\left(\hat{y}i-\bar{y}\right)^2+2\sum{i=1}^n\left(y_i-\hat{y}i\right)\left(\hat{y}_i-\bar{y}\right) \ \ &=\sum{i=1}^n\left(y_i-\hat{y}i\right)^2+\sum{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2+0 \ \ &={\rm RSS}+{\rm ESS} \ . \end{aligned}T S S =i =1 ∑n (y i −y ˉ)2 =i =1 ∑n (y i −y ^i +y ^i −y ˉ)2 =i =1 ∑n (y i −y ^i )2 +i =1 ∑n (y ^i −y ˉ)2 +2 i =1 ∑n (y i −y ^i )(y ^i −y ˉ)=i =1 ∑n (y i −y ^i )2 +i =1 ∑n (y ^i −y ˉ)2 +0 =R S S +E S S .
可以看出,R 2 R^2 R 2 度量了自变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 对因变量 y y y 的解释能力,且有 0 ≤ R 2 ≤ 1 0\leq R^2\leq1 0 ≤R 2 ≤1 。
定理 3.2.5:对于中心化模型,回归平方和 E S S {\rm ESS}E S S 的计算公式为
E S S = β ^ ′ X c ′ Y = Y ′ X c ( X c ′ X c ) − 1 X c ′ Y . {\rm ESS}=\hat\beta’X_c’Y=Y’X_c\left(X_c’X_c\right)^{-1}X_c’Y \ .E S S =β^′X c ′Y =Y ′X c (X c ′X c )−1 X c ′Y .
由中心化模型可得 Y ^ = 1 n α ^ + X c β ^ \hat{Y}=\boldsymbol 1_n\hat\alpha+X_c\hat\beta Y ^=1 n α^+X c β^ ,其中 β ^ = ( β ^ 1 , β ^ 2 , ⋯ , β ^ p ) \hat\beta=\left(\hat\beta_1,\hat\beta_2,\cdots,\hat\beta_p\right)β^=(β^1 ,β^2 ,⋯,β^p ) ,所以有
Y ^ − 1 n y ˉ = Y ^ − 1 n α ^ = X c β ^ . \hat{Y}-\boldsymbol1_n\bar{y}=\hat{Y}-\boldsymbol1_n\hat\alpha=X_c\hat\beta \ .Y ^−1 n y ˉ=Y ^−1 n α^=X c β^.
代入 E S S {\rm ESS}E S S 的计算公式得
E S S = ( Y ^ − 1 n y ˉ ) ′ ( Y ^ − 1 n y ˉ ) = β ^ ′ X c ′ X c β ^ = β ^ ′ X c ′ Y . {\rm ESS}=\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)’\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)=\hat\beta’X_c’X_c\hat\beta=\hat\beta’X_c’Y \ .E S S =(Y ^−1 n y ˉ)′(Y ^−1 n y ˉ)=β^′X c ′X c β^=β^′X c ′Y .
Original: https://blog.csdn.net/weixin_45449414/article/details/120840599
Author: 这个XD很懒
Title: 【回归分析】03.回归参数的估计(1)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/631152/
转载文章受原作者版权保护。转载请注明原作者出处!