【回归分析】03.回归参数的估计(1)

3.1 最小二乘估计

用 y y y 表示因变量,x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ​,x 2 ​,⋯,x p ​ 表示对 y y y 有影响的 p p p 个自变量。

  • 总体回归模型:假设 y y y 和 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ​,x 2 ​,⋯,x p ​ 之间满足如下线性关系式
    y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p + e , y=\beta_0+\beta_1 x_1+\beta_2x_2+\cdots+\beta_px_p+e \ ,y =β0 ​+β1 ​x 1 ​+β2 ​x 2 ​+⋯+βp ​x p ​+e ,
    其中 e e e 是随机误差,将 β 0 \beta_0 β0 ​ 称为回归常数,将 β 1 , β 1 , ⋯ , β p \beta_1,\beta_1,\cdots,\beta_p β1 ​,β1 ​,⋯,βp ​ 称为回归系数。
  • 总体回归函数:定量地刻画因变量的条件均值与自变量之间的相依关系,即
    E ( y ∣ x ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p , {\rm E}(y|x)=\beta_0+\beta_1 x_1+\beta_2x_2+\cdots+\beta_px_p \ ,E (y ∣x )=β0 ​+β1 ​x 1 ​+β2 ​x 2 ​+⋯+βp ​x p ​,
    回归分析的首要目标就是估计回归函数。

假定已有因变量 y y y 和自变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ​,x 2 ​,⋯,x p ​ 的 n n n 组观测样本 ( x i 1 , x i 2 , ⋯ , x i p ) , i = 1 , 2 , ⋯ , n \left(x_{i1},x_{i2},\cdots,x_{ip}\right),\,i=1,2,\cdots,n (x i 1 ​,x i 2 ​,⋯,x i p ​),i =1 ,2 ,⋯,n 。

  • 样本回归模型:样本观测值满足如下线性方程组

y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β p x i p + e i , i = 1 , 2 , ⋯ , n . y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+e_i \ , \quad i=1,2,\cdots,n \ .y i ​=β0 ​+β1 ​x i 1 ​+β2 ​x i 2 ​+⋯+βp ​x i p ​+e i ​,i =1 ,2 ,⋯,n .

  • Gauss-Markov 假设:随机误差项e i , i = 1 , 2 , ⋯ , n e_i,\,i=1,2,\cdots,n e i ​,i =1 ,2 ,⋯,n 满足如下假设:
  • 零均值:E ( e i ) = 0 {\rm E}(e_i)=0 E (e i ​)=0 ;
  • 同方差:V a r ( e i ) = σ 2 {\rm Var}(e_i)=\sigma^2 V a r (e i ​)=σ2 ;
  • 不相关:C o v ( e i , e j ) = 0 , i ≠ j {\rm Cov}(e_i,e_j)=0 \ , \ \ i\neq j C o v (e i ​,e j ​)=0 ,i ​=j 。

如果将样本回归模型中的线性方程组,用矩阵形式表示为
Y = d e f ( y 1 y 2 ⋮ y n ) = ( 1 x 11 ⋯ x 1 p 1 x 21 ⋯ x 2 p ⋮ ⋮ ⋱ ⋮ 1 x n 1 ⋯ x n p ) ( β 0 β 1 ⋮ β p ) + ( e 1 e 2 ⋮ e n ) = d e f X β + e , Y\xlongequal{def}\left(\begin{array}{c} y_1 \ y_2 \ \vdots \ y_n \end{array}\right)=\left(\begin{array}{c} 1 & x_{11} & \cdots & x_{1p} \ 1 & x_{21} & \cdots & x_{2p} \ \vdots & \vdots & \ddots & \vdots \ \ 1 & x_{n1} & \cdots & x_{np} \ \end{array}\right)\left(\begin{array}{c} \beta_0 \ \beta_1 \ \vdots \ \beta_p \end{array}\right)+\left(\begin{array}{c} e_1 \ e_2 \ \vdots \ e_n \end{array}\right)\xlongequal{def}X\beta+e \ ,Y d e f ⎝⎜⎜⎜⎛​y 1 ​y 2 ​⋮y n ​​⎠⎟⎟⎟⎞​=⎝⎜⎜⎜⎛​1 1 ⋮1 ​x 1 1 ​x 2 1 ​⋮x n 1 ​​⋯⋯⋱⋯​x 1 p ​x 2 p ​⋮x n p ​​⎠⎟⎟⎟⎞​⎝⎜⎜⎜⎛​β0 ​β1 ​⋮βp ​​⎠⎟⎟⎟⎞​+⎝⎜⎜⎜⎛​e 1 ​e 2 ​⋮e n ​​⎠⎟⎟⎟⎞​d e f X β+e ,
其中 X X X 称为设计矩阵。若将 Gauss-Markov 假设也用矩阵形式表示为
E ( e ) = 0 , C o v ( e ) = σ 2 I n , {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ ,E (e )=0 ,C o v (e )=σ2 I n ​,
将矩阵方程和 Gauss-Markov 假设合写在一起,即可得到最基本的 线性回归模型
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I n . Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ .Y =X β+e ,E (e )=0 ,C o v (e )=σ2 I n ​.

最小二乘估计:寻找一个 β \beta β 的估计,使得误差向量 e = Y − X β e=Y-X\beta e =Y −X β 的长度的平方达到最小。设
Q ( β ) = ∥ Y − X β ∥ 2 = ( Y − X β ) ′ ( Y − X β ) = Y ′ Y − 2 Y ′ X β + β ′ X ′ X β , \begin{aligned} Q(\beta)&=\|Y-X\beta\|^2 \ \ &=(Y-X\beta)'(Y-X\beta) \ \ &=Y’Y-2Y’X\beta+\beta’X’X\beta \ , \end{aligned}Q (β)​=∥Y −X β∥2 =(Y −X β)′(Y −X β)=Y ′Y −2 Y ′X β+β′X ′X β,​
对 β \beta β 求导,令其等于零,可得 正规方程组
X ′ X β = X ′ Y . X’X\beta=X’Y \ .X ′X β=X ′Y .
正规方程组有唯一解的充要条件是 r a n k ( X ′ X ) = p + 1 {\rm rank}\left(X’X\right)=p+1 r a n k (X ′X )=p +1 ,这等价于 r a n k ( X ) = p + 1 {\rm rank}(X)=p+1 r a n k (X )=p +1 ,即 X X X 是列满秩的。正规方程组的唯一解为
β ^ = ( X ′ X ) − 1 X ′ Y . \hat\beta=\left(X’X\right)^{-1}X’Y \ .β^​=(X ′X )−1 X ′Y .

以上的讨论说明 β ^ \hat\beta β^​ 是 Q ( β ) Q(\beta)Q (β) 的一个驻点,下面证明 β ^ \hat\beta β^​ 是 Q ( β ) Q(\beta)Q (β) 的最小值点。
对任意的 β ∈ R p + 1 \beta\in\mathbb{R}^{p+1}β∈R p +1 ,有
∥ Y − X β ∥ 2 = ∥ Y − X β ^ + X ( β ^ − β ) ∥ 2 = ∥ Y − X β ^ ∥ 2 + ∥ X ( β ^ − β ) ∥ 2 + 2 ( β ^ − β ) ′ X ′ ( Y − X β ^ ) . \begin{aligned} \|Y-X\beta\|^2&=\left\|Y-X\hat\beta+X\left(\hat\beta-\beta\right)\right\|^2 \ \ &=\left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\beta\right)\right\|^2+2\left(\hat\beta-\beta\right)’X’\left(Y-X\hat\beta\right) \ . \end{aligned}∥Y −X β∥2 ​=∥∥∥​Y −X β^​+X (β^​−β)∥∥∥​2 =∥∥∥​Y −X β^​∥∥∥​2 +∥∥∥​X (β^​−β)∥∥∥​2 +2 (β^​−β)′X ′(Y −X β^​).​
因为 β ^ \hat\beta β^​ 满足正规方程组 X ′ X β ^ = X ′ Y X’X\hat\beta=X’Y X ′X β^​=X ′Y ,所以 X ′ ( Y − X β ^ ) = 0 X’\left(Y-X\hat\beta\right)=0 X ′(Y −X β^​)=0 ,所以对任意的 β ∈ R p + 1 \beta\in\mathbb{R}^{p+1}β∈R p +1 ,有
∥ Y − X β ∥ 2 = ∥ Y − X β ^ ∥ 2 + ∥ X ( β ^ − β ) ∥ 2 . \begin{aligned} \|Y-X\beta\|^2&=\left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\beta\right)\right\|^2 \ . \end{aligned}∥Y −X β∥2 ​=∥∥∥​Y −X β^​∥∥∥​2 +∥∥∥​X (β^​−β)∥∥∥​2 .​
所以有
Q ( β ) = ∥ Y − X β ∥ 2 ≥ ∥ Y − X β ^ ∥ 2 = Q ( β ^ ) . Q(\beta)=\|Y-X\beta\|^2\geq \left\|Y-X\hat\beta\right\|^2=Q\left(\hat\beta\right) \ .Q (β)=∥Y −X β∥2 ≥∥∥∥​Y −X β^​∥∥∥​2 =Q (β^​).

当且仅当 β = β ^ \beta=\hat\beta β=β^​ 时等号成立。

我们将 Y ^ = X β ^ \hat{Y}=X\hat\beta Y ^=X β^​ 称为 Y Y Y 的拟合值向量或投影向量,注意到
Y ^ = X β ^ = X ( X ′ X ) − 1 X ′ Y = d e f H Y , \hat{Y}=X\hat\beta=X\left(X’X\right)^{-1}X’Y\xlongequal{def}HY \ ,Y ^=X β^​=X (X ′X )−1 X ′Y d e f H Y ,
我们将 H = X ( X ′ X ) − 1 X ′ H=X\left(X’X\right)^{-1}X’H =X (X ′X )−1 X ′ 称为帽子矩阵,它是自变量空间的投影矩阵,这里的自变量空间指的是矩阵 X X X 的列空间。此外,我们将 e ^ = Y − Y ^ = ( I − H ) Y \hat{e}=Y-\hat{Y}=(I-H)Y e ^=Y −Y ^=(I −H )Y 称为残差向量。

中心化模型:将原始数据进行中心化,令
x ˉ j = 1 n ∑ i = 1 n x i j , j = 1 , 2 , ⋯ , p . \bar{x}j=\frac1n\sum{i=1}^nx_{ij} \ , \quad j=1,2,\cdots,p \ .x ˉj ​=n 1 ​i =1 ∑n ​x i j ​,j =1 ,2 ,⋯,p .
将样本回归模型改写为
y i = α + β 1 ( x i 1 − x ˉ 1 ) + β 2 ( x i 2 − x ˉ 2 ) + ⋯ + β p ( x i p − x ˉ p ) + e i , i = 1 , 2 , ⋯ , n y_i=\alpha+\beta_1\left(x_{i1}-\bar{x}1\right)+\beta_2\left(x{i2}-\bar{x}2\right)+\cdots+\beta_p\left(x{ip}-\bar{x}p\right)+e_i \ , \quad i=1,2,\cdots,n y i ​=α+β1 ​(x i 1 ​−x ˉ1 ​)+β2 ​(x i 2 ​−x ˉ2 ​)+⋯+βp ​(x i p ​−x ˉp ​)+e i ​,i =1 ,2 ,⋯,n
其中 α = β 0 + β 1 x ˉ 1 + β 2 x ˉ 2 + ⋯ + β p x ˉ p \alpha=\beta_0+\beta_1\bar{x}_1+\beta_2\bar{x}_2+\cdots+\beta_p\bar{x}_p α=β0 ​+β1 ​x ˉ1 ​+β2 ​x ˉ2 ​+⋯+βp ​x ˉp ​ 。定义设计矩阵为
X c = ( x 11 − x ˉ 1 x 12 − x ˉ 2 ⋯ x 1 p − x ˉ p x 21 − x ˉ 1 x 22 − x ˉ 2 ⋯ x 2 p − x ˉ p ⋮ ⋮ ⋱ ⋮ x n 1 − x ˉ 1 x n 2 − x ˉ 2 ⋯ x n p − x ˉ p ) , X_c=\begin{pmatrix} x
{11}-\bar{x}1 & x{12}-\bar{x}2 & \cdots &x{1p}-\bar{x}p \ x{21}-\bar{x}1 & x{22}-\bar{x}2 & \cdots &x{2p}-\bar{x}p \ \vdots &\vdots & \ddots & \vdots \ x{n1}-\bar{x}1 & x{n2}-\bar{x}2 & \cdots &x{np}-\bar{x}p \ \end{pmatrix} \ ,X c ​=⎝⎜⎜⎜⎛​x 1 1 ​−x ˉ1 ​x 2 1 ​−x ˉ1 ​⋮x n 1 ​−x ˉ1 ​​x 1 2 ​−x ˉ2 ​x 2 2 ​−x ˉ2 ​⋮x n 2 ​−x ˉ2 ​​⋯⋯⋱⋯​x 1 p ​−x ˉp ​x 2 p ​−x ˉp ​⋮x n p ​−x ˉp ​​⎠⎟⎟⎟⎞​,
将中心化模型写成矩阵形式:
Y = 1 n α + X β + e = ( 1 n X c ) ( α β ) + e . Y=\boldsymbol 1_n\alpha+X\beta+e=\begin{pmatrix} \boldsymbol 1_n & X_c \end{pmatrix}\begin{pmatrix} \alpha \ \beta \end{pmatrix}+e \ .Y =1 n ​α+X β+e =(1 n ​​X c ​​)(αβ​)+e .
其中 β = ( β 1 , β 2 , ⋯ , β p ) ′ \beta=\left(\beta_1,\beta_2,\cdots,\beta_p\right)’β=(β1 ​,β2 ​,⋯,βp ​)′ 。注意到
1 n ′ X c = 0 , \boldsymbol 1_n’X_c=0 \ ,1 n ′​X c ​=0 ,
因此正规方程组可以写为
( n 0 0 X c ′ X c ) ( α β ) = ( 1 n ′ Y X c ′ Y ) ⟺ { n α = 1 n ′ Y , X c ′ X c β = X c ′ Y , \begin{pmatrix} n & 0 \ 0 & X_c’X_c \end{pmatrix} \begin{pmatrix} \alpha \ \beta \end{pmatrix} =\begin{pmatrix} \boldsymbol 1_n’Y \ X_c’Y \end{pmatrix} \quad \iff \quad \left{\begin{array}{l} n\alpha=\boldsymbol 1_n’Y \ , \ X_c’X_c\beta=X_c’Y \ , \end{array}\right.(n 0 ​0 X c ′​X c ​​)(αβ​)=(1 n ′​Y X c ′​Y ​)⟺{n α=1 n ′​Y ,X c ′​X c ​β=X c ′​Y ,​
解得回归参数的最小二乘估计为
{ α ^ = y ˉ , β ^ = ( X c ′ X c ) − 1 X c ′ Y . \left{\begin{array}{l} \hat\alpha=\bar{y} \ , \ \hat\beta=\left(X_c’X_c\right)^{-1}X_c’Y \ . \end{array}\right.{α^=y ˉ​,β^​=(X c ′​X c ​)−1 X c ′​Y .​
标准化模型:将原始数据进行标准化,令
s j 2 = ∑ i = 1 n ( x i j − x ˉ j ) 2 , j = 1 , 2 , ⋯ , p , z i j = x i j − x ˉ j s j , i = 1 , 2 , ⋯ , n j = 1 , 2 , ⋯ , p , \begin{aligned} &s_j^2=\sum
{i=1}^n\left(x_{ij}-\bar{x}j\right)^2 \ , \quad j=1,2,\cdots,p \ , \ \ &z{ij}=\frac{x_{ij}-\bar{x}j}{s{j}} \ , \quad i=1,2,\cdots,n \quad j=1,2,\cdots,p \ , \end{aligned}​s j 2 ​=i =1 ∑n ​(x i j ​−x ˉj ​)2 ,j =1 ,2 ,⋯,p ,z i j ​=s j ​x i j ​−x ˉj ​​,i =1 ,2 ,⋯,n j =1 ,2 ,⋯,p ,​
将样本回归模型改写为
y i = γ + x i 1 − x ˉ 1 s 1 β 1 + x i 2 − x ˉ 2 s 2 β 1 + ⋯ x i p − x ˉ p s p β 1 + e i , i = 1 , 2 , ⋯ , n , y_i=\gamma+\frac{x_{i1}-\bar{x}1}{s_1}\beta_1+\frac{x{i2}-\bar{x}2}{s_2}\beta_1+\cdots\frac{x{ip}-\bar{x}p}{s_p}\beta_1+e_i \ , \quad i=1,2,\cdots,n \ ,y i ​=γ+s 1 ​x i 1 ​−x ˉ1 ​​β1 ​+s 2 ​x i 2 ​−x ˉ2 ​​β1 ​+⋯s p ​x i p ​−x ˉp ​​β1 ​+e i ​,i =1 ,2 ,⋯,n ,
令 Z = ( z i j ) n × p Z=(z
{ij}){n\times p}Z =(z i j ​)n ×p ​ ,将标准化模型写成矩阵形式:
Y = 1 n γ + Z β + e = ( 1 n Z ) ( γ β ) + e . Y=\boldsymbol 1_n\gamma+Z\beta+e=\begin{pmatrix} \boldsymbol 1_n & Z \end{pmatrix}\begin{pmatrix} \gamma \ \beta \end{pmatrix}+e \ .Y =1 n ​γ+Z β+e =(1 n ​​Z ​)(γβ​)+e .
解得回归参数的最小二乘估计为
{ γ ^ = y ˉ , β ^ = ( Z ′ Z ) − 1 Z ′ Y . \left{\begin{array}{l} \hat\gamma=\bar{y} \ , \ \hat\beta=\left(Z’Z\right)^{-1}Z’Y \ . \end{array}\right.{γ^​=y ˉ​,β^​=(Z ′Z )−1 Z ′Y .​
这里矩阵 Z Z Z 具有如下性质:
1 n ′ Z = 0 , R = Z ′ Z = ( r i j ) p × p . \boldsymbol{1}_n’Z=0 \ , \quad R=Z’Z=(r
{ij})_{p\times p} \ .1 n ′​Z =0 ,R =Z ′Z =(r i j ​)p ×p ​.

其中 r i j r_{ij}r i j ​ 为自变量 x i x_i x i ​ 和 x j x_j x j ​ 的样本相关系数,矩阵 R R R 是自变量的样本相关系数矩阵。

3.2 最小二乘估计的性质

设线性回归模型满足 Gauss-Markov 假设,即
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I n . Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ .Y =X β+e ,E (e )=0 ,C o v (e )=σ2 I n ​.

下面我们来讨论最小二乘估计 β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=\left(X’X\right)^{-1}X’Y β^​=(X ′X )−1 X ′Y 的一些良好的性质。

定理 3.2.1:对于线性回归模型,最小二乘估计 β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=\left(X’X\right)^{-1}X’Y β^​=(X ′X )−1 X ′Y 具有下列性质:

(1) E ( β ^ ) = β {\rm E}\left(\hat\beta\right)=\beta E (β^​)=β 。

(2) C o v ( β ^ ) = σ 2 ( X ′ X ) − 1 {\rm Cov}\left(\hat\beta\right)=\sigma^2\left(X’X\right)^{-1}C o v (β^​)=σ2 (X ′X )−1 。

(1) 因为 E ( Y ) = X β {\rm E}(Y)=X\beta E (Y )=X β ,所以
E ( β ^ ) = ( X ′ X ) − 1 X ′ E ( Y ) = ( X ′ X ) − 1 X ′ X β = β . {\rm E}\left(\hat\beta\right)=\left(X’X\right)^{-1}X'{\rm E}(Y)=\left(X’X\right)^{-1}X’X\beta=\beta \ .E (β^​)=(X ′X )−1 X ′E (Y )=(X ′X )−1 X ′X β=β.

(2) 因为 C o v ( Y ) = C o v ( e ) = σ 2 I n {\rm Cov}(Y)={\rm Cov}(e)=\sigma^2I_n C o v (Y )=C o v (e )=σ2 I n ​ ,所以
C o v ( β ^ ) = C o v ( ( X ′ X ) − 1 X ′ Y ) = ( X ′ X ) − 1 X ′ C o v ( Y ) X ( X ′ X ) − 1 = ( X ′ X ) − 1 X σ 2 I n X ( X ′ X ) − 1 = σ 2 ( X ′ X ) − 1 . \begin{aligned} {\rm Cov}\left(\hat\beta\right)&={\rm Cov}\left(\left(X’X\right)^{-1}X’Y\right) \ \ &=\left(X’X\right)^{-1}X'{\rm Cov}(Y)X\left(X’X\right)^{-1} \ \ &=\left(X’X\right)^{-1}X\sigma^2I_nX\left(X’X\right)^{-1} \ \ &=\sigma^2\left(X’X\right)^{-1} \ . \end{aligned}C o v (β^​)​=C o v ((X ′X )−1 X ′Y )=(X ′X )−1 X ′C o v (Y )X (X ′X )−1 =(X ′X )−1 X σ2 I n ​X (X ′X )−1 =σ2 (X ′X )−1 .​

推论 3.2.1:设 c c c 是 p + 1 p+1 p +1 维常数向量,我们称 c ′ β ^ c’\hat\beta c ′β^​ 是 c ′ β c’\beta c ′β 的最小二乘估计,具有下列性质:

(1) E ( c ′ β ^ ) = c ′ β {\rm E}\left(c’\hat\beta\right)=c’\beta E (c ′β^​)=c ′β 。

(2) C o v ( c ′ β ^ ) = σ 2 c ′ ( X ′ X ) − 1 c {\rm Cov}\left(c’\hat\beta\right)=\sigma^2c’\left(X’X\right)^{-1}c C o v (c ′β^​)=σ2 c ′(X ′X )−1 c 。

该推论说明,对任意的线性函数 c ′ β c’\beta c ′β ,都有 c ′ β ^ c’\hat\beta c ′β^​ 是 c ′ β c’\beta c ′β 的无偏估计,

定理 3.2.2 (Gauss-Markov):对于线性回归模型,在 c ′ β c’\beta c ′β 的所有线性无偏估计中,最小二乘估计 c ′ β ^ c’\hat\beta c ′β^​ 是唯一的最小方差线性无偏估计 (best linear unbiased estimator, BLUE) 。

假设 a ′ Y a’Y a ′Y 是 c ′ β c’\beta c ′β 的一个线性无偏估计,则对 ∀ β ∈ R p + 1 \forall\beta\in\mathbb{R}^{p+1}∀β∈R p +1 ,都有
E ( a ′ Y ) = a ′ X β = c ′ β . {\rm E}\left(a’Y\right)=a’X\beta=c’\beta \ .E (a ′Y )=a ′X β=c ′β.

所以 a ′ X = c ′ a’X=c’a ′X =c ′ 。又因为
V a r ( a ′ Y ) = σ 2 a ′ a = σ 2 ∥ a ∥ 2 , V a r ( c ′ β ^ ) = σ 2 c ′ ( X ′ X ) − 1 c , \begin{aligned} &{\rm Var}(a’Y)=\sigma^2a’a=\sigma^2\|a\|^2 \ , \ \ &{\rm Var}\left(c’\hat\beta\right)=\sigma^2c’\left(X’X\right)^{-1}c \ , \end{aligned}​V a r (a ′Y )=σ2 a ′a =σ2 ∥a ∥2 ,V a r (c ′β^​)=σ2 c ′(X ′X )−1 c ,​
对 ∥ a ∥ 2 \|a\|^2 ∥a ∥2 做分解有
∥ a ∥ 2 = ∥ a − X ( X ′ X ) − 1 c + X ( X ′ X ) − 1 c ∥ 2 = ∥ a − X ( X ′ X ) − 1 c ∥ 2 + ∥ X ( X ′ X ) − 1 c ∥ 2 + 2 c ′ ( X ′ X ) − 1 X ′ ( a − X ( X ′ X ) − 1 c ) = ∥ a − X ( X ′ X ) − 1 c ∥ 2 + ∥ X ( X ′ X ) − 1 c ∥ 2 . \begin{aligned} \|a\|^2&=\left\|a-X\left(X’X\right)^{-1}c+X\left(X’X\right)^{-1}c\right\|^2 \ \ &=\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\left\|X\left(X’X\right)^{-1}c\right\|^2 +2c’\left(X’X\right)^{-1}X’\left(a-X\left(X’X\right)^{-1}c\right) \ \ &=\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\left\|X\left(X’X\right)^{-1}c\right\|^2 \ . \end{aligned}∥a ∥2 ​=∥∥∥​a −X (X ′X )−1 c +X (X ′X )−1 c ∥∥∥​2 =∥∥∥​a −X (X ′X )−1 c ∥∥∥​2 +∥∥∥​X (X ′X )−1 c ∥∥∥​2 +2 c ′(X ′X )−1 X ′(a −X (X ′X )−1 c )=∥∥∥​a −X (X ′X )−1 c ∥∥∥​2 +∥∥∥​X (X ′X )−1 c ∥∥∥​2 .​
最后一个等号是因为
2 c ′ ( X ′ X ) − 1 X ′ ( a − X ( X ′ X ) − 1 c ) = 2 c ′ ( X ′ X ) − 1 ( X ′ a − c ) = 0 . \begin{aligned} 2c’\left(X’X\right)^{-1}X’\left(a-X\left(X’X\right)^{-1}c\right)&=2c’\left(X’X\right)^{-1}\left(X’a-c\right)=0 \ . \end{aligned}2 c ′(X ′X )−1 X ′(a −X (X ′X )−1 c )​=2 c ′(X ′X )−1 (X ′a −c )=0 .​
代入 a ′ Y a’Y a ′Y 的方差,所以
V a r ( a ′ Y ) = σ 2 ∥ a ∥ 2 = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + σ 2 ∥ X ( X ′ X ) − 1 c ∥ 2 = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + σ 2 c ′ ( X ′ X ) − 1 X ′ X ( X ′ X ) − 1 c = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + V a r ( c ′ β ^ ) ≥ V a r ( c ′ β ^ ) . \begin{aligned} {\rm Var}\left(a’Y\right)&=\sigma^2\|a\|^2 \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\sigma^2\left\|X\left(X’X\right)^{-1}c\right\|^2 \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\sigma^2c’\left(X’X\right)^{-1}X’X\left(X’X\right)^{-1}c \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+{\rm Var}\left(c’\hat\beta\right) \ \ &\geq{\rm Var}\left(c’\hat\beta\right) \ . \end{aligned}V a r (a ′Y )​=σ2 ∥a ∥2 =σ2 ∥∥∥​a −X (X ′X )−1 c ∥∥∥​2 +σ2 ∥∥∥​X (X ′X )−1 c ∥∥∥​2 =σ2 ∥∥∥​a −X (X ′X )−1 c ∥∥∥​2 +σ2 c ′(X ′X )−1 X ′X (X ′X )−1 c =σ2 ∥∥∥​a −X (X ′X )−1 c ∥∥∥​2 +V a r (c ′β^​)≥V a r (c ′β^​).​
等号成立当且仅当 ∥ a − X ( X ′ X ) − 1 c ∥ = 0 \left\|a-X\left(X’X\right)^{-1}c\right\|=0 ∥∥∥​a −X (X ′X )−1 c ∥∥∥​=0 ,即 a = X ( X ′ X ) − 1 c a=X\left(X’X\right)^{-1}c a =X (X ′X )−1 c ,此时 c ′ Y = c ′ β ^ c’Y=c’\hat\beta c ′Y =c ′β^​ ,得证。

误差方差 σ 2 \sigma^2 σ2 反映了模型误差对因变量的影响大小,下面来估计 σ 2 \sigma^2 σ2 。

注意到误差向量 e = Y − X β e=Y-X\beta e =Y −X β 是不可观测的,用 β ^ \hat\beta β^​ 代替 β \beta β ,称
e ^ = Y − X β ^ = Y − Y ^ . \hat{e}=Y-X\hat\beta=Y-\hat{Y} \ .e ^=Y −X β^​=Y −Y ^.

为残差向量。设 x i ′ x_i’x i ′​ 为设计矩阵 X X X 的第 i i i 行,则第 i i i 次观测的残差可以表示为
e ^ i = y i − x i ′ β ^ = y i − y ^ i , i = 1 , 2 , ⋯ , n , \hat e_i=y_i-x_i’\hat\beta=y_i-\hat{y}_i \ , \quad i=1,2,\cdots,n \ ,e ^i ​=y i ​−x i ′​β^​=y i ​−y ^​i ​,i =1 ,2 ,⋯,n ,
称 y ^ i \hat{y}_i y ^​i ​ 为第 i i i 次观测的拟合值,称 Y ^ \hat{Y}Y ^ 为拟合值向量。

将 e ^ \hat{e}e ^ 看作 e e e 的一个估计,定义残差平方和为
R S S = e ^ ′ e ^ = ∑ i = 1 n e ^ i 2 , {\rm RSS}=\hat{e}’\hat{e}=\sum_{i=1}^n\hat{e}_i^2 \ ,R S S =e ^′e ^=i =1 ∑n ​e ^i 2 ​,
它从整体上反映了观测数据与回归直线的偏离程度。

定理 3.2.3:我们用 R S S {\rm RSS}R S S 来构造 σ 2 \sigma^2 σ2 的无偏估计量。

(a) R S S = Y ′ ( I n − X ( X ′ X ) − 1 X ′ ) Y = Y ′ ( I n − H ) Y {\rm RSS}=Y’\left(I_n-X\left(X’X\right)^{-1}X’\right)Y=Y’\left(I_n-H\right)Y R S S =Y ′(I n ​−X (X ′X )−1 X ′)Y =Y ′(I n ​−H )Y ;

(b) 若定义 σ 2 \sigma^2 σ2 的估计量为
σ ^ 2 = R S S n − r a n k ( X ) , \hat\sigma^2=\frac{\rm RSS}{n-{\rm rank}(X)} \ ,σ^2 =n −r a n k (X )R S S ​,
则 σ ^ 2 \hat\sigma^2 σ^2 是 σ 2 \sigma^2 σ2 的无偏估计量。

(a) 引入帽子矩阵 Y ^ = H Y \hat{Y}=HY Y ^=H Y ,所以 e ^ = ( I n − H ) Y \hat{e}=\left(I_n-H\right)Y e ^=(I n ​−H )Y ,所以
R S S = e ^ ′ e ^ = Y ′ ( I n − H ) ′ ( I n − H ) Y = Y ′ ( I n − H ) Y . {\rm RSS}=\hat{e}’\hat{e}=Y'(I_n-H)'(I_n-H)Y=Y'(I_n-H)Y \ .R S S =e ^′e ^=Y ′(I n ​−H )′(I n ​−H )Y =Y ′(I n ​−H )Y .
(b) 把 Y = X β + e Y=X\beta+e Y =X β+e 代入 R S S {\rm RSS}R S S 的表达式可得
R S S = ( X β + e ) ′ ( I n − H ) ( X β + e ) = β ′ X ′ ( I n − H ) X β + e ′ ( I n − H ) e = β ′ X ′ X β − β ′ X ′ X ( X ′ X ) − 1 X ′ X β + + e ′ ( I n − H ) e = e ′ ( I n − H ) e . \begin{aligned} {\rm RSS}&=(X\beta+e)'(I_n-H)(X\beta+e) \ \ &=\beta’X'(I_n-H)X\beta+e'(I_n-H)e \ \ &=\beta’X’X\beta-\beta’X’X(X’X)^{-1}X’X\beta++e'(I_n-H)e \ \ &=e'(I_n-H)e \ . \end{aligned}R S S ​=(X β+e )′(I n ​−H )(X β+e )=β′X ′(I n ​−H )X β+e ′(I n ​−H )e =β′X ′X β−β′X ′X (X ′X )−1 X ′X β++e ′(I n ​−H )e =e ′(I n ​−H )e .​
由定理 2.2.1 可知
E ( R S S ) = E [ e ′ ( I n − H ) e ] = 0 + t r [ ( I n − H ) σ 2 I n ] = σ 2 ( n − t r ( H ) ) . \begin{aligned} {\rm E}\left({\rm RSS}\right)&={\rm E}\left[e'(I_n-H)e\right] \ \ &=0+{\rm tr}\left[(I_n-H)\sigma^2I_n\right] \ \ &=\sigma^2(n-{\rm tr}(H)) \ . \end{aligned}E (R S S )​=E [e ′(I n ​−H )e ]=0 +t r [(I n ​−H )σ2 I n ​]=σ2 (n −t r (H )).​
根据对称幂等矩阵的秩与迹相等这一性质可得
t r ( H ) = r a n k ( H ) = r a n k ( X ) . {\rm tr}(H)={\rm rank}(H)={\rm rank}(X) \ .t r (H )=r a n k (H )=r a n k (X ).

所以有
E ( R S S ) = σ 2 ( n − r a n k ( X ) ) . {\rm E}\left({\rm RSS}\right)=\sigma^2(n-{\rm rank}(X)) \ .E (R S S )=σ2 (n −r a n k (X )).

进而
σ ^ 2 = R S S n − r a n k ( X ) \hat\sigma^2=\frac{\rm RSS}{n-{\rm rank}(X)}σ^2 =n −r a n k (X )R S S ​
是 σ 2 \sigma^2 σ2 的无偏估计量。

如果误差向量 e e e 服从正态分布,即 e ∼ N n ( 0 , σ 2 I n ) e\sim N_n\left(0,\sigma^2I_n\right)e ∼N n ​(0 ,σ2 I n ​) ,则可以得到 β ^ \hat\beta β^​ 和 σ ^ 2 \hat\sigma^2 σ^2 的更多性质。

定理 3.2.4:对于线性回归模型,如果误差向量 e ∼ N n ( 0 , σ 2 I n ) e\sim N_n\left(0,\sigma^2I_n\right)e ∼N n ​(0 ,σ2 I n ​) ,则

(a) β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) \hat\beta\sim N\left(\beta,\sigma^2\left(X’X\right)^{-1}\right)β^​∼N (β,σ2 (X ′X )−1 ) ;

(b) R S S / σ 2 ∼ χ 2 ( n − r a n k ( X ) ) {\rm RSS}/\sigma^2\sim\chi^2(n-{\rm rank}(X))R S S /σ2 ∼χ2 (n −r a n k (X )) ;

© β ^ \hat\beta β^​ 与 R S S {\rm RSS}R S S 相互独立。

(a) 注意到
β ^ = ( X ′ X ) − 1 X ′ Y = ( X ′ X ) − 1 X ′ ( X β + e ) = β + ( X ′ X ) − 1 X ′ e . \hat\beta=\left(X’X\right)^{-1}X’Y=\left(X’X\right)^{-1}X'(X\beta+e)=\beta+\left(X’X\right)^{-1}X’e \ .β^​=(X ′X )−1 X ′Y =(X ′X )−1 X ′(X β+e )=β+(X ′X )−1 X ′e .
由定理 2.3.4 和定理 3.2.1 可得
β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) . \hat\beta\sim N\left(\beta,\sigma^2\left(X’X\right)^{-1}\right) \ .β^​∼N (β,σ2 (X ′X )−1 ).

(b) 注意到
e σ ∼ N ( 0 , I n ) , R S S σ 2 = e ′ ( I n − H ) e σ 2 = ( e σ ) ′ ( I n − H ) ( e σ ) , \begin{aligned} &\frac{e}{\sigma}\sim N(0,I_n) \ , \ \ &\frac{\rm RSS}{\sigma^2}=\frac{e'(I_n-H)e}{\sigma^2}=\left(\frac{e}{\sigma}\right)'(I_n-H)\left(\frac{e}{\sigma}\right) \ , \end{aligned}​σe ​∼N (0 ,I n ​),σ2 R S S ​=σ2 e ′(I n ​−H )e ​=(σe ​)′(I n ​−H )(σe ​),​
根据对称幂等矩阵的秩与迹相等这一性质可得
r a n k ( I n − H ) = t r ( I n − H ) = n − t r ( H ) = n − r a n k ( H ) = n − r a n k ( X ) . {\rm rank}(I_n-H)={\rm tr}(I_n-H)=n-{\rm tr}(H)=n-{\rm rank}(H)=n-{\rm rank}(X) \ .r a n k (I n ​−H )=t r (I n ​−H )=n −t r (H )=n −r a n k (H )=n −r a n k (X ).

由定理 2.4.3 可得
R S S σ 2 ∼ χ 2 ( n − r a n k ( X ) ) . \frac{\rm RSS}{\sigma^2}\sim\chi^2\left(n-{\rm rank}(X)\right) \ .σ2 R S S ​∼χ2 (n −r a n k (X )).

© 因为 β ^ = β + ( X ′ X ) − 1 X ′ e \hat\beta=\beta+\left(X’X\right)^{-1}X’e β^​=β+(X ′X )−1 X ′e ,而 R S S = e ′ ( I n − H ) e {\rm RSS}=e’\left(I_n-H\right)e R S S =e ′(I n ​−H )e ,注意到
( X ′ X ) − 1 X ′ ⋅ σ 2 I n ⋅ ( I n − H ) = 0 , \left(X’X\right)^{-1}X’\cdot\sigma^2I_n\cdot\left(I_n-H\right)=0 \ ,(X ′X )−1 X ′⋅σ2 I n ​⋅(I n ​−H )=0 ,
由推论 2.4.10 可知 ( X ′ X ) − 1 X ′ e \left(X’X\right)^{-1}X’e (X ′X )−1 X ′e 与 R S S {\rm RSS}R S S 相互独立,从而 β ^ \hat\beta β^​ 与 R S S {\rm RSS}R S S 相互独立。

当 β \beta β 的第一个分量是 β 0 \beta_0 β0 ​ 时,取 c = ( 0 , ⋯ , 0 , 1 , 0 , ⋯ , 0 ) ′ c=(0,\cdots,0,1,0,\cdots,0)’c =(0 ,⋯,0 ,1 ,0 ,⋯,0 )′ ,其中 1 1 1 在 c c c 的第 i + 1 i+1 i +1 个位置,则
c ′ β = β i , c ′ β ^ = β ^ i , i = 1 , 2 , ⋯ , p . c’\beta=\beta_i \ , \quad c’\hat\beta=\hat\beta_i \ , \quad i=1,2,\cdots,p \ .c ′β=βi ​,c ′β^​=β^​i ​,i =1 ,2 ,⋯,p .
推论 3.2.2:对于线性回归模型,若 e ∼ N ( 0 , σ 2 I n ) e\sim N\left(0,\sigma^2I_n\right)e ∼N (0 ,σ2 I n ​) ,则

(a) β i \beta_i βi ​ 的最小二乘估计 β ^ i \hat\beta_i β^​i ​ 的分布为:
β ^ i ∼ N ( β i , σ 2 ( ( X ′ X ) − 1 ) i + 1 , i + 1 ) , i = 1 , 2 , ⋯ , p ; \hat\beta_i\sim N\left(\beta_i,\sigma^2\left(\left(X’X\right)^{-1}\right)_{i+1,i+1}\right) \ , \quad i=1,2,\cdots,p \ ;β^​i ​∼N (βi ​,σ2 ((X ′X )−1 )i +1 ,i +1 ​),i =1 ,2 ,⋯,p ;
(b) 在 β i \beta_i βi ​ 的一切线性无偏估计中,β ^ i \hat\beta_i β^​i ​ 是唯一的方差最小者,i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i =1 ,2 ,⋯,p 。

推论 3.2.3:对于中心化模型,此时 β = ( β 1 , β 2 , ⋯ , β p ) ′ \beta=\left(\beta_1,\beta_2,\cdots,\beta_p\right)’β=(β1 ​,β2 ​,⋯,βp ​)′ ,则有

(a) E ( α ^ ) = α , E ( β ^ ) = β {\rm E}\left(\hat\alpha\right)=\alpha,\,{\rm E}\left(\hat\beta\right)=\beta E (α^)=α,E (β^​)=β ,其中 α ^ = y ˉ , β ^ = ( X c ′ X c ) − 1 X c ′ Y \hat\alpha=\bar{y},\,\hat\beta=\left(X_c’X_c\right)^{-1}X_c’Y α^=y ˉ​,β^​=(X c ′​X c ​)−1 X c ′​Y ;

(b)
C o v ( α ^ β ^ ) = σ 2 ( 1 n 0 0 ( X c ′ X c ) − 1 ) ; {\rm Cov}\begin{pmatrix} \hat\alpha \ \hat\beta \end{pmatrix}=\sigma^2\begin{pmatrix} \cfrac1n & 0 \ 0 & \left(X_c’X_c\right)^{-1} \end{pmatrix} \ ;C o v (α^β^​​)=σ2 ⎝⎛​n 1 ​0 ​0 (X c ′​X c ​)−1 ​⎠⎞​;
© 若进一步假设 e ∼ N ( 0 , σ 2 I n ) e\sim N\left(0,\sigma^2I_n\right)e ∼N (0 ,σ2 I n ​) ,则
α ^ ∼ N ( α , σ 2 n ) , β ^ ∼ N ( β , σ 2 ( X c ′ X c ) − 1 ) , \hat\alpha\sim N\left(\alpha,\frac{\sigma^2}{n}\right) \ , \quad \hat\beta\sim N\left(\beta,\sigma^2\left(X_c’X_c\right)^{-1}\right) \ ,α^∼N (α,n σ2 ​),β^​∼N (β,σ2 (X c ′​X c ​)−1 ),
且 α ^ \hat\alpha α^ 与 β ^ \hat\beta β^​ 相互独立。

总偏差平方和的分解:为了度量数据拟合的程度,我们在已经给出残差平方和 R S S {\rm RSS}R S S 的定义的基础上,继续给出回归平方和 E S S {\rm ESS}E S S 以及总偏差平方和 T S S {\rm TSS}T S S 的定义。

  • 回归平方和:
    E S S = ∑ i = 1 n ( y ^ i − y ˉ ) 2 = ( Y ^ − 1 n y ˉ ) ′ ( Y ^ − 1 n y ˉ ) . {\rm ESS}=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2=\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)’\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right) \ .E S S =i =1 ∑n ​(y ^​i ​−y ˉ​)2 =(Y ^−1 n ​y ˉ​)′(Y ^−1 n ​y ˉ​).

  • 总偏差平方和:
    T S S = ∑ i = 1 n ( y i − y ˉ ) 2 = ( Y − 1 n y ˉ ) ′ ( Y − 1 n y ˉ ) . {\rm TSS}=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2=\left(Y-\boldsymbol{1}_n\bar{y}\right)’\left(Y-\boldsymbol{1}_n\bar{y}\right) \ .T S S =i =1 ∑n ​(y i ​−y ˉ​)2 =(Y −1 n ​y ˉ​)′(Y −1 n ​y ˉ​).

  • 判定系数/测定系数:
    R 2 = E S S T S S . R^2=\frac{\rm ESS}{\rm TSS} \ .R 2 =T S S E S S ​.

称 R = R 2 R=\sqrt{R^2}R =R 2 ​ 为复相关系数。

为了探究 T S S , E S S , R S S {\rm TSS},\,{\rm ESS},\,{\rm RSS}T S S ,E S S ,R S S 之间的关系,需要给出正规方程组的另一个等价写法。写出目标函数:
Q ( β ) = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) 2 , Q(\beta)=\sum_{i=1}^ne_i^2=\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)^2 \ ,Q (β)=i =1 ∑n ​e i 2 ​=i =1 ∑n ​(y i ​−β0 ​−β1 ​x i 1 ​−⋯−βp ​x i p ​)2 ,
关于 β 0 , β 1 , ⋯ , β p \beta_0,\beta_1,\cdots,\beta_p β0 ​,β1 ​,⋯,βp ​ 分别求偏导数,并令这些导函数等于 0 0 0 可得
{ ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) = 0 , ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) x i 1 = 0 , ⋮ ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) x i p = 0 , \left{\begin{array}{c} \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)=0 \ , \ \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)x_{i1}=0 \ , \ \vdots \ \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)x_{ip}=0 \ , \end{array}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧​i =1 ∑n ​(y i ​−β0 ​−β1 ​x i 1 ​−⋯−βp ​x i p ​)=0 ,i =1 ∑n ​(y i ​−β0 ​−β1 ​x i 1 ​−⋯−βp ​x i p ​)x i 1 ​=0 ,⋮i =1 ∑n ​(y i ​−β0 ​−β1 ​x i 1 ​−⋯−βp ​x i p ​)x i p ​=0 ,​
这个方程组与 X ′ X β = X ′ Y X’X\beta=X’Y X ′X β=X ′Y 等价。由于最小二乘估计 β ^ 0 , β ^ 1 , ⋯ , β ^ p \hat\beta_0,\hat\beta_1,\cdots,\hat\beta_p β^​0 ​,β^​1 ​,⋯,β^​p ​ 是正规方程组的解,所以
{ ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) = 0 , ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) x i 1 = 0 , ⋮ ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) x i p = 0 , \left{\begin{array}{l} \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)=0 \ , \ \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)x_{i1}=0 \ , \ \qquad \vdots \ \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)x_{ip}=0 \ , \end{array}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧​i =1 ∑n ​(y i ​−β^​0 ​−β^​1 ​x i 1 ​−⋯−β^​p ​x i p ​)=0 ,i =1 ∑n ​(y i ​−β^​0 ​−β^​1 ​x i 1 ​−⋯−β^​p ​x i p ​)x i 1 ​=0 ,⋮i =1 ∑n ​(y i ​−β^​0 ​−β^​1 ​x i 1 ​−⋯−β^​p ​x i p ​)x i p ​=0 ,​
由第一个方程可知
∑ i = 1 n e ^ i = 0 , 1 n ∑ i = 1 n y ^ i = y ˉ = 1 n ∑ i = 1 n y i . \sum_{i=1}^n\hat{e}i=0 \ , \quad \frac1n\sum{i=1}^n\hat{y}i=\bar{y}=\frac1n\sum{i=1}^ny_i \ .i =1 ∑n ​e ^i ​=0 ,n 1 ​i =1 ∑n ​y ^​i ​=y ˉ​=n 1 ​i =1 ∑n ​y i ​.

所以有
T S S = ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i + y ^ i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 0 = R S S + E S S . \begin{aligned} {\rm TSS}&=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 \ \ &=\sum_{i=1}^n\left(y_i-\hat{y}i+\hat{y}_i-\bar{y}\right)^2 \ \ &=\sum{i=1}^n\left(y_i-\hat{y}i\right)^2+\sum{i=1}^n\left(\hat{y}i-\bar{y}\right)^2+2\sum{i=1}^n\left(y_i-\hat{y}i\right)\left(\hat{y}_i-\bar{y}\right) \ \ &=\sum{i=1}^n\left(y_i-\hat{y}i\right)^2+\sum{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2+0 \ \ &={\rm RSS}+{\rm ESS} \ . \end{aligned}T S S ​=i =1 ∑n ​(y i ​−y ˉ​)2 =i =1 ∑n ​(y i ​−y ^​i ​+y ^​i ​−y ˉ​)2 =i =1 ∑n ​(y i ​−y ^​i ​)2 +i =1 ∑n ​(y ^​i ​−y ˉ​)2 +2 i =1 ∑n ​(y i ​−y ^​i ​)(y ^​i ​−y ˉ​)=i =1 ∑n ​(y i ​−y ^​i ​)2 +i =1 ∑n ​(y ^​i ​−y ˉ​)2 +0 =R S S +E S S .​
可以看出,R 2 R^2 R 2 度量了自变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ​,x 2 ​,⋯,x p ​ 对因变量 y y y 的解释能力,且有 0 ≤ R 2 ≤ 1 0\leq R^2\leq1 0 ≤R 2 ≤1 。

定理 3.2.5:对于中心化模型,回归平方和 E S S {\rm ESS}E S S 的计算公式为
E S S = β ^ ′ X c ′ Y = Y ′ X c ( X c ′ X c ) − 1 X c ′ Y . {\rm ESS}=\hat\beta’X_c’Y=Y’X_c\left(X_c’X_c\right)^{-1}X_c’Y \ .E S S =β^​′X c ′​Y =Y ′X c ​(X c ′​X c ​)−1 X c ′​Y .

由中心化模型可得 Y ^ = 1 n α ^ + X c β ^ \hat{Y}=\boldsymbol 1_n\hat\alpha+X_c\hat\beta Y ^=1 n ​α^+X c ​β^​ ,其中 β ^ = ( β ^ 1 , β ^ 2 , ⋯ , β ^ p ) \hat\beta=\left(\hat\beta_1,\hat\beta_2,\cdots,\hat\beta_p\right)β^​=(β^​1 ​,β^​2 ​,⋯,β^​p ​) ,所以有
Y ^ − 1 n y ˉ = Y ^ − 1 n α ^ = X c β ^ . \hat{Y}-\boldsymbol1_n\bar{y}=\hat{Y}-\boldsymbol1_n\hat\alpha=X_c\hat\beta \ .Y ^−1 n ​y ˉ​=Y ^−1 n ​α^=X c ​β^​.

代入 E S S {\rm ESS}E S S 的计算公式得
E S S = ( Y ^ − 1 n y ˉ ) ′ ( Y ^ − 1 n y ˉ ) = β ^ ′ X c ′ X c β ^ = β ^ ′ X c ′ Y . {\rm ESS}=\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)’\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)=\hat\beta’X_c’X_c\hat\beta=\hat\beta’X_c’Y \ .E S S =(Y ^−1 n ​y ˉ​)′(Y ^−1 n ​y ˉ​)=β^​′X c ′​X c ​β^​=β^​′X c ′​Y .

Original: https://blog.csdn.net/weixin_45449414/article/details/120840599
Author: 这个XD很懒
Title: 【回归分析】03.回归参数的估计(1)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/631152/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球