【回归分析】03.回归参数的估计(1)

2023年6月17日下午5:28 • 人工智能 • 阅读 137

3.1 最小二乘估计

用 y y y 表示因变量，x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 表示对 y y y 有影响的 p p p 个自变量。

总体回归模型：假设 y y y 和 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 之间满足如下线性关系式
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p + e , y=\beta_0+\beta_1 x_1+\beta_2x_2+\cdots+\beta_px_p+e \ ,y =β0 +β1 x 1 +β2 x 2 +⋯+βp x p +e ,
其中 e e e 是随机误差，将 β 0 \beta_0 β0 称为回归常数，将 β 1 , β 1 , ⋯ , β p \beta_1,\beta_1,\cdots,\beta_p β1 ,β1 ,⋯,βp 称为回归系数。
总体回归函数：定量地刻画因变量的条件均值与自变量之间的相依关系，即
E ( y ∣ x ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p , {\rm E}(y|x)=\beta_0+\beta_1 x_1+\beta_2x_2+\cdots+\beta_px_p \ ,E (y ∣x )=β0 +β1 x 1 +β2 x 2 +⋯+βp x p ,
回归分析的首要目标就是估计回归函数。

假定已有因变量 y y y 和自变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 的 n n n 组观测样本 ( x i 1 , x i 2 , ⋯ , x i p ) , i = 1 , 2 , ⋯ , n \left(x_{i1},x_{i2},\cdots,x_{ip}\right),\,i=1,2,\cdots,n (x i 1 ,x i 2 ,⋯,x i p ),i =1 ,2 ,⋯,n 。

样本回归模型：样本观测值满足如下线性方程组

y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β p x i p + e i , i = 1 , 2 , ⋯ , n . y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+e_i \ , \quad i=1,2,\cdots,n \ .y i =β0 +β1 x i 1 +β2 x i 2 +⋯+βp x i p +e i ,i =1 ,2 ,⋯,n .

Gauss-Markov 假设：随机误差项e i , i = 1 , 2 , ⋯ , n e_i,\,i=1,2,\cdots,n e i ,i =1 ,2 ,⋯,n 满足如下假设：
零均值：E ( e i ) = 0 {\rm E}(e_i)=0 E (e i )=0 ；
同方差：V a r ( e i ) = σ 2 {\rm Var}(e_i)=\sigma^2 V a r (e i )=σ2 ；
不相关：C o v ( e i , e j ) = 0 , i ≠ j {\rm Cov}(e_i,e_j)=0 \ , \ \ i\neq j C o v (e i ,e j )=0 ,i =j 。

如果将样本回归模型中的线性方程组，用矩阵形式表示为
Y = d e f ( y 1 y 2 ⋮ y n ) = ( 1 x 11 ⋯ x 1 p 1 x 21 ⋯ x 2 p ⋮ ⋮ ⋱ ⋮ 1 x n 1 ⋯ x n p ) ( β 0 β 1 ⋮ β p ) + ( e 1 e 2 ⋮ e n ) = d e f X β + e , Y\xlongequal{def}\left(\begin{array}{c} y_1 \ y_2 \ \vdots \ y_n \end{array}\right)=\left(\begin{array}{c} 1 & x_{11} & \cdots & x_{1p} \ 1 & x_{21} & \cdots & x_{2p} \ \vdots & \vdots & \ddots & \vdots \ \ 1 & x_{n1} & \cdots & x_{np} \ \end{array}\right)\left(\begin{array}{c} \beta_0 \ \beta_1 \ \vdots \ \beta_p \end{array}\right)+\left(\begin{array}{c} e_1 \ e_2 \ \vdots \ e_n \end{array}\right)\xlongequal{def}X\beta+e \ ,Y d e f ⎝⎜⎜⎜⎛y 1 y 2 ⋮y n ⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛1 1 ⋮1 x 1 1 x 2 1 ⋮x n 1 ⋯⋯⋱⋯x 1 p x 2 p ⋮x n p ⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛β0 β1 ⋮βp ⎠⎟⎟⎟⎞+⎝⎜⎜⎜⎛e 1 e 2 ⋮e n ⎠⎟⎟⎟⎞d e f X β+e ,
其中 X X X 称为设计矩阵。若将 Gauss-Markov 假设也用矩阵形式表示为
E ( e ) = 0 , C o v ( e ) = σ 2 I n , {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ ,E (e )=0 ,C o v (e )=σ2 I n ,
将矩阵方程和 Gauss-Markov 假设合写在一起，即可得到最基本的 线性回归模型：
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I n . Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ .Y =X β+e ,E (e )=0 ,C o v (e )=σ2 I n .

最小二乘估计：寻找一个 β \beta β 的估计，使得误差向量 e = Y − X β e=Y-X\beta e =Y −X β 的长度的平方达到最小。设
Q ( β ) = ∥ Y − X β ∥ 2 = ( Y − X β ) ′ ( Y − X β ) = Y ′ Y − 2 Y ′ X β + β ′ X ′ X β , \begin{aligned} Q(\beta)&=\|Y-X\beta\|^2 \ \ &=(Y-X\beta)'(Y-X\beta) \ \ &=Y’Y-2Y’X\beta+\beta’X’X\beta \ , \end{aligned}Q (β)=∥Y −X β∥2 =(Y −X β)′(Y −X β)=Y ′Y −2 Y ′X β+β′X ′X β,
对 β \beta β 求导，令其等于零，可得 正规方程组
X ′ X β = X ′ Y . X’X\beta=X’Y \ .X ′X β=X ′Y .
正规方程组有唯一解的充要条件是 r a n k ( X ′ X ) = p + 1 {\rm rank}\left(X’X\right)=p+1 r a n k (X ′X )=p +1 ，这等价于 r a n k ( X ) = p + 1 {\rm rank}(X)=p+1 r a n k (X )=p +1 ，即 X X X 是列满秩的。正规方程组的唯一解为
β ^ = ( X ′ X ) − 1 X ′ Y . \hat\beta=\left(X’X\right)^{-1}X’Y \ .β^=(X ′X )−1 X ′Y .

以上的讨论说明 β ^ \hat\beta β^ 是 Q ( β ) Q(\beta)Q (β) 的一个驻点，下面证明 β ^ \hat\beta β^ 是 Q ( β ) Q(\beta)Q (β) 的最小值点。
对任意的 β ∈ R p + 1 \beta\in\mathbb{R}^{p+1}β∈R p +1 ，有
∥ Y − X β ∥ 2 = ∥ Y − X β ^ + X ( β ^ − β ) ∥ 2 = ∥ Y − X β ^ ∥ 2 + ∥ X ( β ^ − β ) ∥ 2 + 2 ( β ^ − β ) ′ X ′ ( Y − X β ^ ) . \begin{aligned} \|Y-X\beta\|^2&=\left\|Y-X\hat\beta+X\left(\hat\beta-\beta\right)\right\|^2 \ \ &=\left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\beta\right)\right\|^2+2\left(\hat\beta-\beta\right)’X’\left(Y-X\hat\beta\right) \ . \end{aligned}∥Y −X β∥2 =∥∥∥Y −X β^+X (β^−β)∥∥∥2 =∥∥∥Y −X β^∥∥∥2 +∥∥∥X (β^−β)∥∥∥2 +2 (β^−β)′X ′(Y −X β^).
因为 β ^ \hat\beta β^ 满足正规方程组 X ′ X β ^ = X ′ Y X’X\hat\beta=X’Y X ′X β^=X ′Y ，所以 X ′ ( Y − X β ^ ) = 0 X’\left(Y-X\hat\beta\right)=0 X ′(Y −X β^)=0 ，所以对任意的 β ∈ R p + 1 \beta\in\mathbb{R}^{p+1}β∈R p +1 ，有
∥ Y − X β ∥ 2 = ∥ Y − X β ^ ∥ 2 + ∥ X ( β ^ − β ) ∥ 2 . \begin{aligned} \|Y-X\beta\|^2&=\left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\beta\right)\right\|^2 \ . \end{aligned}∥Y −X β∥2 =∥∥∥Y −X β^∥∥∥2 +∥∥∥X (β^−β)∥∥∥2 .
所以有
Q ( β ) = ∥ Y − X β ∥ 2 ≥ ∥ Y − X β ^ ∥ 2 = Q ( β ^ ) . Q(\beta)=\|Y-X\beta\|^2\geq \left\|Y-X\hat\beta\right\|^2=Q\left(\hat\beta\right) \ .Q (β)=∥Y −X β∥2 ≥∥∥∥Y −X β^∥∥∥2 =Q (β^).

当且仅当 β = β ^ \beta=\hat\beta β=β^ 时等号成立。

我们将 Y ^ = X β ^ \hat{Y}=X\hat\beta Y ^=X β^ 称为 Y Y Y 的拟合值向量或投影向量，注意到
Y ^ = X β ^ = X ( X ′ X ) − 1 X ′ Y = d e f H Y , \hat{Y}=X\hat\beta=X\left(X’X\right)^{-1}X’Y\xlongequal{def}HY \ ,Y ^=X β^=X (X ′X )−1 X ′Y d e f H Y ,
我们将 H = X ( X ′ X ) − 1 X ′ H=X\left(X’X\right)^{-1}X’H =X (X ′X )−1 X ′ 称为帽子矩阵，它是自变量空间的投影矩阵，这里的自变量空间指的是矩阵 X X X 的列空间。此外，我们将 e ^ = Y − Y ^ = ( I − H ) Y \hat{e}=Y-\hat{Y}=(I-H)Y e ^=Y −Y ^=(I −H )Y 称为残差向量。

中心化模型：将原始数据进行中心化，令
x ˉ j = 1 n ∑ i = 1 n x i j , j = 1 , 2 , ⋯ , p . \bar{x}j=\frac1n\sum{i=1}^nx_{ij} \ , \quad j=1,2,\cdots,p \ .x ˉj =n 1 i =1 ∑n x i j ,j =1 ,2 ,⋯,p .
将样本回归模型改写为
y i = α + β 1 ( x i 1 − x ˉ 1 ) + β 2 ( x i 2 − x ˉ 2 ) + ⋯ + β p ( x i p − x ˉ p ) + e i , i = 1 , 2 , ⋯ , n y_i=\alpha+\beta_1\left(x_{i1}-\bar{x}1\right)+\beta_2\left(x{i2}-\bar{x}2\right)+\cdots+\beta_p\left(x{ip}-\bar{x}p\right)+e_i \ , \quad i=1,2,\cdots,n y i =α+β1 (x i 1 −x ˉ1 )+β2 (x i 2 −x ˉ2 )+⋯+βp (x i p −x ˉp )+e i ,i =1 ,2 ,⋯,n
其中 α = β 0 + β 1 x ˉ 1 + β 2 x ˉ 2 + ⋯ + β p x ˉ p \alpha=\beta_0+\beta_1\bar{x}_1+\beta_2\bar{x}_2+\cdots+\beta_p\bar{x}_p α=β0 +β1 x ˉ1 +β2 x ˉ2 +⋯+βp x ˉp 。定义设计矩阵为
X c = ( x 11 − x ˉ 1 x 12 − x ˉ 2 ⋯ x 1 p − x ˉ p x 21 − x ˉ 1 x 22 − x ˉ 2 ⋯ x 2 p − x ˉ p ⋮ ⋮ ⋱ ⋮ x n 1 − x ˉ 1 x n 2 − x ˉ 2 ⋯ x n p − x ˉ p ) , X_c=\begin{pmatrix} x{11}-\bar{x}1 & x{12}-\bar{x}2 & \cdots &x{1p}-\bar{x}p \ x{21}-\bar{x}1 & x{22}-\bar{x}2 & \cdots &x{2p}-\bar{x}p \ \vdots &\vdots & \ddots & \vdots \ x{n1}-\bar{x}1 & x{n2}-\bar{x}2 & \cdots &x{np}-\bar{x}p \ \end{pmatrix} \ ,X c =⎝⎜⎜⎜⎛x 1 1 −x ˉ1 x 2 1 −x ˉ1 ⋮x n 1 −x ˉ1 x 1 2 −x ˉ2 x 2 2 −x ˉ2 ⋮x n 2 −x ˉ2 ⋯⋯⋱⋯x 1 p −x ˉp x 2 p −x ˉp ⋮x n p −x ˉp ⎠⎟⎟⎟⎞,
将中心化模型写成矩阵形式：
Y = 1 n α + X β + e = ( 1 n X c ) ( α β ) + e . Y=\boldsymbol 1_n\alpha+X\beta+e=\begin{pmatrix} \boldsymbol 1_n & X_c \end{pmatrix}\begin{pmatrix} \alpha \ \beta \end{pmatrix}+e \ .Y =1 n α+X β+e =(1 n X c )(αβ)+e .
其中 β = ( β 1 , β 2 , ⋯ , β p ) ′ \beta=\left(\beta_1,\beta_2,\cdots,\beta_p\right)’β=(β1 ,β2 ,⋯,βp )′ 。注意到
1 n ′ X c = 0 , \boldsymbol 1_n’X_c=0 \ ,1 n ′X c =0 ,
因此正规方程组可以写为
( n 0 0 X c ′ X c ) ( α β ) = ( 1 n ′ Y X c ′ Y ) ⟺ { n α = 1 n ′ Y , X c ′ X c β = X c ′ Y , \begin{pmatrix} n & 0 \ 0 & X_c’X_c \end{pmatrix} \begin{pmatrix} \alpha \ \beta \end{pmatrix} =\begin{pmatrix} \boldsymbol 1_n’Y \ X_c’Y \end{pmatrix} \quad \iff \quad \left{\begin{array}{l} n\alpha=\boldsymbol 1_n’Y \ , \ X_c’X_c\beta=X_c’Y \ , \end{array}\right.(n 0 0 X c ′X c )(αβ)=(1 n ′Y X c ′Y )⟺{n α=1 n ′Y ,X c ′X c β=X c ′Y ,
解得回归参数的最小二乘估计为
{ α ^ = y ˉ , β ^ = ( X c ′ X c ) − 1 X c ′ Y . \left{\begin{array}{l} \hat\alpha=\bar{y} \ , \ \hat\beta=\left(X_c’X_c\right)^{-1}X_c’Y \ . \end{array}\right.{α^=y ˉ,β^=(X c ′X c )−1 X c ′Y .
标准化模型：将原始数据进行标准化，令
s j 2 = ∑ i = 1 n ( x i j − x ˉ j ) 2 , j = 1 , 2 , ⋯ , p , z i j = x i j − x ˉ j s j , i = 1 , 2 , ⋯ , n j = 1 , 2 , ⋯ , p , \begin{aligned} &s_j^2=\sum{i=1}^n\left(x_{ij}-\bar{x}j\right)^2 \ , \quad j=1,2,\cdots,p \ , \ \ &z{ij}=\frac{x_{ij}-\bar{x}j}{s{j}} \ , \quad i=1,2,\cdots,n \quad j=1,2,\cdots,p \ , \end{aligned}s j 2 =i =1 ∑n (x i j −x ˉj )2 ,j =1 ,2 ,⋯,p ,z i j =s j x i j −x ˉj ,i =1 ,2 ,⋯,n j =1 ,2 ,⋯,p ,
将样本回归模型改写为
y i = γ + x i 1 − x ˉ 1 s 1 β 1 + x i 2 − x ˉ 2 s 2 β 1 + ⋯ x i p − x ˉ p s p β 1 + e i , i = 1 , 2 , ⋯ , n , y_i=\gamma+\frac{x_{i1}-\bar{x}1}{s_1}\beta_1+\frac{x{i2}-\bar{x}2}{s_2}\beta_1+\cdots\frac{x{ip}-\bar{x}p}{s_p}\beta_1+e_i \ , \quad i=1,2,\cdots,n \ ,y i =γ+s 1 x i 1 −x ˉ1 β1 +s 2 x i 2 −x ˉ2 β1 +⋯s p x i p −x ˉp β1 +e i ,i =1 ,2 ,⋯,n ,
令 Z = ( z i j ) n × p Z=(z{ij}){n\times p}Z =(z i j )n ×p ，将标准化模型写成矩阵形式：
Y = 1 n γ + Z β + e = ( 1 n Z ) ( γ β ) + e . Y=\boldsymbol 1_n\gamma+Z\beta+e=\begin{pmatrix} \boldsymbol 1_n & Z \end{pmatrix}\begin{pmatrix} \gamma \ \beta \end{pmatrix}+e \ .Y =1 n γ+Z β+e =(1 n Z )(γβ)+e .
解得回归参数的最小二乘估计为
{ γ ^ = y ˉ , β ^ = ( Z ′ Z ) − 1 Z ′ Y . \left{\begin{array}{l} \hat\gamma=\bar{y} \ , \ \hat\beta=\left(Z’Z\right)^{-1}Z’Y \ . \end{array}\right.{γ^=y ˉ,β^=(Z ′Z )−1 Z ′Y .
这里矩阵 Z Z Z 具有如下性质：
1 n ′ Z = 0 , R = Z ′ Z = ( r i j ) p × p . \boldsymbol{1}_n’Z=0 \ , \quad R=Z’Z=(r{ij})_{p\times p} \ .1 n ′Z =0 ,R =Z ′Z =(r i j )p ×p .

其中 r i j r_{ij}r i j 为自变量 x i x_i x i 和 x j x_j x j 的样本相关系数，矩阵 R R R 是自变量的样本相关系数矩阵。

3.2 最小二乘估计的性质

设线性回归模型满足 Gauss-Markov 假设，即
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I n . Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ .Y =X β+e ,E (e )=0 ,C o v (e )=σ2 I n .

下面我们来讨论最小二乘估计 β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=\left(X’X\right)^{-1}X’Y β^=(X ′X )−1 X ′Y 的一些良好的性质。

定理 3.2.1：对于线性回归模型，最小二乘估计 β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=\left(X’X\right)^{-1}X’Y β^=(X ′X )−1 X ′Y 具有下列性质：

(1) E ( β ^ ) = β {\rm E}\left(\hat\beta\right)=\beta E (β^)=β 。

(2) C o v ( β ^ ) = σ 2 ( X ′ X ) − 1 {\rm Cov}\left(\hat\beta\right)=\sigma^2\left(X’X\right)^{-1}C o v (β^)=σ2 (X ′X )−1 。

(1) 因为 E ( Y ) = X β {\rm E}(Y)=X\beta E (Y )=X β ，所以
E ( β ^ ) = ( X ′ X ) − 1 X ′ E ( Y ) = ( X ′ X ) − 1 X ′ X β = β . {\rm E}\left(\hat\beta\right)=\left(X’X\right)^{-1}X'{\rm E}(Y)=\left(X’X\right)^{-1}X’X\beta=\beta \ .E (β^)=(X ′X )−1 X ′E (Y )=(X ′X )−1 X ′X β=β.

(2) 因为 C o v ( Y ) = C o v ( e ) = σ 2 I n {\rm Cov}(Y)={\rm Cov}(e)=\sigma^2I_n C o v (Y )=C o v (e )=σ2 I n ，所以
C o v ( β ^ ) = C o v ( ( X ′ X ) − 1 X ′ Y ) = ( X ′ X ) − 1 X ′ C o v ( Y ) X ( X ′ X ) − 1 = ( X ′ X ) − 1 X σ 2 I n X ( X ′ X ) − 1 = σ 2 ( X ′ X ) − 1 . \begin{aligned} {\rm Cov}\left(\hat\beta\right)&={\rm Cov}\left(\left(X’X\right)^{-1}X’Y\right) \ \ &=\left(X’X\right)^{-1}X'{\rm Cov}(Y)X\left(X’X\right)^{-1} \ \ &=\left(X’X\right)^{-1}X\sigma^2I_nX\left(X’X\right)^{-1} \ \ &=\sigma^2\left(X’X\right)^{-1} \ . \end{aligned}C o v (β^)=C o v ((X ′X )−1 X ′Y )=(X ′X )−1 X ′C o v (Y )X (X ′X )−1 =(X ′X )−1 X σ2 I n X (X ′X )−1 =σ2 (X ′X )−1 .

推论 3.2.1：设 c c c 是 p + 1 p+1 p +1 维常数向量，我们称 c ′ β ^ c’\hat\beta c ′β^ 是 c ′ β c’\beta c ′β 的最小二乘估计，具有下列性质：

(1) E ( c ′ β ^ ) = c ′ β {\rm E}\left(c’\hat\beta\right)=c’\beta E (c ′β^)=c ′β 。

(2) C o v ( c ′ β ^ ) = σ 2 c ′ ( X ′ X ) − 1 c {\rm Cov}\left(c’\hat\beta\right)=\sigma^2c’\left(X’X\right)^{-1}c C o v (c ′β^)=σ2 c ′(X ′X )−1 c 。

该推论说明，对任意的线性函数 c ′ β c’\beta c ′β ，都有 c ′ β ^ c’\hat\beta c ′β^ 是 c ′ β c’\beta c ′β 的无偏估计，

定理 3.2.2 (Gauss-Markov)：对于线性回归模型，在 c ′ β c’\beta c ′β 的所有线性无偏估计中，最小二乘估计 c ′ β ^ c’\hat\beta c ′β^ 是唯一的最小方差线性无偏估计 (best linear unbiased estimator, BLUE) 。

假设 a ′ Y a’Y a ′Y 是 c ′ β c’\beta c ′β 的一个线性无偏估计，则对 ∀ β ∈ R p + 1 \forall\beta\in\mathbb{R}^{p+1}∀β∈R p +1 ，都有
E ( a ′ Y ) = a ′ X β = c ′ β . {\rm E}\left(a’Y\right)=a’X\beta=c’\beta \ .E (a ′Y )=a ′X β=c ′β.

所以 a ′ X = c ′ a’X=c’a ′X =c ′ 。又因为
V a r ( a ′ Y ) = σ 2 a ′ a = σ 2 ∥ a ∥ 2 , V a r ( c ′ β ^ ) = σ 2 c ′ ( X ′ X ) − 1 c , \begin{aligned} &{\rm Var}(a’Y)=\sigma^2a’a=\sigma^2\|a\|^2 \ , \ \ &{\rm Var}\left(c’\hat\beta\right)=\sigma^2c’\left(X’X\right)^{-1}c \ , \end{aligned}V a r (a ′Y )=σ2 a ′a =σ2 ∥a ∥2 ,V a r (c ′β^)=σ2 c ′(X ′X )−1 c ,
对 ∥ a ∥ 2 \|a\|^2 ∥a ∥2 做分解有
∥ a ∥ 2 = ∥ a − X ( X ′ X ) − 1 c + X ( X ′ X ) − 1 c ∥ 2 = ∥ a − X ( X ′ X ) − 1 c ∥ 2 + ∥ X ( X ′ X ) − 1 c ∥ 2 + 2 c ′ ( X ′ X ) − 1 X ′ ( a − X ( X ′ X ) − 1 c ) = ∥ a − X ( X ′ X ) − 1 c ∥ 2 + ∥ X ( X ′ X ) − 1 c ∥ 2 . \begin{aligned} \|a\|^2&=\left\|a-X\left(X’X\right)^{-1}c+X\left(X’X\right)^{-1}c\right\|^2 \ \ &=\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\left\|X\left(X’X\right)^{-1}c\right\|^2 +2c’\left(X’X\right)^{-1}X’\left(a-X\left(X’X\right)^{-1}c\right) \ \ &=\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\left\|X\left(X’X\right)^{-1}c\right\|^2 \ . \end{aligned}∥a ∥2 =∥∥∥a −X (X ′X )−1 c +X (X ′X )−1 c ∥∥∥2 =∥∥∥a −X (X ′X )−1 c ∥∥∥2 +∥∥∥X (X ′X )−1 c ∥∥∥2 +2 c ′(X ′X )−1 X ′(a −X (X ′X )−1 c )=∥∥∥a −X (X ′X )−1 c ∥∥∥2 +∥∥∥X (X ′X )−1 c ∥∥∥2 .
最后一个等号是因为
2 c ′ ( X ′ X ) − 1 X ′ ( a − X ( X ′ X ) − 1 c ) = 2 c ′ ( X ′ X ) − 1 ( X ′ a − c ) = 0 . \begin{aligned} 2c’\left(X’X\right)^{-1}X’\left(a-X\left(X’X\right)^{-1}c\right)&=2c’\left(X’X\right)^{-1}\left(X’a-c\right)=0 \ . \end{aligned}2 c ′(X ′X )−1 X ′(a −X (X ′X )−1 c )=2 c ′(X ′X )−1 (X ′a −c )=0 .
代入 a ′ Y a’Y a ′Y 的方差，所以
V a r ( a ′ Y ) = σ 2 ∥ a ∥ 2 = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + σ 2 ∥ X ( X ′ X ) − 1 c ∥ 2 = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + σ 2 c ′ ( X ′ X ) − 1 X ′ X ( X ′ X ) − 1 c = σ 2 ∥ a − X ( X ′ X ) − 1 c ∥ 2 + V a r ( c ′ β ^ ) ≥ V a r ( c ′ β ^ ) . \begin{aligned} {\rm Var}\left(a’Y\right)&=\sigma^2\|a\|^2 \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\sigma^2\left\|X\left(X’X\right)^{-1}c\right\|^2 \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+\sigma^2c’\left(X’X\right)^{-1}X’X\left(X’X\right)^{-1}c \ \ &=\sigma^2\left\|a-X\left(X’X\right)^{-1}c\right\|^2+{\rm Var}\left(c’\hat\beta\right) \ \ &\geq{\rm Var}\left(c’\hat\beta\right) \ . \end{aligned}V a r (a ′Y )=σ2 ∥a ∥2 =σ2 ∥∥∥a −X (X ′X )−1 c ∥∥∥2 +σ2 ∥∥∥X (X ′X )−1 c ∥∥∥2 =σ2 ∥∥∥a −X (X ′X )−1 c ∥∥∥2 +σ2 c ′(X ′X )−1 X ′X (X ′X )−1 c =σ2 ∥∥∥a −X (X ′X )−1 c ∥∥∥2 +V a r (c ′β^)≥V a r (c ′β^).
等号成立当且仅当 ∥ a − X ( X ′ X ) − 1 c ∥ = 0 \left\|a-X\left(X’X\right)^{-1}c\right\|=0 ∥∥∥a −X (X ′X )−1 c ∥∥∥=0 ，即 a = X ( X ′ X ) − 1 c a=X\left(X’X\right)^{-1}c a =X (X ′X )−1 c ，此时 c ′ Y = c ′ β ^ c’Y=c’\hat\beta c ′Y =c ′β^ ，得证。

误差方差 σ 2 \sigma^2 σ2 反映了模型误差对因变量的影响大小，下面来估计 σ 2 \sigma^2 σ2 。

注意到误差向量 e = Y − X β e=Y-X\beta e =Y −X β 是不可观测的，用 β ^ \hat\beta β^ 代替 β \beta β ，称
e ^ = Y − X β ^ = Y − Y ^ . \hat{e}=Y-X\hat\beta=Y-\hat{Y} \ .e ^=Y −X β^=Y −Y ^.

为残差向量。设 x i ′ x_i’x i ′ 为设计矩阵 X X X 的第 i i i 行，则第 i i i 次观测的残差可以表示为
e ^ i = y i − x i ′ β ^ = y i − y ^ i , i = 1 , 2 , ⋯ , n , \hat e_i=y_i-x_i’\hat\beta=y_i-\hat{y}_i \ , \quad i=1,2,\cdots,n \ ,e ^i =y i −x i ′β^=y i −y ^i ,i =1 ,2 ,⋯,n ,
称 y ^ i \hat{y}_i y ^i 为第 i i i 次观测的拟合值，称 Y ^ \hat{Y}Y ^ 为拟合值向量。

将 e ^ \hat{e}e ^ 看作 e e e 的一个估计，定义残差平方和为
R S S = e ^ ′ e ^ = ∑ i = 1 n e ^ i 2 , {\rm RSS}=\hat{e}’\hat{e}=\sum_{i=1}^n\hat{e}_i^2 \ ,R S S =e ^′e ^=i =1 ∑n e ^i 2 ,
它从整体上反映了观测数据与回归直线的偏离程度。

定理 3.2.3：我们用 R S S {\rm RSS}R S S 来构造 σ 2 \sigma^2 σ2 的无偏估计量。

(a) R S S = Y ′ ( I n − X ( X ′ X ) − 1 X ′ ) Y = Y ′ ( I n − H ) Y {\rm RSS}=Y’\left(I_n-X\left(X’X\right)^{-1}X’\right)Y=Y’\left(I_n-H\right)Y R S S =Y ′(I n −X (X ′X )−1 X ′)Y =Y ′(I n −H )Y ；

(b) 若定义 σ 2 \sigma^2 σ2 的估计量为
σ ^ 2 = R S S n − r a n k ( X ) , \hat\sigma^2=\frac{\rm RSS}{n-{\rm rank}(X)} \ ,σ^2 =n −r a n k (X )R S S ,
则 σ ^ 2 \hat\sigma^2 σ^2 是 σ 2 \sigma^2 σ2 的无偏估计量。

(a) 引入帽子矩阵 Y ^ = H Y \hat{Y}=HY Y ^=H Y ，所以 e ^ = ( I n − H ) Y \hat{e}=\left(I_n-H\right)Y e ^=(I n −H )Y ，所以
R S S = e ^ ′ e ^ = Y ′ ( I n − H ) ′ ( I n − H ) Y = Y ′ ( I n − H ) Y . {\rm RSS}=\hat{e}’\hat{e}=Y'(I_n-H)'(I_n-H)Y=Y'(I_n-H)Y \ .R S S =e ^′e ^=Y ′(I n −H )′(I n −H )Y =Y ′(I n −H )Y .
(b) 把 Y = X β + e Y=X\beta+e Y =X β+e 代入 R S S {\rm RSS}R S S 的表达式可得
R S S = ( X β + e ) ′ ( I n − H ) ( X β + e ) = β ′ X ′ ( I n − H ) X β + e ′ ( I n − H ) e = β ′ X ′ X β − β ′ X ′ X ( X ′ X ) − 1 X ′ X β + + e ′ ( I n − H ) e = e ′ ( I n − H ) e . \begin{aligned} {\rm RSS}&=(X\beta+e)'(I_n-H)(X\beta+e) \ \ &=\beta’X'(I_n-H)X\beta+e'(I_n-H)e \ \ &=\beta’X’X\beta-\beta’X’X(X’X)^{-1}X’X\beta++e'(I_n-H)e \ \ &=e'(I_n-H)e \ . \end{aligned}R S S =(X β+e )′(I n −H )(X β+e )=β′X ′(I n −H )X β+e ′(I n −H )e =β′X ′X β−β′X ′X (X ′X )−1 X ′X β++e ′(I n −H )e =e ′(I n −H )e .
由定理 2.2.1 可知
E ( R S S ) = E [ e ′ ( I n − H ) e ] = 0 + t r [ ( I n − H ) σ 2 I n ] = σ 2 ( n − t r ( H ) ) . \begin{aligned} {\rm E}\left({\rm RSS}\right)&={\rm E}\left[e'(I_n-H)e\right] \ \ &=0+{\rm tr}\left[(I_n-H)\sigma^2I_n\right] \ \ &=\sigma^2(n-{\rm tr}(H)) \ . \end{aligned}E (R S S )=E [e ′(I n −H )e ]=0 +t r [(I n −H )σ2 I n ]=σ2 (n −t r (H )).
根据对称幂等矩阵的秩与迹相等这一性质可得
t r ( H ) = r a n k ( H ) = r a n k ( X ) . {\rm tr}(H)={\rm rank}(H)={\rm rank}(X) \ .t r (H )=r a n k (H )=r a n k (X ).

所以有
E ( R S S ) = σ 2 ( n − r a n k ( X ) ) . {\rm E}\left({\rm RSS}\right)=\sigma^2(n-{\rm rank}(X)) \ .E (R S S )=σ2 (n −r a n k (X )).

进而
σ ^ 2 = R S S n − r a n k ( X ) \hat\sigma^2=\frac{\rm RSS}{n-{\rm rank}(X)}σ^2 =n −r a n k (X )R S S
是 σ 2 \sigma^2 σ2 的无偏估计量。

如果误差向量 e e e 服从正态分布，即 e ∼ N n ( 0 , σ 2 I n ) e\sim N_n\left(0,\sigma^2I_n\right)e ∼N n (0 ,σ2 I n ) ，则可以得到 β ^ \hat\beta β^ 和 σ ^ 2 \hat\sigma^2 σ^2 的更多性质。

定理 3.2.4：对于线性回归模型，如果误差向量 e ∼ N n ( 0 , σ 2 I n ) e\sim N_n\left(0,\sigma^2I_n\right)e ∼N n (0 ,σ2 I n ) ，则

(a) β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) \hat\beta\sim N\left(\beta,\sigma^2\left(X’X\right)^{-1}\right)β^∼N (β,σ2 (X ′X )−1 ) ；

(b) R S S / σ 2 ∼ χ 2 ( n − r a n k ( X ) ) {\rm RSS}/\sigma^2\sim\chi^2(n-{\rm rank}(X))R S S /σ2 ∼χ2 (n −r a n k (X )) ；

(a) 注意到
β ^ = ( X ′ X ) − 1 X ′ Y = ( X ′ X ) − 1 X ′ ( X β + e ) = β + ( X ′ X ) − 1 X ′ e . \hat\beta=\left(X’X\right)^{-1}X’Y=\left(X’X\right)^{-1}X'(X\beta+e)=\beta+\left(X’X\right)^{-1}X’e \ .β^=(X ′X )−1 X ′Y =(X ′X )−1 X ′(X β+e )=β+(X ′X )−1 X ′e .
由定理 2.3.4 和定理 3.2.1 可得
β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) . \hat\beta\sim N\left(\beta,\sigma^2\left(X’X\right)^{-1}\right) \ .β^∼N (β,σ2 (X ′X )−1 ).

(b) 注意到
e σ ∼ N ( 0 , I n ) , R S S σ 2 = e ′ ( I n − H ) e σ 2 = ( e σ ) ′ ( I n − H ) ( e σ ) , \begin{aligned} &\frac{e}{\sigma}\sim N(0,I_n) \ , \ \ &\frac{\rm RSS}{\sigma^2}=\frac{e'(I_n-H)e}{\sigma^2}=\left(\frac{e}{\sigma}\right)'(I_n-H)\left(\frac{e}{\sigma}\right) \ , \end{aligned}σe ∼N (0 ,I n ),σ2 R S S =σ2 e ′(I n −H )e =(σe )′(I n −H )(σe ),
根据对称幂等矩阵的秩与迹相等这一性质可得
r a n k ( I n − H ) = t r ( I n − H ) = n − t r ( H ) = n − r a n k ( H ) = n − r a n k ( X ) . {\rm rank}(I_n-H)={\rm tr}(I_n-H)=n-{\rm tr}(H)=n-{\rm rank}(H)=n-{\rm rank}(X) \ .r a n k (I n −H )=t r (I n −H )=n −t r (H )=n −r a n k (H )=n −r a n k (X ).

由定理 2.4.3 可得
R S S σ 2 ∼ χ 2 ( n − r a n k ( X ) ) . \frac{\rm RSS}{\sigma^2}\sim\chi^2\left(n-{\rm rank}(X)\right) \ .σ2 R S S ∼χ2 (n −r a n k (X )).

© 因为 β ^ = β + ( X ′ X ) − 1 X ′ e \hat\beta=\beta+\left(X’X\right)^{-1}X’e β^=β+(X ′X )−1 X ′e ，而 R S S = e ′ ( I n − H ) e {\rm RSS}=e’\left(I_n-H\right)e R S S =e ′(I n −H )e ，注意到
( X ′ X ) − 1 X ′ ⋅ σ 2 I n ⋅ ( I n − H ) = 0 , \left(X’X\right)^{-1}X’\cdot\sigma^2I_n\cdot\left(I_n-H\right)=0 \ ,(X ′X )−1 X ′⋅σ2 I n ⋅(I n −H )=0 ,
由推论 2.4.10 可知 ( X ′ X ) − 1 X ′ e \left(X’X\right)^{-1}X’e (X ′X )−1 X ′e 与 R S S {\rm RSS}R S S 相互独立，从而 β ^ \hat\beta β^ 与 R S S {\rm RSS}R S S 相互独立。

当 β \beta β 的第一个分量是 β 0 \beta_0 β0 时，取 c = ( 0 , ⋯ , 0 , 1 , 0 , ⋯ , 0 ) ′ c=(0,\cdots,0,1,0,\cdots,0)’c =(0 ,⋯,0 ,1 ,0 ,⋯,0 )′ ，其中 1 1 1 在 c c c 的第 i + 1 i+1 i +1 个位置，则
c ′ β = β i , c ′ β ^ = β ^ i , i = 1 , 2 , ⋯ , p . c’\beta=\beta_i \ , \quad c’\hat\beta=\hat\beta_i \ , \quad i=1,2,\cdots,p \ .c ′β=βi ,c ′β^=β^i ,i =1 ,2 ,⋯,p .
推论 3.2.2：对于线性回归模型，若 e ∼ N ( 0 , σ 2 I n ) e\sim N\left(0,\sigma^2I_n\right)e ∼N (0 ,σ2 I n ) ，则

(a) β i \beta_i βi 的最小二乘估计 β ^ i \hat\beta_i β^i 的分布为：
β ^ i ∼ N ( β i , σ 2 ( ( X ′ X ) − 1 ) i + 1 , i + 1 ) , i = 1 , 2 , ⋯ , p ; \hat\beta_i\sim N\left(\beta_i,\sigma^2\left(\left(X’X\right)^{-1}\right)_{i+1,i+1}\right) \ , \quad i=1,2,\cdots,p \ ;β^i ∼N (βi ,σ2 ((X ′X )−1 )i +1 ,i +1 ),i =1 ,2 ,⋯,p ;
(b) 在 β i \beta_i βi 的一切线性无偏估计中，β ^ i \hat\beta_i β^i 是唯一的方差最小者，i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i =1 ,2 ,⋯,p 。

推论 3.2.3：对于中心化模型，此时 β = ( β 1 , β 2 , ⋯ , β p ) ′ \beta=\left(\beta_1,\beta_2,\cdots,\beta_p\right)’β=(β1 ,β2 ,⋯,βp )′ ，则有

(a) E ( α ^ ) = α , E ( β ^ ) = β {\rm E}\left(\hat\alpha\right)=\alpha,\,{\rm E}\left(\hat\beta\right)=\beta E (α^)=α,E (β^)=β ，其中 α ^ = y ˉ , β ^ = ( X c ′ X c ) − 1 X c ′ Y \hat\alpha=\bar{y},\,\hat\beta=\left(X_c’X_c\right)^{-1}X_c’Y α^=y ˉ,β^=(X c ′X c )−1 X c ′Y ；

(b)
C o v ( α ^ β ^ ) = σ 2 ( 1 n 0 0 ( X c ′ X c ) − 1 ) ; {\rm Cov}\begin{pmatrix} \hat\alpha \ \hat\beta \end{pmatrix}=\sigma^2\begin{pmatrix} \cfrac1n & 0 \ 0 & \left(X_c’X_c\right)^{-1} \end{pmatrix} \ ;C o v (α^β^)=σ2 ⎝⎛n 1 0 0 (X c ′X c )−1 ⎠⎞;
© 若进一步假设 e ∼ N ( 0 , σ 2 I n ) e\sim N\left(0,\sigma^2I_n\right)e ∼N (0 ,σ2 I n ) ，则
α ^ ∼ N ( α , σ 2 n ) , β ^ ∼ N ( β , σ 2 ( X c ′ X c ) − 1 ) , \hat\alpha\sim N\left(\alpha,\frac{\sigma^2}{n}\right) \ , \quad \hat\beta\sim N\left(\beta,\sigma^2\left(X_c’X_c\right)^{-1}\right) \ ,α^∼N (α,n σ2 ),β^∼N (β,σ2 (X c ′X c )−1 ),
且 α ^ \hat\alpha α^ 与 β ^ \hat\beta β^ 相互独立。

总偏差平方和的分解：为了度量数据拟合的程度，我们在已经给出残差平方和 R S S {\rm RSS}R S S 的定义的基础上，继续给出回归平方和 E S S {\rm ESS}E S S 以及总偏差平方和 T S S {\rm TSS}T S S 的定义。

回归平方和：
E S S = ∑ i = 1 n ( y ^ i − y ˉ ) 2 = ( Y ^ − 1 n y ˉ ) ′ ( Y ^ − 1 n y ˉ ) . {\rm ESS}=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2=\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)’\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right) \ .E S S =i =1 ∑n (y ^i −y ˉ)2 =(Y ^−1 n y ˉ)′(Y ^−1 n y ˉ).
总偏差平方和：
T S S = ∑ i = 1 n ( y i − y ˉ ) 2 = ( Y − 1 n y ˉ ) ′ ( Y − 1 n y ˉ ) . {\rm TSS}=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2=\left(Y-\boldsymbol{1}_n\bar{y}\right)’\left(Y-\boldsymbol{1}_n\bar{y}\right) \ .T S S =i =1 ∑n (y i −y ˉ)2 =(Y −1 n y ˉ)′(Y −1 n y ˉ).
判定系数/测定系数：
R 2 = E S S T S S . R^2=\frac{\rm ESS}{\rm TSS} \ .R 2 =T S S E S S .

称 R = R 2 R=\sqrt{R^2}R =R 2 为复相关系数。

为了探究 T S S , E S S , R S S {\rm TSS},\,{\rm ESS},\,{\rm RSS}T S S ,E S S ,R S S 之间的关系，需要给出正规方程组的另一个等价写法。写出目标函数：
Q ( β ) = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) 2 , Q(\beta)=\sum_{i=1}^ne_i^2=\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)^2 \ ,Q (β)=i =1 ∑n e i 2 =i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )2 ,
关于 β 0 , β 1 , ⋯ , β p \beta_0,\beta_1,\cdots,\beta_p β0 ,β1 ,⋯,βp 分别求偏导数，并令这些导函数等于 0 0 0 可得
{ ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) = 0 , ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) x i 1 = 0 , ⋮ ∑ i = 1 n ( y i − β 0 − β 1 x i 1 − ⋯ − β p x i p ) x i p = 0 , \left{\begin{array}{c} \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)=0 \ , \ \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)x_{i1}=0 \ , \ \vdots \ \displaystyle\sum_{i=1}^n\left(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}\right)x_{ip}=0 \ , \end{array}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )=0 ,i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )x i 1 =0 ,⋮i =1 ∑n (y i −β0 −β1 x i 1 −⋯−βp x i p )x i p =0 ,
这个方程组与 X ′ X β = X ′ Y X’X\beta=X’Y X ′X β=X ′Y 等价。由于最小二乘估计 β ^ 0 , β ^ 1 , ⋯ , β ^ p \hat\beta_0,\hat\beta_1,\cdots,\hat\beta_p β^0 ,β^1 ,⋯,β^p 是正规方程组的解，所以
{ ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) = 0 , ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) x i 1 = 0 , ⋮ ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) x i p = 0 , \left{\begin{array}{l} \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)=0 \ , \ \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)x_{i1}=0 \ , \ \qquad \vdots \ \displaystyle\sum_{i=1}^n\left(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_px_{ip}\right)x_{ip}=0 \ , \end{array}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧i =1 ∑n (y i −β^0 −β^1 x i 1 −⋯−β^p x i p )=0 ,i =1 ∑n (y i −β^0 −β^1 x i 1 −⋯−β^p x i p )x i 1 =0 ,⋮i =1 ∑n (y i −β^0 −β^1 x i 1 −⋯−β^p x i p )x i p =0 ,
由第一个方程可知
∑ i = 1 n e ^ i = 0 , 1 n ∑ i = 1 n y ^ i = y ˉ = 1 n ∑ i = 1 n y i . \sum_{i=1}^n\hat{e}i=0 \ , \quad \frac1n\sum{i=1}^n\hat{y}i=\bar{y}=\frac1n\sum{i=1}^ny_i \ .i =1 ∑n e ^i =0 ,n 1 i =1 ∑n y ^i =y ˉ=n 1 i =1 ∑n y i .

所以有
T S S = ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i + y ^ i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 0 = R S S + E S S . \begin{aligned} {\rm TSS}&=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2 \ \ &=\sum_{i=1}^n\left(y_i-\hat{y}i+\hat{y}_i-\bar{y}\right)^2 \ \ &=\sum{i=1}^n\left(y_i-\hat{y}i\right)^2+\sum{i=1}^n\left(\hat{y}i-\bar{y}\right)^2+2\sum{i=1}^n\left(y_i-\hat{y}i\right)\left(\hat{y}_i-\bar{y}\right) \ \ &=\sum{i=1}^n\left(y_i-\hat{y}i\right)^2+\sum{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2+0 \ \ &={\rm RSS}+{\rm ESS} \ . \end{aligned}T S S =i =1 ∑n (y i −y ˉ)2 =i =1 ∑n (y i −y ^i +y ^i −y ˉ)2 =i =1 ∑n (y i −y ^i )2 +i =1 ∑n (y ^i −y ˉ)2 +2 i =1 ∑n (y i −y ^i )(y ^i −y ˉ)=i =1 ∑n (y i −y ^i )2 +i =1 ∑n (y ^i −y ˉ)2 +0 =R S S +E S S .
可以看出，R 2 R^2 R 2 度量了自变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x 1 ,x 2 ,⋯,x p 对因变量 y y y 的解释能力，且有 0 ≤ R 2 ≤ 1 0\leq R^2\leq1 0 ≤R 2 ≤1 。

定理 3.2.5：对于中心化模型，回归平方和 E S S {\rm ESS}E S S 的计算公式为
E S S = β ^ ′ X c ′ Y = Y ′ X c ( X c ′ X c ) − 1 X c ′ Y . {\rm ESS}=\hat\beta’X_c’Y=Y’X_c\left(X_c’X_c\right)^{-1}X_c’Y \ .E S S =β^′X c ′Y =Y ′X c (X c ′X c )−1 X c ′Y .

由中心化模型可得 Y ^ = 1 n α ^ + X c β ^ \hat{Y}=\boldsymbol 1_n\hat\alpha+X_c\hat\beta Y ^=1 n α^+X c β^ ，其中 β ^ = ( β ^ 1 , β ^ 2 , ⋯ , β ^ p ) \hat\beta=\left(\hat\beta_1,\hat\beta_2,\cdots,\hat\beta_p\right)β^=(β^1 ,β^2 ,⋯,β^p ) ，所以有
Y ^ − 1 n y ˉ = Y ^ − 1 n α ^ = X c β ^ . \hat{Y}-\boldsymbol1_n\bar{y}=\hat{Y}-\boldsymbol1_n\hat\alpha=X_c\hat\beta \ .Y ^−1 n y ˉ=Y ^−1 n α^=X c β^.

代入 E S S {\rm ESS}E S S 的计算公式得
E S S = ( Y ^ − 1 n y ˉ ) ′ ( Y ^ − 1 n y ˉ ) = β ^ ′ X c ′ X c β ^ = β ^ ′ X c ′ Y . {\rm ESS}=\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)’\left(\hat{Y}-\boldsymbol{1}_n\bar{y}\right)=\hat\beta’X_c’X_c\hat\beta=\hat\beta’X_c’Y \ .E S S =(Y ^−1 n y ˉ)′(Y ^−1 n y ˉ)=β^′X c ′X c β^=β^′X c ′Y .

Original: https://blog.csdn.net/weixin_45449414/article/details/120840599
Author: 这个XD很懒
Title: 【回归分析】03.回归参数的估计(1)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631152/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络hopfield算法实例,hopfield和bp神经网络区别

1、神经网络优缺点，优点：（1）具有自学习功能。例如实现图像识别时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图…

人工智能 2023年7月28日
0046
OCR文字识别技术总结（二）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0062
MetaPath2Vec

MetaPath2Vec 论文名称：metapath2vec: Scalable Representation Learning for Heterogeneous Network…

人工智能 2023年6月2日
0086
图的概念与主要类型、图模型的应用场景

图（Graph）是一个常见的数据结构，现实世界中有很多任务都可以抽象成图问题，比如社交网络，蛋白体结构，交通路网数据，以及很火的知识图谱等，甚至规则网络结构数据（如图像，视频等）也…

人工智能 2023年6月1日
00116
OPenCV – QML图像处理（1）：在QML中显示OPenCV图片

写在前面以前写过一个OPenCV图像处理的工具，界面是这样的：有兴趣的朋友用用：https://pan.baidu.com/s/16_DYfTnvp8cj7aqzXAlMGQ …

人工智能 2023年7月20日
0070
yolov5检测小目标（附源码）

yolov5小目标检测（图像切割法附源码） 6.30 更新切割后的小图片的label数据处理前言 yolov5大家都熟悉，通用性很强，但针对一些小目标检测的效果很差。YOLOv5…

人工智能 2023年6月16日
00112
词性标注

（纯属为了记录自己学习的点滴过程，99%都是复制别人的东西，引用资料都附在参考列表） 1 基本概念什么是词性在语言学上，词性(Par-Of-Speech, Pos )指的是单词…

人工智能 2023年5月27日
0077
【2022高教社杯数学建模】C题：古代玻璃制品的成分分析与鉴别方案及代码实现（已经更新完毕）

更新进展 2022-9-16 16：30 ，更新内容，问题二可视化及代码 2022-9-16 22：30 ，更新内容，问题三、四可视化及代码， 2022-9-17 12：11 ，更…

人工智能 2023年5月31日
00122
分段处理_非比例风险的Cox回归模型_分段模型

转自个人微信公众号【Memo_Cleon】的统计学习笔记：非比例风险的Cox回归模型_分段模型。虽然风险比例假定在整个随访时间内不成立，但在一个较短的时间段内则可能是成立的，分段…

人工智能 2023年6月18日
00102
使用BBC Datasets中的BBCSport数据集进行文本分类（新闻分类）

使用BBC Sport数据集的新闻文本分类，这个数据集比较古老，又是英文数据集，且不需要进行文本处理，之前在网络上并没有找到使用这个数据集的中文资料。所以写了一篇博客。本人初学者，…

人工智能 2023年7月2日
0092
【目标检测】YOLOv5训练工具，简化训练准备过程

目录引流前言安装步骤 * 0. 环境配置 1. 下载项目 2. 安装项目 3.下载权重文件操作步骤 After Training 引流 YOLOX算法的检测性能超过YOLO…

人工智能 2023年7月11日
0063
parser.add_argument用法

EurekaLog 7.5 (18-August-2016) 1)..Important: Installation layout was changed. All package…

人工智能 2023年7月21日
0059
为什么CUDA装好了，Tensorflow-GPU不能用？

原因 * – 1.CUDA、cudnn、Tensorflow、python版本并不配套！！！（大多都是这个原因） – 2.CUDA没有装好： –…

人工智能 2023年5月25日
0087
基于python3.8版本的tensorflow，keras 和pytrorch GPU版本简易安装

最重要的就是版本对应问题！！ 1、安装miniconda, 我是小白，因为找到的大部分教程都是通过Anaconda安装，但是在安装pytorch时创建各种虚拟环境，最后运行总是出现…

人工智能 2023年7月22日
00121
OpenCV-Python教程：查找轮廓、绘制轮廓

原文链接：http://www.juzicode.com/opencv-python-findcontours-drawcontours 返回Opencv-Python教程图像轮…

人工智能 2023年7月19日
0078
论文里的好句子（5）

Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement扩散、去噪和解纠缠的生…

人工智能 2023年7月30日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【回归分析】03.回归参数的估计(1)

3.1 最小二乘估计

3.2 最小二乘估计的性质

大家都在看