参数估计的均方误差(MSE),偏置(Bias)与方差(Variance)分解,无偏估计

均方误差,偏置和方差都是统计学中非常重要的概念。

对于机器学习来说,MSE一般是计算两个东西的MSE,一个是参数估计的MSE,一个是模型预测的MSE。我主要关注的是参数估计的MSE。

参数估计的MSE定义为M S E = E θ [ ( θ ^ − θ ) 2 ] MSE = E_\theta[(\hat{\theta}-\theta)^2]MSE =E θ​[(θ^−θ)2 ],其中θ \theta θ表示真值,θ ^ \hat{\theta}θ^表示预测值,E θ E_\theta E θ​并不是表示在θ \theta θ的分布上求期望,而是关于似然函数的期望,即E θ [ ( θ ^ − θ ) 2 ] = ∫ x ( θ ^ − θ ) 2 f ( x ; θ ) d x E_\theta[(\hat{\theta}-\theta)^2]=\int_{x}(\hat{\theta}-\theta)^2f(x;\theta)dx E θ​[(θ^−θ)2 ]=∫x ​(θ^−θ)2 f (x ;θ)d x
,可以理解为在所有观测值上求平均。

MSE可以进行分解:
M S E = E θ [ ( θ ^ − θ ) 2 ] = E θ [ θ ^ 2 + θ 2 − 2 θ ^ θ ] = E θ [ θ ^ 2 ] − E θ [ θ ^ ] 2 + E θ [ θ ^ ] 2 + θ 2 − 2 θ E θ [ θ ^ ] = V θ [ θ ^ ] + ( θ − E θ [ θ ^ ] ) 2 MSE = E_\theta[(\hat{\theta}-\theta)^2] =E_\theta[\hat{\theta}^2+\theta^2-2\hat{\theta}\theta] \= E_\theta[\hat{\theta}^2]-E_\theta[\hat{\theta}]^2+E_\theta[\hat{\theta}]^2+\theta^2-2\theta E_\theta[\hat{\theta}]\=V_\theta[\hat{\theta}]+(\theta-E_\theta[\hat{\theta}])^2 MSE =E θ​[(θ^−θ)2 ]=E θ​[θ^2 +θ2 −2 θ^θ]=E θ​[θ^2 ]−E θ​[θ^]2 +E θ​[θ^]2 +θ2 −2 θE θ​[θ^]=V θ​[θ^]+(θ−E θ​[θ^])2
定义估计的偏置(偏差)为:b i a s = E θ [ θ ^ ] − θ bias = E_\theta[\hat{\theta}]-\theta bia s =E θ​[θ^]−θ
则上式进一步写为:
M S E = V θ [ θ ^ ] + b i a s 2 MSE = V_\theta[\hat{\theta}]+bias^2 MSE =V θ​[θ^]+bia s 2

如果利用蒙特卡洛积分估计MSE这个期望:
E θ [ ( θ ^ − θ ) 2 ] = ∫ x ( θ ^ − θ ) 2 f ( x ; θ ) d x = 1 N ∑ i = 1 N ( θ ^ i − θ ) 2 E_\theta[(\hat{\theta}-\theta)^2]=\int_{x}(\hat{\theta}-\theta)^2f(x;\theta)dx\= \frac{1}{N}\sum_{i=1}^{N}(\hat{\theta}_i-\theta)^2 E θ​[(θ^−θ)2 ]=∫x ​(θ^−θ)2 f (x ;θ)d x =N 1 ​i =1 ∑N ​(θ^i ​−θ)2其中,θ ^ i \hat{\theta}_i θ^i ​是由第i i i个数据估计得来。很多时候下,做机器学习的时候,我们都用这个均方误差来作为优化的目标。

当b i a s bias bia s为0的时候,该估计就是参数的无偏估计。
有时候,虽然估计是有偏的,但是当数据愈来愈多的时候,参数的估计能够依概率收敛到真实值上,称为相合:θ ^ → θ \hat{\theta}\rightarrow\theta θ^→θ

模型为:y = X θ + ϵ y = X\theta+\epsilon y =Xθ+ϵ
多元最小二乘估计(多元高斯噪声最大似然估计)的解为:θ ^ = ( X T X ) − 1 X T y \hat{\theta}=(X^TX)^{-1}X^Ty θ^=(X T X )−1 X T y
偏差为:E [ ( X T X ) − 1 X T y ] − θ = ( X T X ) − 1 X T E [ y ] − θ = ( X T X ) − 1 X T X θ − θ = θ − θ = 0 E[(X^TX)^{-1}X^Ty]-\theta\=(X^TX)^{-1}X^TE[y]-\theta\=(X^TX)^{-1}X^TX\theta-\theta\=\theta-\theta=0 E [(X T X )−1 X T y ]−θ=(X T X )−1 X T E [y ]−θ=(X T X )−1 X T Xθ−θ=θ−θ=0
若假设噪声的方差是σ 2 I \sigma^2I σ2 I,则估计量的方差是:
V θ [ ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T ) V θ [ y ] ( X T X ) − 1 X T ) T = σ 2 ( X T X ) − 1 V_\theta[(X^TX)^{-1}X^Ty]=(X^TX)^{-1}X^T)V_\thetay^{-1}X^T)^T\=\sigma^2(X^TX)^{-1}V θ​[(X T X )−1 X T y ]=(X T X )−1 X T )V θ​y −1 X T )T =σ2 (X T X )−1

进一步,由方差-偏置分解可得M S E = 0 + t r a c e ( σ 2 ( X T X ) − 1 ) = t r a c e ( σ 2 ( X T X ) − 1 ) MSE=0+trace(\sigma^2(X^TX)^{-1})=trace(\sigma^2(X^TX)^{-1})MSE =0 +t r a ce (σ2 (X T X )−1 )=t r a ce (σ2 (X T X )−1 )
这里使用trace是因为多元情形下方差是矩阵。

Original: https://blog.csdn.net/RSstudent/article/details/126606711
Author: Remote Sensing
Title: 参数估计的均方误差(MSE),偏置(Bias)与方差(Variance)分解,无偏估计

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/617932/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球