统计推断：极大似然估计、贝叶斯估计与方差偏差分解

2023年10月26日上午9:32 • Python • 阅读 41

1 参数估计、频率学派和贝叶斯学派

设(\bm{X}=(X_1,\dots X_n))(这里(\bm{X})是随机向量，代指样本，注意机器学习里的样本是单个数据点，统计学里样本是指所有数据的集合)是来自以(f(\bm{x}|\bm{\theta}))((\bm{\theta}=(\theta_1,\dots,\theta_k)))为其密度函数或概率质量函数的总体的独立同分布(iid)样本。如果观测到(\bm{X}=\bm{x})，则我们定义一个关于(\bm{\theta})的似然函数(L(\bm{\bm{\theta}}|\bm{X}) = f(\bm{X}|\bm{\bm{\theta}}))来表示当观测(\bm{X}=\bm{x})时，参数(\bm{\bm{\theta}})取不同值时的似真程度。注意这里我们没说可能性，因为(\bm{\theta})是一个定值（虽然其值未知）。此外，尽管(f(\bm{x}|\bm{\theta}))做为(\bm{x})的函数是一个概率密度函数，但并不能保证$L(\bm{\bm{\theta}}|\bm{X}) (作为)\bm{\theta}$的函数也是概率密度函数。

由于样本是独立同分布的，我们又有：

[L(\bm{\bm{\theta}} | \bm{X})=f(\bm{X}|\bm{\bm{\theta}})=\Pi_{i=1}^nf(x_i | \bm{\bm{\theta}}) ]

故对于固定的随机向量(\bm{x})，令(\hat{\bm{\theta}}(x))是参数(\bm{\theta})的一个取值，它使得(L(\bm{\theta}|\bm{X}))做为(\bm{\theta})的函数在该处达到最大值，那么基于样本(\bm{X})的极大似然估计量(maximum likelihood esitimator 缩写为 MLE)就是(\hat{\bm{\theta}}(\bm{X}))。

而要使似然函数(L(\bm{\theta}|\bm{X}))最大，显然是一个最优化问题，如果似然函数是可微的（对于(\theta_i)），那么 MLE 的可能值就是满足

[ ∇_{\bm{\theta}}L(\bm{\theta}|\bm{X})=0 ]

的解((\theta_1, . . . , \theta_k))。注意该方程的解仅仅是 MLE 的可能的选择，则是因为一阶导数为(0)只是成为极值点的必要而非充分条件(还要加上我们前面所说的二阶条件)。另外，一阶导数的零点值处于函数定义域(Ω)内部的极值点上（即内点)。如果极值点出现在定义域(Ω)的边界上，一阶导数未必是(0)，因此我们必须对边界进行核查以发现极值点。

一般情况下，使用微分法时，处理(L(\bm{\theta}|\bm{X})) 的自然对数 (\text{log}(\bm{\theta}|\bm{X}))(称为对数似然函数，log likelihood)比直接处理(L(\bm{\theta}|\bm{X}))容易。这是因为 (\text{log})是凹函数(加个负号就是凸函数)，且是((0, ∞))上的严格增函数，这蕴含着(L(\bm{\theta}|\bm{X}))的极值点和(\text{log}(\bm{\theta}|\bm{X}))的极值点是一致的。

下面我们举个例子来演示。下面这个例子非常重要，后面我们统计学习专栏中的Logistic回归就基于这个例子的加强版。设(\bm{X}=(X_1,…X_n))是 iid 的，且服从参数为(p)的 Bernoulli(读作伯努利)分布（搞忘了伯努利分布的同学可以参见《Python中的随机采样和概率分布(二)》)），于是似然函数定义为：

[L(p|\bm{X}) = \Pi_{i=1}^np^{x_i}(1-p)^{1-x_i} ]

尽管这个函数的微分并不是特别困难，但是对数似然函数

[\begin{aligned} \text{log}L(p|\bm{X})=&\sum_{i=1}^n\text{log}[p^{x_i}(1-p)^{1-x_i}]\ =&\sum_{i=1}^{n}[\text{log}\space p^{x_i}+\text{log}\space (1-p)^{1-x_i}] \end{aligned} ]

的微分却很简单，我们令(L(p|\bm{X}))微分并令其结果为0，就得到解：

[\hat{p} = \frac{\sum x_i}{n} ]

这样我们就证明了(\sum X_i/n)是(p)的MLE。

当然，一旦(L(p|\bm{X}))复杂起来，我们难以解析求出其最优解，那么我们就要用到《数值最优化：一阶和二阶优化算法(Pytorch实现)》所学到的梯度下降法、牛顿法等数值优化方法求其数值解（因为我们这里是使似然函数最大，最优化算法是使函数最小，故使用时要给目标函数加个负号）。

极大似然估计方法非常经典，但是还有一种参数估计方法与它有着显著的区别，称之为 Bayes 方法。（注意Bayes方法是一种参数估计方法，和我们在《统计学习：朴素贝叶斯模型(Numpy实现)》所讲的贝叶斯模型是两码事，大家不要搞混了）贝叶斯方法的某些方面对于统计学的其他方法还是相当有帮助的。

在经典的极大似然估计方法中，参数(θ)被认为是一个未知、但固定的量，从以(θ)为指标的总体中抽取一组随机样本(X_1,…X_n)，基于样本的观测值来获得关于(θ)的知识，持这种观点的人称为 频率学派。在Bayes方法中，(θ)是一个变化可被一个概率分布描述的量，该分布叫做 先验分布(prior distribution)，这是一个主观的分布，建立在试验者的 信念(belief) 上，而且见到抽样数据之前就已经用公式制定好了(故而名为先验)。然后从以(θ)为指标的总体中抽取一组样本，先验分布通过样本信息得到校正，持这种观点的人称为 贝叶斯学派。这个被较正的先验分布叫做 后验分布(posterior distribution)，这个校正工作称为Bayes统计。

我们把先验分布记为(π(θ))而把样本分布记为(f(\bm{x}|θ))，那么后验分布是给定样本(\bm{x})的条件下(θ)的条件分布，由贝叶斯公式得：

[π(θ|\bm{x})=f(\bm{x}|θ)π(θ)/m(\bm{x}) ]

这里分母(m(\bm{x})=\int f(\bm{x}|θ)π(θ)dθ)是(\bm{X})的边缘分布。

注意这个后验分布是一个条件分布，其条件建立在观测样本上。现在用这个后验分布来做出关于(θ)的推断，而(θ)仍被考虑为一个随机的量，我们得到的是其概率分布，如果要给出一个模型，通常取后验概率最大的模型。此外，后验分布的均值可以被用作(θ)的点估计。

不同于极大似然估计采用数值优化求解，Bayes 估计因为涉及到积分，我们常采用蒙特卡洛等数值积分方法求解。

频率学派虽然和贝叶斯学派对统计有着不同的认识，但可以简单地把两者联系起来。我们令(D)表示数据，对于(P(θ|D) = P(θ)P(D|θ)/P(D))假设先验分布是均匀分布，取后验概率最大，就能从贝叶斯估计得到极大似然估计。下面对贝叶斯估计和极大似然估计进行比较:

给定数据集(D)，极大似然估计：(\hat{θ} = \underset{\theta}{\text{argmax}} P(D|θ))

给定数据集(D)，贝叶斯估计：(\hat{P}(θ|D) =P(θ)P(D|θ)/P(D))

可以看出，前者是一个点估计，后者得到的是一个概率分布。

注：哲学上的先验和后验

人类对客观世界的认识分为”先验”和”后验”。后验是指人类通过经验所产生的认识，而先验是指人类在经验之外通过自身的理性对客观世界的认识。

过去哲学家在人类对客观世界的认识是来自经验还是来自理性产生了巨大的分歧，也分成了两个学派。一个是 理性主义，主要是以法国的笛卡尔、德国的莱布尼兹为代表，他们人类可以通过自身的绝对理性来认识世界。因为这个学派的哲学家主要来自欧洲大陆，故他们的学说被称为”欧陆哲学”。另一个学派是 经验主义，主要是以英国的休谟为代表，他们认为人类只能通过经验来认识世界。其中休谟还是个不可知论持有者，他认为人的经验是不可靠的，这使得世界对人是不可知的。

现在看来，频率学派和贝叶斯学派的争执和当年经验主义和理性主义的争执何其相似！

绝大多数机器学习模型都需要通过学习数据集中”后验”的知识来得到。而学术界有部分人认为人类的知识不全是通过后天经验来得到的，比如音乐、文学、戏剧这些普遍需要先天的天赋或者灵感，被有些学者认为是”先验”或者是”超验”的。有趣的是，按照柏拉图的洞穴人理论，人居于世如同洞穴人居于洞穴之中，就好比洞穴人只能通过洞穴壁上的投影近似认识洞穴外的事物，人类也只能通过物理世界的事物来近似认识抽象的理念世界，而不能完全认识它。柏拉图认为，音乐、文学这类东西就是存在于抽象世界的理念世界的一部分，人类先天已经在抽象世界认识过，而在物理世界中音乐家、文学家只是在尽他们的努力去近似重现这些东西，而永远不能完全重现。

显然，按照柏拉图观点的推论，AI主要通过经验进行学习，自然也无法认识抽象世界的”理式”。这也就为AI能在棋类、游戏中战胜人类，而在音乐、文学等领域难以超越人类提供了一种解释。

2 估计参数方差和偏差

我们对概率分布的参数进行估计可以应用不仅一种方法，这就需要我们评估参数估计量质量的度量。

参数(θ)的估计量(W)的均方误差(mean squared error，MSE，注意：这里和我们前面最小二乘的均方误差应用场景是不同的，但思想是相似的) 是由(\mathbb{E}_θ(W-θ)^2)定义的关于(θ)的函数。参数(θ)的点估计量(W)的偏差(bias)是指的(W)的期望值与(θ)之差，即(\text{Bias}_θW=\mathbb{E}_θW-θ)。一个估计量如果它的偏差(关于(θ))的恒等于 0，则称为无偏的(unbiased)，它满足(\mathbb{E}_θW=θ)对所有(θ)成立。同时，我们也定义估计量(θ)的方差为(\text{Var}(W))，方差的平方根称为标准差(standard error)，记做(\text{SE}(W))。

3 方差-偏差分解和过拟合

这样 MSE 乃至所有的参数估计由两部分组成，其一度量该估计量的方差，其二度量它的偏差，即

[\begin{aligned} \text{MSE} &=\mathbb{E}_θ(W-θ)^2\ &=\text{Var}_θW+(\mathbb{E}_θW-θ)^2 \ &=\text{Var}_θW+(\text{Bias}_θW)^2 \end{aligned} ]

一个好的估计量应该在方差和偏差两项上综合小。为求得一个良好 MSE 性质的估计量我们需要寻找方差和偏差两者都得到控制的估计量。显然无偏估计量对控制偏差再好不过。

对于一个无偏估计量，我们有：

[\mathbb{E}_θ(W-θ)^2=\text{Var}_θW ]

如果一个估计量是无偏的，它的 MSE 就是它的方差。

偏差和方差的关系与机器学习模型容量、欠拟合和过拟合的概念紧密相联，用 MSE 度量泛化误差（偏差和方差对于泛化误差都是有意义的）时，增加容量会增加方差，降低偏差。如下图所示，这被称为泛化误差的 U 型曲线。

[1] Calder K. Statistical inference[J]. New York: Holt, 1953.
[2] 李航. 统计学习方法(第2版)[M]. 清华大学出版社, 2019.
[3] Ian Goodfellow，Yoshua Bengio等.深度学习[M].人民邮电出版社, 2017.
[4] 周志华. 机器学习[M]. 清华大学出版社, 2016.

Original: https://www.cnblogs.com/orion-orion/p/15888493.html
Author: orion-orion
Title: 统计推断：极大似然估计、贝叶斯估计与方差偏差分解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/805427/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【语音识别】基于matlab DWT算法0~9数字语音识别【含Matlab源码 1726期】

✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。🍎个人主页：海神之光🏆代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️…

Python 2023年11月7日
0048
主成分分析(PCA)原理分析&Python实现

目录 1 引言 2 PCA的意义 3 PCA的实现步骤 4 弄懂PCA要回答的问题 5 PCA原理 5.1 如何降维？ 5.2 如何量化投影以后样本点之间的区分度？ 5.3 求取k…

Python 2023年8月2日
0077
成功解决TypeError: only size-1 arrays can be converted to Python scalars

成功解决TypeError: only size-1 arrays can be converted to Python scalars 目录解决问题解决思路解决方法 1、分…

Python 2023年8月30日
0046
【Linux】一文掌握Linux基本指令（下）

本章命令大致总结命令功能cat打印文件内容echo打印文件内容> 输出重定向追加重定向< 输入重定向 more 查看文本内容 less等价于morehead打印文本…

Python 2023年11月5日
0035
Node.js | Express+MongoDB 实现简易用户管理系统（一）（项目搭建 | RESTful API架构 | 前后端交互）

### 回答1：在搭建_前后 _端_分离平台时，可以使用多种框架。具体选择哪种框架取决于你的需求和技能水平。如果你希望快速 _搭建_一个前后 _端_分离平台，你可以考虑使用以…

Python 2023年11月7日
0043
Wireshark零基础使用教程（超详细）

「作者主页」：士别三日wyx「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「专栏简介」：此文章已录入专栏《网络安全快速入门》 Wires…

Python 2023年10月8日
0068
Pandas读取CSV和普通文本数据文件

目录 5 行标签的处理 6 读取特定的列 7. 跳过某些行¶ 8. 分隔符不一定是逗号 9. read_csv()与read_table()的差异本文简单Pandas读取csv数…

Python 2023年8月8日
0043
利用Python检验用户输入密码的复杂度

1、创建 python 文件 密码强度检测&am…

Python 2023年5月23日
0065
【用ddt思想重构项目】Selenium使用json模块读取json文件、使用pytest参数化实现DDT

前言一直想学习自动化测试，但是都没行动，业余时间学习零零碎碎并记录20210421。 8、用ddt思想重构项目 Selenium读取CSV文件 Selenium读取XML文件 S…

Python 2023年9月12日
0048
基于Opencv-python人脸口罩检测（附完整代码）

目录一、开发环境二、设计要求三、设计原理四、程序代码五、结果展示六、结论一、开发环境 python 3.6.6 opencv-python 4.5.1 二、设计要求 …

Python 2023年8月2日
0057
import gensim出错 RuntimeError: Cython extensions are unavailable.

安装gensim成功，但是导入时出现RuntimeError错误运行时错误如下：RuntimeError: Cython extensions are unavailable. W…

Python 2023年8月28日
0048
修改conda环境名称

进行conda操作时，可能要创建新的环境，但名称与现有环境有冲突，安装的包有一定差别，或是前期环境命名比较随便。此时要对现有环境进行重命名，有两种方法可以采用。 1.创建新的环境并…

Python 2023年8月2日
0055
Java 中你绝对没用过的一个关键字？

layout: postcategories: Javatitle: Java 中你绝对没用过的一个关键字？tagline: by 子悠tags: 子悠前面的文章给大家介绍了如何…

Python 2023年10月13日
0050
tunm, 一种对标JSON的二进制数据协议

simple binary proto一种对标JSON的二进制数据协议支持的数据类型基本支持的类型 “u8”, “i8”, &#…

Python 2023年6月12日
0055
python字典按照值进行排序 sorted

python字典按照值进行排序 d = {‘a’: 1, ‘b’: 4, ‘c’: 2, ‘f…

Python 2023年8月24日
0060
flask使用token认证

原本使用的是session，认证，服务器会把session-id存在浏览器的cookie里面，然后在服务端会保存session-id，也看到很多flask关于session的操作，…

Python 2023年8月9日
00116

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

统计推断：极大似然估计、贝叶斯估计与方差偏差分解

1 参数估计、频率学派和贝叶斯学派

2 估计参数方差和偏差

3 方差-偏差分解和过拟合

大家都在看