- 二、评估方法
- 模型评估方法
- 调参(parameter tuning)和最终模型
- 数据集(data set)
- 三、性能度量(performance measure)
- 1. 回归任务的性能度量
+ - 2. 分类任务的性能度量
+ - 3. 聚类任务的性能度量(第9章)
- 2. 交叉验证(t)检验
- 3. McNemar检验
- 4. Friedman检验与Nemenyi后续检验
- 2.5 偏差与方差
根据测试错误率(\hat{\epsilon})估推出泛化错误率(\epsilon)的分布。
(泛化错误率(\epsilon):学习器在一个样本上犯错的概率;测试错误率(\hat{\epsilon}):(m)个测试样本有(\hat{\epsilon}\times m)个被错误分类)
泛化错误率(\epsilon)的学习器,将(m)个样本中的(m’)个样本分类错误,将(m-m’)个样本分类正确的概率为:
[P(\epsilon)=(_{m’}^m) {\epsilon}^{m’}(1- \epsilon)^{m-m’} ]
测试错误率(\hat{\epsilon}),将(m)个样本中(\hat{\epsilon}\times m)个错误分类,(m-\hat{\epsilon}\times m)正确分类的概率为:
[P({\hat{\epsilon}};{\epsilon})=(_{\hat{\epsilon}\times m}^m) {\epsilon}^{\hat{\epsilon}\times m}(1- \epsilon)^{m-\hat{\epsilon}\times m} ]
很明显这是属于二项分布,对其求偏导易知在(\epsilon=\hat\epsilon),(P(\hat\epsilon,\epsilon))取最大值。
二项分布的定义:
二项式定理:![]()

“二项检验”(binomial test):已知一个分布服从二项分布,但未知这个分布的参数(这个参数在书中是 泛化错误率(\epsilon)),想要通过一批服从这个分布的一些样本(即 测试错误率(\hat\epsilon)),来对这个参数的取值范围的假设进行判断,若这个假设置信度超过了设定的置信度阈值,则假设成立。(这个解释些许有些牵强,仍需探讨并改进)
对西瓜书中”二项检验”的理解:
- 该”二项检验”要检验的假设:
[H_0:\epsilon≤\epsilon_0 \quad (泛化错误率\epsilon≤猜测值\epsilon_0) \ H_1:\epsilon>\epsilon_0 \quad (泛化错误率\epsilon>猜测值\epsilon_0)]
要证明这个猜想是否成立,其实只需要知道泛化错误率(\epsilon)的值即可,但是泛化错误率往往不能预先得知,这也是此次”二项检验”的目的:在一定准确度上,对(\epsilon)的值进行猜测,其中(\epsilon_0)即是对(\epsilon)的猜测值。
预先可以得到的是测试错误率(\hat\epsilon),测试错误率可以在一定程度上反映出泛化错误率,书中给出两者的联合概率函数$$P({\hat{\epsilon}};{\epsilon})=(_{\hat{\epsilon}\times m}^m) {\epsilon}^{\hat{\epsilon}\times m}(1- \epsilon)^{m-\hat{\epsilon}\times m}$$
易知,(\epsilon=\hat\epsilon)的概率最大,这里解释基本合理,但是这里引用一下(\hat\epsilon)是(\epsilon)的无偏估计使其更为可靠。(无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。)
[\begin{aligned} \because P(\hat{\epsilon} ; \epsilon) &=\left(\begin{array}{c} m \ \hat{\epsilon} * m \end{array}\right) \epsilon^{\hat{\epsilon} * m}(1-\epsilon)^{m-\hat{\epsilon} * m} \ \therefore E(\hat{\boldsymbol{\epsilon}}) &=\sum_{i=0}^{m} \hat{\epsilon} P(\hat{\epsilon} ; \epsilon) \ &=\frac{1}{m} \sum_{i=0}^{m} i\left(\begin{array}{c} m \ i \end{array}\right) \epsilon^{i}(1-\epsilon)^{m-i} \ &=\frac{1}{m} \sum_{i=1}^{m} m \epsilon\left(\begin{array}{c} m-1 \ i-1 \end{array}\right) \epsilon^{i-1}(1-\epsilon)^{m-i} \ &=\epsilon \sum_{i=1}^{m}\left(\begin{array}{c} m-1 \ i-1 \end{array}\right) \epsilon^{i-1}(1-\epsilon)^{(m-1)-(i-1)} \ &=\epsilon[\epsilon+(1-\epsilon)]^{m-1}=\epsilon \ \therefore \hat{\epsilon} \text { 是 } \epsilon \text { 的无偏估计 } \end{aligned} ]
- 若想使得(\epsilon≤\epsilon_0)假设成立,则要使得测试错误率(\hat\epsilon<)临界值(\overline\epsilon)(即泛化错误率(\epsilon)的最小值),使得(\hat\epsilon
- 在已知(\hat\epsilon)的前提下,只需要计算(\overline\epsilon)及(α)的值即可对假设做出检验。
如何计算假设的置信度(1-α) ?
假设置信度就是假设在泛化错误率的取值范围的约束下,分布曲线下的面积和(对应于图2.6中的非阴影部分的面积和)。其中,(α)就是从(\epsilon\times m+1)个误分类样本数开始,一直到(m)个误分类样本数中,柱形面积之和(对应于图2.6中的阴影部分的面积和)。
而(\overline\epsilon)值便是满足阴影部分面积最大值小于(α)条件下,最小的(\epsilon)取值,即公式(这里公式已经更正为正确版本):
[\bar{\epsilon}=\min\epsilon \quad \text { s.t. } \quad \sum_{i=\epsilon \times m+1}^{m}\left(\begin{array}{c} m \ i \end{array}\right) \epsilon_{0}^{i}(1-\epsilon_{0})^{m-i}
Original: https://www.cnblogs.com/rogz/p/16223067.html
Author: RogZ
Title: 机器学习-学习笔记(二) –> 模型评估与选择
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/567406/
转载文章受原作者版权保护。转载请注明原作者出处!