机器学习-学习笔记(二) –> 模型评估与选择



根据测试错误率(\hat{\epsilon})估推出泛化错误率(\epsilon)的分布。
(泛化错误率(\epsilon):学习器在一个样本上犯错的概率;测试错误率(\hat{\epsilon}):(m)个测试样本有(\hat{\epsilon}\times m)个被错误分类)
泛化错误率(\epsilon)的学习器,将(m)个样本中的(m’)个样本分类错误,将(m-m’)个样本分类正确的概率为:

[P(\epsilon)=(_{m’}^m) {\epsilon}^{m’}(1- \epsilon)^{m-m’} ]

测试错误率(\hat{\epsilon}),将(m)个样本中(\hat{\epsilon}\times m)个错误分类,(m-\hat{\epsilon}\times m)正确分类的概率为:

[P({\hat{\epsilon}};{\epsilon})=(_{\hat{\epsilon}\times m}^m) {\epsilon}^{\hat{\epsilon}\times m}(1- \epsilon)^{m-\hat{\epsilon}\times m} ]

很明显这是属于二项分布,对其求偏导易知在(\epsilon=\hat\epsilon),(P(\hat\epsilon,\epsilon))取最大值。

二项分布的定义:

机器学习-学习笔记(二) --> 模型评估与选择
二项式定理:
机器学习-学习笔记(二) --> 模型评估与选择

机器学习-学习笔记(二) --> 模型评估与选择

“二项检验”(binomial test):已知一个分布服从二项分布,但未知这个分布的参数(这个参数在书中是 泛化错误率(\epsilon)),想要通过一批服从这个分布的一些样本(即 测试错误率(\hat\epsilon)),来对这个参数的取值范围的假设进行判断,若这个假设置信度超过了设定的置信度阈值,则假设成立。(这个解释些许有些牵强,仍需探讨并改进)

对西瓜书中”二项检验”的理解:

  1. 该”二项检验”要检验的假设:

[H_0:\epsilon≤\epsilon_0 \quad (泛化错误率\epsilon≤猜测值\epsilon_0) \ H_1:\epsilon>\epsilon_0 \quad (泛化错误率\epsilon>猜测值\epsilon_0)]

要证明这个猜想是否成立,其实只需要知道泛化错误率(\epsilon)的值即可,但是泛化错误率往往不能预先得知,这也是此次”二项检验”的目的:在一定准确度上,对(\epsilon)的值进行猜测,其中(\epsilon_0)即是对(\epsilon)的猜测值。
预先可以得到的是测试错误率(\hat\epsilon),测试错误率可以在一定程度上反映出泛化错误率,书中给出两者的联合概率函数$$P({\hat{\epsilon}};{\epsilon})=(_{\hat{\epsilon}\times m}^m) {\epsilon}^{\hat{\epsilon}\times m}(1- \epsilon)^{m-\hat{\epsilon}\times m}$$
易知,(\epsilon=\hat\epsilon)的概率最大,这里解释基本合理,但是这里引用一下(\hat\epsilon)是(\epsilon)的无偏估计使其更为可靠。(无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。)

[\begin{aligned} \because P(\hat{\epsilon} ; \epsilon) &=\left(\begin{array}{c} m \ \hat{\epsilon} * m \end{array}\right) \epsilon^{\hat{\epsilon} * m}(1-\epsilon)^{m-\hat{\epsilon} * m} \ \therefore E(\hat{\boldsymbol{\epsilon}}) &=\sum_{i=0}^{m} \hat{\epsilon} P(\hat{\epsilon} ; \epsilon) \ &=\frac{1}{m} \sum_{i=0}^{m} i\left(\begin{array}{c} m \ i \end{array}\right) \epsilon^{i}(1-\epsilon)^{m-i} \ &=\frac{1}{m} \sum_{i=1}^{m} m \epsilon\left(\begin{array}{c} m-1 \ i-1 \end{array}\right) \epsilon^{i-1}(1-\epsilon)^{m-i} \ &=\epsilon \sum_{i=1}^{m}\left(\begin{array}{c} m-1 \ i-1 \end{array}\right) \epsilon^{i-1}(1-\epsilon)^{(m-1)-(i-1)} \ &=\epsilon[\epsilon+(1-\epsilon)]^{m-1}=\epsilon \ \therefore \hat{\epsilon} \text { 是 } \epsilon \text { 的无偏估计 } \end{aligned} ]

  1. 若想使得(\epsilon≤\epsilon_0)假设成立,则要使得测试错误率(\hat\epsilon<)临界值(\overline\epsilon)(即泛化错误率(\epsilon)的最小值),使得(\hat\epsilon
  2. 在已知(\hat\epsilon)的前提下,只需要计算(\overline\epsilon)及(α)的值即可对假设做出检验。
    如何计算假设的置信度(1-α) ?
    假设置信度就是假设在泛化错误率的取值范围的约束下,分布曲线下的面积和(对应于图2.6中的非阴影部分的面积和)。其中,(α)就是从(\epsilon\times m+1)个误分类样本数开始,一直到(m)个误分类样本数中,柱形面积之和(对应于图2.6中的阴影部分的面积和)。
    而(\overline\epsilon)值便是满足阴影部分面积最大值小于(α)条件下,最小的(\epsilon)取值,即公式(这里公式已经更正为正确版本):

[\bar{\epsilon}=\min\epsilon \quad \text { s.t. } \quad \sum_{i=\epsilon \times m+1}^{m}\left(\begin{array}{c} m \ i \end{array}\right) \epsilon_{0}^{i}(1-\epsilon_{0})^{m-i}

Original: https://www.cnblogs.com/rogz/p/16223067.html
Author: RogZ
Title: 机器学习-学习笔记(二) –> 模型评估与选择

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/567406/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球