《统计学习方法》第一章习题

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。

1)模型:贝叶斯估计与最大似然估计最后寻找都是条件概率分布
2)策略:最大似然估计是经验风险最小化,贝叶斯估计是结构风险最小化
3)算法:最大似然估计是显式的解析解,贝叶斯估计是用数值计算的方法求解

伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

伯努利分布也叫01分布,其概率分布函数为
P ( x ) = p x ( 1 − p ) 1 − x , 其 中 0 < p < 1 , x ∈ { 0 , 1 } P(x) = p^{x}(1-p)^{1-x},其中 0

n次独立伯努利实验的样本集D = { x 1 , x 2 , . . . , x n } D={x_{1},x_{2},…,x_{n}}D ={x 1 ​,x 2 ​,…,x n ​},对数似然函数为
L = P ( D ∣ p ) = ln ⁡ [ ∏ i = 1 n p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n ln ⁡ [ p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] L=P(D|p)=\ln[\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}\ln[p^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)]L =P (D ∣p )=ln [i =1 ∏n ​p x i ​(1 −p )1 −x i ​]=i =1 ∑n ​ln [p x i ​(1 −p )1 −x i ​]=i =1 ∑n ​[x i ​ln p +(1 −x i ​)ln (1 −p )]
然后对参数p的极大似然估计就是求上式的最大值:
p ^ = arg ⁡ max ⁡ P ( D ∣ p ) p = arg ⁡ max ⁡ p ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] \widehat{p} = \underset{p}{{\arg\max} \, P(D|p)} = \underset{p}{{\arg\max} } \sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)]p ​=p ar g max P (D ∣p )​=p ar g max ​i =1 ∑n ​[x i ​ln p +(1 −x i ​)ln (1 −p )]
最大似然估计即求似然函数的极值点,对p求偏导并令其等于0得
∂ L ∂ p = ∑ i = 1 n ( x i p − 1 − x i 1 − p ) = 0 \frac{ \partial L }{ \partial p } = \sum_{i=1}^{n}(\frac{x_{i} }{ p }-\frac{1-x_{i}}{1-p})=0 ∂p ∂L ​=i =1 ∑n ​(p x i ​​−1 −p 1 −x i ​​)=0
解得
p ^ = 1 n ∑ i = 1 n x i \widehat{p}=\frac{1}{n}\sum_{i=1}^{n}x_{i}p ​=n 1 ​i =1 ∑n ​x i ​
由于n次独立实验中有k次结果为1,因此 p ^ = k n \widehat{p}=\frac{k}{n}p ​=n k ​
采用极大似然估计结果为1的概率为
P ( x = 1 ) = p x ( 1 − p ) 1 − x = p = k n P(x=1) = p^{x}(1-p)^{1-x}=p =\frac{k}{n}P (x =1 )=p x (1 −p )1 −x =p =n k ​

由题得样本集为D = { x 1 , x 2 , . . . , x n } D={x_{1},x_{2},…,x_{n}}D ={x 1 ​,x 2 ​,…,x n ​}
对参数p的贝叶斯公式为
P ( p ∣ D ) = P ( D ∣ p ) P ( p ) P ( D ) P(p|D)=\frac{P(D|p)P(p)}{P(D)}P (p ∣D )=P (D )P (D ∣p )P (p )​
其中P ( p ) P(p)P (p )是先验概率,P(D|p)是似然函数,P(p|D)是后验概率。贝叶斯估计是在已知观察结果D的条件下,使p出现概率最大的值,即使得P(p|D)最大。
由于P(D)与参数p无关,因此要使P(p|D)最大,即要使得分子最大。所以
p ^ = arg ⁡ max ⁡ P ( p ∣ D ) p = arg ⁡ max ⁡ p P ( p ) P ( D ∣ p ) \widehat{p} = \underset{p}{{\arg\max} \, P(p|D)}=\underset{p}{{\arg\max} \, }P(p)P(D|p)p ​=p ar g max P (p ∣D )​=p ar g max ​P (p )P (D ∣p )

把p视为随机变量,假设其符合β分布(贝塔分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称β分布,是指一组定义在(0,1) 区间的连续概率分布。),则有
P ( p ) = β ( p ; a , b ) = p a − 1 ( 1 − p ) b − 1 C , C 为 常 数 , a , b 需 选 定 P(p) =β(p;a,b)=\frac{p^{a-1}(1-p)^{b-1}}{C}, C为常数,a ,b需选定P (p )=β(p ;a ,b )=C p a −1 (1 −p )b −1 ​,C 为常数,a ,b 需选定

n次伯努利实验即为二项分布,由题得n次实验为1的次数为k,似然函数为
P ( D ∣ p ) = ∏ i = 1 n P ( x i ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p k ( 1 − p ) n − k P(D|p)=\prod_{i=1}^nP(x_{i})=\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}=p^{k}(1-p)^{n-k}P (D ∣p )=i =1 ∏n ​P (x i ​)=i =1 ∏n ​p x i ​(1 −p )1 −x i ​=p k (1 −p )n −k
因此
p ^ = arg ⁡ max ⁡ p P ( D ∣ p ) P ( p ) = arg ⁡ max ⁡ p ∏ i = 1 n P ( x i ) P ( p ) = arg ⁡ max ⁡ p p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C \widehat{p} = \underset{p}{{\arg\max} \, }P(D|p)P(p)=\underset{p}{{\arg\max} \, }\prod_{i=1}^nP(x_{i})P(p)=\underset{p}{{\arg\max} \, }p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C}p ​=p ar g max ​P (D ∣p )P (p )=p ar g max ​i =1 ∏n ​P (x i ​)P (p )=p ar g max ​p k (1 −p )n −k C p a −1 (1 −p )b −1 ​

ln ⁡ P ( D ∣ p ) P ( p ) = ln ⁡ [ p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C ] = ( k + a − 1 ) ln ⁡ p + ( n − k + b − 1 ) ln ⁡ ( 1 − p ) − ln ⁡ C \ln P(D|p)P(p)=\ln[ p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C}]=(k+a-1)\ln p+(n-k+b-1)\ln(1-p)-\ln C ln P (D ∣p )P (p )=ln [p k (1 −p )n −k C p a −1 (1 −p )b −1 ​]=(k +a −1 )ln p +(n −k +b −1 )ln (1 −p )−ln C
为求上式极值点,令其对参数p的偏导数为0有
∂ ln ⁡ P ( D ∣ p ) P ( p ) ∂ p = k + a − 1 p − n − k + b − 1 1 − p = 0 \frac{\partial \ln P(D|p)P(p)}{\partial p} = \frac{k+a-1}{p}-\frac{n-k+b-1}{1-p}=0 ∂p ∂ln P (D ∣p )P (p )​=p k +a −1 ​−1 −p n −k +b −1 ​=0
求得
p = k + a − 1 n + a + b − 2 p=\frac{k+a-1}{n+a+b-2}p =n +a +b −2 k +a −1 ​

1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

在假设空间F中,经验风险最小化可以用下式表示
R E R M = arg ⁡ min ⁡ f ∈ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} L(y_{i},f(x_{i}))R E R M ​=f ∈F ar g min ​N 1 ​i =1 ∑n ​L (y i ​,f (x i ​))
当损失函数为对数,模型是条件概率分布,即
f ( x i ) = P ( y i ∣ x i ) , L ( y i , f ( x i ) ) = − log ⁡ P ( y i ∣ x i ) f(x_{i})=P(y_{i}|x_{i}),L(y_{i},f(x_{i}))=-\log P(y_{i}|x_{i})f (x i ​)=P (y i ​∣x i ​),L (y i ​,f (x i ​))=−lo g P (y i ​∣x i ​)
带入经验风险得
R E R M = arg ⁡ min ⁡ f ∈ F 1 N ∑ i = 1 n − log ⁡ P ( y i ∣ x i ) = arg ⁡ max ⁡ f ∈ F 1 N ∑ i = 1 n log ⁡ P ( y i ∣ x i ) ( 1 ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} -\log P(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\frac{1}{N}\sum_{i=1}^{n} \log P(y_{i}|x_{i})(1)R E R M ​=f ∈F ar g min ​N 1 ​i =1 ∑n ​−lo g P (y i ​∣x i ​)=f ∈F ar g max ​N 1 ​i =1 ∑n ​lo g P (y i ​∣x i ​)(1 )

由于模型是条件概率分布,则似然函数如下
P ( Y ∣ X ) = ∏ i = 1 n P ( y i ∣ x i ) P(Y|X) = \prod_{i=1}^nP(y_{i}|x_{i})P (Y ∣X )=i =1 ∏n ​P (y i ​∣x i ​)
极大似然估计即求思涵函数的最大值,即
f = arg ⁡ max ⁡ f ∈ F ∏ i = 1 n P ( y i ∣ x i ) = arg ⁡ max ⁡ f ∈ F log ⁡ ∏ i = 1 n P ( y i ∣ x i ) = arg ⁡ max ⁡ f ∈ F ∑ i = 1 n log ⁡ P ( y i ∣ x i ) ( 2 ) f = \underset{f \in F}{{\arg\max} \, }\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\log\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\sum_{i=1}^{n} \log P(y_{i}|x_{i})(2)f =f ∈F ar g max ​i =1 ∏n ​P (y i ​∣x i ​)=f ∈F ar g max ​lo g i =1 ∏n ​P (y i ​∣x i ​)=f ∈F ar g max ​i =1 ∑n ​lo g P (y i ​∣x i ​)(2 )
对比(1)和(2)命题得证

Original: https://blog.csdn.net/qq_42714262/article/details/127807989
Author: Hilbob
Title: 《统计学习方法》第一章习题

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/655756/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球