《统计学习方法》第一章习题

2023年6月27日下午10:01 • 人工智能 • 阅读 60

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。

1）模型：贝叶斯估计与最大似然估计最后寻找都是条件概率分布
2）策略：最大似然估计是经验风险最小化，贝叶斯估计是结构风险最小化
3）算法：最大似然估计是显式的解析解，贝叶斯估计是用数值计算的方法求解

伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

伯努利分布也叫01分布，其概率分布函数为
P ( x ) = p x ( 1 − p ) 1 − x , 其中 0 < p < 1 , x ∈ { 0 ， 1 } P(x) = p^{x}(1-p)^{1-x},其中 0

n次独立伯努利实验的样本集D = { x 1 , x 2 , . . . , x n } D={x_{1},x_{2},…,x_{n}}D ={x 1 ,x 2 ,…,x n }，对数似然函数为
L = P ( D ∣ p ) = ln ⁡ [ ∏ i = 1 n p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n ln ⁡ [ p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] L=P(D|p)=\ln[\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}\ln[p^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)]L =P (D ∣p )=ln [i =1 ∏n p x i (1 −p )1 −x i ]=i =1 ∑n ln [p x i (1 −p )1 −x i ]=i =1 ∑n [x i ln p +(1 −x i )ln (1 −p )]
然后对参数p的极大似然估计就是求上式的最大值：
p ^ = arg ⁡ max ⁡ P ( D ∣ p ) p = arg ⁡ max ⁡ p ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] \widehat{p} = \underset{p}{{\arg\max} \, P(D|p)} = \underset{p}{{\arg\max} } \sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)]p =p ar g max P (D ∣p )=p ar g max i =1 ∑n [x i ln p +(1 −x i )ln (1 −p )]
最大似然估计即求似然函数的极值点，对p求偏导并令其等于0得
∂ L ∂ p = ∑ i = 1 n ( x i p − 1 − x i 1 − p ) = 0 \frac{ \partial L }{ \partial p } = \sum_{i=1}^{n}(\frac{x_{i} }{ p }-\frac{1-x_{i}}{1-p})=0 ∂p ∂L =i =1 ∑n (p x i −1 −p 1 −x i )=0
解得
p ^ = 1 n ∑ i = 1 n x i \widehat{p}=\frac{1}{n}\sum_{i=1}^{n}x_{i}p =n 1 i =1 ∑n x i
由于n次独立实验中有k次结果为1，因此 p ^ = k n \widehat{p}=\frac{k}{n}p =n k
采用极大似然估计结果为1的概率为
P ( x = 1 ) = p x ( 1 − p ) 1 − x = p = k n P(x=1) = p^{x}(1-p)^{1-x}=p =\frac{k}{n}P (x =1 )=p x (1 −p )1 −x =p =n k

由题得样本集为D = { x 1 , x 2 , . . . , x n } D={x_{1},x_{2},…,x_{n}}D ={x 1 ,x 2 ,…,x n }
对参数p的贝叶斯公式为
P ( p ∣ D ) = P ( D ∣ p ) P ( p ) P ( D ) P(p|D)=\frac{P(D|p)P(p)}{P(D)}P (p ∣D )=P (D )P (D ∣p )P (p )
其中P ( p ) P(p)P (p )是先验概率，P(D|p)是似然函数，P(p|D)是后验概率。贝叶斯估计是在已知观察结果D的条件下，使p出现概率最大的值，即使得P(p|D)最大。
由于P(D)与参数p无关，因此要使P(p|D)最大，即要使得分子最大。所以
p ^ = arg ⁡ max ⁡ P ( p ∣ D ) p = arg ⁡ max ⁡ p P ( p ) P ( D ∣ p ) \widehat{p} = \underset{p}{{\arg\max} \, P(p|D)}=\underset{p}{{\arg\max} \, }P(p)P(D|p)p =p ar g max P (p ∣D )=p ar g max P (p )P (D ∣p )

把p视为随机变量，假设其符合β分布(贝塔分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。在概率论中，贝塔分布，也称β分布，是指一组定义在(0,1) 区间的连续概率分布。)，则有
P ( p ) = β ( p ; a , b ) = p a − 1 ( 1 − p ) b − 1 C , C 为常数， a ， b 需选定 P(p) =β(p;a,b)=\frac{p^{a-1}(1-p)^{b-1}}{C}, C为常数，a ，b需选定P (p )=β(p ;a ,b )=C p a −1 (1 −p )b −1 ,C 为常数，a ，b 需选定

n次伯努利实验即为二项分布，由题得n次实验为1的次数为k，似然函数为
P ( D ∣ p ) = ∏ i = 1 n P ( x i ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p k ( 1 − p ) n − k P(D|p)=\prod_{i=1}^nP(x_{i})=\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}=p^{k}(1-p)^{n-k}P (D ∣p )=i =1 ∏n P (x i )=i =1 ∏n p x i (1 −p )1 −x i =p k (1 −p )n −k
因此
p ^ = arg ⁡ max ⁡ p P ( D ∣ p ) P ( p ) = arg ⁡ max ⁡ p ∏ i = 1 n P ( x i ) P ( p ) = arg ⁡ max ⁡ p p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C \widehat{p} = \underset{p}{{\arg\max} \, }P(D|p)P(p)=\underset{p}{{\arg\max} \, }\prod_{i=1}^nP(x_{i})P(p)=\underset{p}{{\arg\max} \, }p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C}p =p ar g max P (D ∣p )P (p )=p ar g max i =1 ∏n P (x i )P (p )=p ar g max p k (1 −p )n −k C p a −1 (1 −p )b −1

ln ⁡ P ( D ∣ p ) P ( p ) = ln ⁡ [ p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C ] = ( k + a − 1 ) ln ⁡ p + ( n − k + b − 1 ) ln ⁡ ( 1 − p ) − ln ⁡ C \ln P(D|p)P(p)=\ln[ p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C}]=(k+a-1)\ln p+(n-k+b-1)\ln(1-p)-\ln C ln P (D ∣p )P (p )=ln [p k (1 −p )n −k C p a −1 (1 −p )b −1 ]=(k +a −1 )ln p +(n −k +b −1 )ln (1 −p )−ln C
为求上式极值点，令其对参数p的偏导数为0有
∂ ln ⁡ P ( D ∣ p ) P ( p ) ∂ p = k + a − 1 p − n − k + b − 1 1 − p = 0 \frac{\partial \ln P(D|p)P(p)}{\partial p} = \frac{k+a-1}{p}-\frac{n-k+b-1}{1-p}=0 ∂p ∂ln P (D ∣p )P (p )=p k +a −1 −1 −p n −k +b −1 =0
求得
p = k + a − 1 n + a + b − 2 p=\frac{k+a-1}{n+a+b-2}p =n +a +b −2 k +a −1

1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

在假设空间F中，经验风险最小化可以用下式表示
R E R M = arg ⁡ min ⁡ f ∈ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} L(y_{i},f(x_{i}))R E R M =f ∈F ar g min N 1 i =1 ∑n L (y i ,f (x i ))
当损失函数为对数，模型是条件概率分布，即
f ( x i ) = P ( y i ∣ x i ) , L ( y i , f ( x i ) ) = − log ⁡ P ( y i ∣ x i ) f(x_{i})=P(y_{i}|x_{i}),L(y_{i},f(x_{i}))=-\log P(y_{i}|x_{i})f (x i )=P (y i ∣x i ),L (y i ,f (x i ))=−lo g P (y i ∣x i )
带入经验风险得
R E R M = arg ⁡ min ⁡ f ∈ F 1 N ∑ i = 1 n − log ⁡ P ( y i ∣ x i ) = arg ⁡ max ⁡ f ∈ F 1 N ∑ i = 1 n log ⁡ P ( y i ∣ x i ) ( 1 ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} -\log P(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\frac{1}{N}\sum_{i=1}^{n} \log P(y_{i}|x_{i})(1)R E R M =f ∈F ar g min N 1 i =1 ∑n −lo g P (y i ∣x i )=f ∈F ar g max N 1 i =1 ∑n lo g P (y i ∣x i )(1 )

由于模型是条件概率分布，则似然函数如下
P ( Y ∣ X ) = ∏ i = 1 n P ( y i ∣ x i ) P(Y|X) = \prod_{i=1}^nP(y_{i}|x_{i})P (Y ∣X )=i =1 ∏n P (y i ∣x i )
极大似然估计即求思涵函数的最大值，即
f = arg ⁡ max ⁡ f ∈ F ∏ i = 1 n P ( y i ∣ x i ) = arg ⁡ max ⁡ f ∈ F log ⁡ ∏ i = 1 n P ( y i ∣ x i ) = arg ⁡ max ⁡ f ∈ F ∑ i = 1 n log ⁡ P ( y i ∣ x i ) ( 2 ) f = \underset{f \in F}{{\arg\max} \, }\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\log\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\sum_{i=1}^{n} \log P(y_{i}|x_{i})(2)f =f ∈F ar g max i =1 ∏n P (y i ∣x i )=f ∈F ar g max lo g i =1 ∏n P (y i ∣x i )=f ∈F ar g max i =1 ∑n lo g P (y i ∣x i )(2 )
对比(1)和(2)命题得证

Original: https://blog.csdn.net/qq_42714262/article/details/127807989
Author: Hilbob
Title: 《统计学习方法》第一章习题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/655756/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022年我国高性能纤维及复合材料产业链全景图及上中下游市场剖析

高性能纤维是指具有特殊的物理化学结构、性能和用途，或具有特殊功能的化学纤维，一般具有极高的抗拉强度、杨氏模量，同时具有耐高温、耐辐射、抗燃、耐高压、耐酸、耐碱、耐氧化剂腐蚀等其他特…

人工智能 2023年6月1日
0097
点云数据去噪

主要包括双边滤波、曲率流、密度均值漂流聚类、噪声分类去噪、神经网络、曲率特征混合分类的高密度点云去噪体素滤波结合区域生长等 1、双边滤波算法进行点云去噪，双边滤波器是基于空间分…

人工智能 2023年5月31日
0089
pandas学习日记

ps:还有一些没学完，但是这些已经leisi了基础使用 pandas基础的创建单元 s = pd.Series([1, 3, 6, np.nan, 44, 1]) dates =…

人工智能 2023年7月7日
0072
python数据分析-面试题

设逾期表为df,格式为pandas.DataFrame,详细数据如下所示，其中order_no为非重复订单号，overdue_days为逾期天数，info_tabel为逾期标签，…

人工智能 2023年7月6日
0069
R语言矩阵运算：矩阵转置、计算逆矩阵、两个矩阵的相乘、构建nxn对角（单位）矩阵

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
00103
AI 最新突破集锦 AI的瓶颈和进展 AI控制核聚变 AI预测蛋白质3D结构 Alpha Fold2 AI证明数学公式自动驾驶 AI替代的硬件

大名鼎鼎的 DeepMind 公司，它是全球最大的 AI 研究机构。在围棋比赛中战胜人类的 AlphaGo、预测蛋白质结构的 AlphaFold2、战胜星际争霸世界冠军的 Alph…

人工智能 2023年6月11日
0077
手机进销存网站

开发工具(eclipse/idea/vscode等)：数据库(sqlite/mysql/sqlserver等)：功能模块(请用文字描述，至少200字)：功能模块包括：员工模块、手…

人工智能 2023年7月31日
0068
最大似然法、似然函数及对数似然函数

似然函数统计学中，似然函数是一种关于统计模型参数的函数。表示模型参数中的似然性。定义：给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率…

人工智能 2023年6月15日
00157
C++基础——static成员

面向对象编程的基础要了解面向对象编程（OOP）的基本概念，需要理解 OOP 的三个主要概念，它们撑起了整个 OOP 的框架。这三个概念是：封装、继承性和多态性。除此以外，还需…

人工智能 2023年6月28日
0098
VITS 语音合成完全端到端TTS的里程碑

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speec…

人工智能 2023年6月24日
00336
Python：从清华源安装第三方库

python 在使用pip安装的时候，一些小一点的还好，安装一些大的包的时候，会非常的慢甚至出现timeout的报错，这时我们就可以使用清华大学的镜像来安装，打开终端： pip i…

人工智能 2023年7月31日
00236
生信初学者必知的镜像设置

文章目录 * – Ubuntu镜像 – conda镜像 – R语言镜像 – Python镜像 – Julia镜像国内网…

人工智能 2023年6月27日
0091
【Python Pandas】关于DataFrame行转列，转字典的尝试与记录（有代码和结果展示）

想要实现的数据处理是画出如下表格中，每个城市中的不同店铺随时间变化的支出曲线。 ; 数据预处理首先进行所有操作之前要进行数据预处理，对于城市和店铺这两列来说，它们只要不为空即可，…

人工智能 2023年7月7日
0066
【机器学习与数据挖掘】浅谈指标SSE,MSE,RMSE,R-square

下面介绍这些统计参数基于预测值(y)和原始值(y)之间的误差参数：SSE，MSE，RMSE （1）SSE(和方差)：The sum of squares due to error…

人工智能 2023年6月18日
0085
pandas.DataFrame 中save方法

python;gutter:true; In [5]: frame.save('frame_pickle')</p> <p>D:\sof…

人工智能 2023年6月2日
00100
浅谈GCN

文章目录一：GCN与GNN的区别二：GCN原理 * – Step1: 求图模型的邻接矩阵和度矩阵 Step2：进行特征计算 + ① 邻接矩阵的改变 ② 度矩阵的改变…

人工智能 2023年6月22日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

《统计学习方法》第一章习题

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。

1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

大家都在看