Bootstrap方法(参数和非参数Bootstrap方法)、Matlab算例

2023年6月16日上午12:16 • 人工智能 • 阅读 79

非参数Bootstrap方法

设总体的分布F F F未知，但按放回抽样的方法抽取了一个容量为n n n的样本，称为Bootstrap样本或称为自助样本。独立地取多个Bootstrap样本，利用这些样本信息对总体F F F进行推断，这种方法称为非参数Bootstrap方法，又称为自助法。 这一方法可用于对总体知之甚少地情况。
优点：不需要对总体分布有任何假设，而且可以使用于小样本，且能用于各种统计量。

估计量的标准误差的Bootstrap估计

在估计总体位置参数θ \theta θ时，不仅要给出θ \theta θ的估计θ ^ \hat\theta θ^，还需要这一估计的标准误差，常用σ θ ^ = D ( θ ^ ) \sigma_{\hat{\theta}}=\sqrt{D(\hat\theta)}σθ^=D (θ^)度量。

步骤

相继、独立地从已知的容量为n n n的样本中抽出B ( B ≥ 1000 ) B(B\ge1000)B (B ≥1 0 0 0 )个容量为n n n的Bootstrap样本

x 1 ∗ i , x 2 ∗ i , . . . , x n ∗ i , i = 1 , 2 , . . . , B x_1^{i},x_2^{i},…,x_n^{*i},i=1,2,…,B x 1 ∗i ,x 2 ∗i ,…,x n ∗i ,i =1 ,2 ,…,B

计算

σ ^ θ ^ = 1 B − 1 ∑ i = 1 B ( θ ^ i ∗ − θ ˉ ∗ ) 2 \hat\sigma_{\hat\theta}=\sqrt{\frac{1}{B-1}\sum_{i=1}^B{(\hat\theta_i^}-\bar\theta^)^2}σ^θ^=B −1 1 i =1 ∑B (θ^i ∗−θˉ∗)2
式中： θ ^ i ∗ = θ ^ ( x 1 ∗ i , x 2 ∗ i , . . . , x n ∗ i ) , i = 1 , 2 , . . . , B θ ˉ ∗ = 1 B ∑ i = 1 B θ ^ i ∗ \hat\theta_i^=\hat\theta (x_1^{i},x_2^{i},…,x_n^{i}),i=1,2,…,B \quad \bar\theta^=\frac{1}{B}\sum_{i=1}^B{\hat\theta_i^}θ^i ∗=θ^(x 1 ∗i ,x 2 ∗i ,…,x n ∗i ),i =1 ,2 ,…,B θˉ∗=B 1 ∑i =1 B θ^i ∗

估计量的均方误差的Bootstrap估计

例1

有30窝仔猪出生时各窝猪的存活只数为

9 8 10 12 11 12 7 9 11 8 9 7 7 8 9 7 9 9 10 9 9 9 12 10 10 9 13 11 13 9
（1）试求中位数估计M M M的标准误差的Bootstrap估计。
（2）求均方误差M S E = E [ ( M − θ ) 2 ] MSE=E[(M-\theta)^2]M S E =E [(M −θ)2 ]的估计。

data=[9  8  10  12  11  12  7  9  11  8  9  7  7  8  9  7  9  9  10  9  9  9  12  10  10  9  13  11  13  9];
b=bootstrp(1000,@(x)quantile(x,0.5),data);%1000组样本，@(x)quantile(x,0.5)求中位数的函数，data原始数据
b_std=std(b);%计算b的标准差
b_var=mean((b-quantile(data,0.5)).^2);%求均方误差

b1=bootstrp(1000,@mean,data);%平均数
b1_mean=std(b1);

Bootstrap置信区间

设X = ( X 1 , X 2 , . . . . , X n ) X=(X_1,X_2,….,X_n)X =(X 1 ,X 2 ,….,X n )是来自总体F F F容量为n n n的样本，x = ( x 1 , x 2 , . . . , x n ) x=(x_1,x_2,…,x_n)x =(x 1 ,x 2 ,…,x n )是一个已知的样本值。F F F中含有位置参数θ \theta θ，θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat\theta=\hat\theta (X_1,X_2,…,X_n)θ^=θ^(X 1 ,X 2 ,…,X n )是θ \theta θ的估计量。现在求θ \theta θ的置信水平为1 − α 1-\alpha 1 −α的置信区间。

步骤及原理

独立从样本x x x中抽出B B B个容量为n n n的Bootstrap样本，对于每个Bootstrap样本求出θ \theta θ的Bootstrap估计：θ ^ 1 ∗ , θ ^ 2 ∗ , . . . , θ ^ B ∗ \hat\theta_1^,\hat\theta_2^,…,\hat\theta_B^*θ^1 ∗,θ^2 ∗,…,θ^B ∗。
将估计从小到大排序：θ ^ ( 1 ) ∗ , θ ^ ( 2 ) ∗ , . . . , θ ^ ( B ) ∗ \hat\theta_{(1)}^,\hat\theta_{(2)}^,…,\hat\theta_{(B)}^*θ^(1 )∗,θ^(2 )∗,…,θ^(B )∗。
求出近似分位数θ ^ α / 2 ∗ , θ ^ 1 − α / 2 ∗ \hat\theta_{\alpha/2}^,\hat\theta_{1-\alpha/2}^θ^α/2 ∗,θ^1 −α/2 ∗使得
P { θ ^ α / 2 ∗ < θ ^ ∗ < θ ^ 1 − α / 2 ∗ } = 1 − α P{\hat\theta_{\alpha/2}^
于是近似的有
P { θ ^ α / 2 ∗ < θ ^ < θ ^ 1 − α / 2 ∗ } = 1 − α P{\hat\theta_{\alpha/2}^
记k 1 = [ B × α 2 ] , k 2 = [ B × ( 1 − α 2 ) ] k_1=[B\times \frac{\alpha}{2}],k_2=[B\times(1-\frac{\alpha}{2})]k 1 =[B ×2 α],k 2 =[B ×(1 −2 α)]，以θ ^ ( k 1 ) ∗ \hat\theta_{(k_1)}^θ^(k 1 )∗和θ ^ ( k 2 ) ∗ \hat\theta_{(k_2)}^θ^(k 2 )∗分别作为分位数θ ^ α / 2 ∗ , θ ^ 1 − α / 2 ∗ \hat\theta_{\alpha/2}^,\hat\theta_{1-\alpha/2}^θ^α/2 ∗,θ^1 −α/2 ∗的估计，得到近似等式
P { θ ^ ( k 1 ) ∗ < θ ^ < θ ^ ( k 2 ) ∗ } = 1 − α P{\hat\theta_{(k_1)}^
得到θ \theta θ的置信水平为1 − α 1-\alpha 1 −α的Bootstrap置信区间为( θ ^ ( k 1 ) ∗ , θ ^ ( k 1 ) ∗ ) (\hat\theta_{(k_1)}^,\hat\theta_{(k_1)}^*)(θ^(k 1 )∗,θ^(k 1 )∗)，这种方法称为分位数法。

续例1

以样本均值x ˉ \bar x x ˉ作为总体均值μ \mu μ的估计，以标准差s s s作为总体标准差σ \sigma σ的估计，按分位数法求μ ， σ \mu，\sigma μ，σ的置信水平为0.90的Bootstrap置信区间。

b=bootci(1000,{@(x)[mean(x),std(x)],data},'alpha',0.1)%bootci得到Bootstrap置信区间

结果：第一列是均值的置信区间，第二列是标准差的置信区间
b =
    9.0667    1.4368
   10.0667    2.0609

参数Bootstrap方法

假设所研究的总体的分布函数F = ( x ; β ) F=(x;\beta)F =(x ;β)的形式已知，但其中高喊未知参数β \beta β。现在已知有一个来自总体的样本X 1 , X 2 , . . . , X n X_1,X_2,…,X_n X 1 ,X 2 ,…,X n 。

步骤

由该样本得到β \beta β的极大似然估计β ^ \hat\beta β^。
在总体分布为F ( x ; β ^ ) F(x;\hat\beta)F (x ;β^)中产生B ( B ≥ 1000 ) B(B\ge1000)B (B ≥1 0 0 0 )个容量为n n n的样本
X 1 ∗ , X 2 ∗ , . . . , X n ∗ ∼ F ( x ; β ^ ) X_1^,X_2^,…,X_n^*\sim F(x;\hat\beta)X 1 ∗,X 2 ∗,…,X n ∗∼F (x ;β^)
用非参数Bootstrap置信区间的方法得到β \beta β的Bootstrap置信区间。

例2：

已知某电子原件的寿命服从威布尔分布，其分布函数如下
F ( x ) = { 1 − e − ( x / η ) β x > 0 0 其他 β > 0 , η > 0 F(x)=\begin{cases} 1-e^{-(x/\eta)^{\beta}}&x>0\ 0&其他 \end{cases}\quad\beta>0,\eta>0 F (x )={1 −e −(x /η)β0 x >0 其他β>0 ,η>0
已知参数β = 2 \beta=2 β=2。今有样本142.84 97.04 32.46 69.14 85.67 114.43 41.76 163.07 108.22 63.28。
（1）确定参数η \eta η的最大似然估计。
（2）对于时刻t 0 = 50 t_0=50 t 0 =5 0，求可靠性R ( 50 ) = 1 − F ( 50 ) = e − ( 50 / η ) 2 R(50)=1-F(50)=e^{-(50/\eta)^2}R (5 0 )=1 −F (5 0 )=e −(5 0 /η)2的置信水平为0.95的Bootstrap单侧置信区间。
解：
（1）求似然估计是概率论中的基础，不在此详细阐述，结果为η ^ = ∑ i = 1 n x i 2 n = 100.0696 \hat\eta=\sqrt{\frac{\sum_{i=1}^nx_i^2}{n}} =100.0696 η^=n ∑i =1 n x i 2 =1 0 0 .0 6 9 6。
（2）对于参数β = 2 , η = η ^ = 100.0696 \beta=2,\eta=\hat\eta=100.0696 β=2 ,η=η^=1 0 0 .0 6 9 6，产生服从对应韦布尔分布的5000个容量为10的Bootstrap样本。
对于每个样本计算η \eta η的Bootstrap估计η ^ i ∗ = ∑ j = 1 10 ( x j ∗ i ) 2 10 \hat\eta_i^=\sqrt{\frac{\sum_{j=1}^{10}(x_j^{i})^2}{10}}η^i ∗=1 0 ∑j =1 1 0 (x j ∗i )2 。
将5000个η i ∗ \eta_i^ηi ∗自小到大排列，取坐起第250（[5000×0.05]=250）位，得η ( 250 ) ∗ = 73.3758 \eta_{(250)}^=73.3758 η(2 5 0 )∗=7 3 .3 7 5 8。
所以置信水平位0.95得Bootstrap单侧置信下限为e − ( 50 / η ^ ( 250 ) ∗ ) 2 = 0.6286 e^{-(50/\hat\eta^*_{(250)})^2}=0.6286 e −(5 0 /η^(2 5 0 )∗)2 =0 .6 2 8 6。

clc,clear
a=[142.84  97.04  32.46  69.14  85.67  114.43  41.76  163.07  108.22  63.28];
eta=sqrt(mean(a.^2));
beta=2;B=5000;alpha=0.05;
b=wblrnd(eta,beta,[B,10]);%产生shape=(B,10)的韦布尔分布的随机数
etahat=sqrt(mean(b.^2,2));%计算每个样本对应的最大似然估计
seteta=sort(etahat);%把etahat从小到大排序
k=floor(B*alpha);%取整数部分
se=seteta(k);%提取相应位置的估计量
Rt0=exp(-(50/se)^2);

Original: https://blog.csdn.net/weixin_45775970/article/details/124785716
Author: weixin_961876584
Title: Bootstrap方法(参数和非参数Bootstrap方法)、Matlab算例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618402/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python中numpy的数组维度与切片

数组的索引与切片索引:获取数组中特定位置元素的过程切片:获取数组元素子集的过程最简单基本的切片 a = np.array([9,8,7,6,5]) a[2] #out 7 a…

人工智能 2023年6月11日
0059
基于GNN网络的session推荐模型（知识图谱技术在推荐场景的应用）

今天的博客主要参考了2019年AAAI的论文《Session-based Recommendation with Graph Neural Networks》和2020年SIGIR…

人工智能 2023年6月1日
0071
Incorporating Knowledge Graph Embeddings into Topic Modeling

摘要 (2017) 概率主题模型可用于从文档集合中提取低维主题。然而，这种没有任何人类知识的模型经常产生无法解释的主题。近年来，人们提出了一些基于知识的主题模型，但它们不能处…

人工智能 2023年6月1日
0081
Ubuntu下使用opencv完成图像程序编程操作

前言一、安装opencv 1.1安装环境 1.2下载OpenCV 1.3解压opencv包 1.4使用cmake安装opencv 1.5使用 make 创建编译 1.6安装 1….

人工智能 2023年7月18日
0055
史上最全 | 单目相机测距测速方法大盘点！

点击下方卡片，关注” 自动驾驶之心“公众号 ADAS巨卷干货，即可获取点击进入→ 后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文！…

人工智能 2023年7月28日
00104
Keil C51宏及宏函数的应用

宏（Macro）本质上就是代码片段，通过别名来使用。可简单地将宏编程理解为：按一定规则将文本定义为一个标志符，在编程时直接引用标志符替代这些文本进行编程，在程序编译时，再将标志符替…

人工智能 2023年6月27日
0059
python视频操作：下载、选取特定帧、批量导入ppt及硬字幕提取

本次主要记录一次组会的PPT分享，大略是寻找感兴趣的话题，在会上与大家共赏。寻找到youtube上青蛙刀圣1993的《用34分钟，解决困扰我多年的问题：基督，犹太，伊斯兰教的关系》…

人工智能 2023年5月25日
0088
神经网络参数量，计算量FLOPS，内存访问量MAC

神经网络参数量，计算量FLOPS，内存访问量MAC（Memory Access Cost）卷积层：假设输入特征图大小为: Hin x Win x M，卷积核大小KxK，N个卷积核…

人工智能 2023年7月13日
0056
Windows安装neo4j图数据库

重点说明：neo4j和jdk需要版本匹配 neo4j 4.0以上版本，只支持JDK11。本文neo4j版本4.4.8，JDK11 neo4j 3.5版本，配合使用JDK8 1. J…

人工智能 2023年6月1日
0071
知识表示与融入技术前沿进展及应用

作者｜李杨[1]，李晶阳[1]，牛广林[2]，唐呈光[1]，付彬[1]，余海洋[1]，孙健[1] 单位｜阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空…

人工智能 2023年6月10日
0088
文献知识图谱可视化_科学知识图谱论文很好发表吗？

科学知识图谱论文很好发表吗？文献计量与知识图谱应该是先学会，再应用。我曾经打过一个比方：似懂非懂做研究，就像醉酒的李白，什么都敢写(实际上，这是一些知识图谱论文的问题)。现在…

人工智能 2023年6月1日
0084
camera2 java 层框架分析和使用案例

android.hardware.camera2 package 综述 android.hardware.camera2 提供了访问android device上camera de…

人工智能 2023年5月26日
0070
3.1. Cross-validation（交叉验证）: evaluating estimator performance（一）

3.1. Cross-validation: evaluating estimator performance 一、简介这一段我反反复复修改了很多次，最后，我发现，我很难靠自己的…

人工智能 2023年6月18日
0071
anaconda安装tensorflow2，报错cannot import name ‘secure_write‘

Anaconda安装tensorflow2 我们在使用anaconda创建虚拟环境，安装tensorflow2及各种相关的依赖时，可能由于各种依赖的安装顺序不同，而导致出现各种奇怪…

人工智能 2023年5月25日
0061
【OpenCV图像处理10】图像直方图

文章目录十、图象直方图 * 1、图像直方图的基本概念 2、使用OpenCV统计直方图 3、使用OpenCV绘制直方图 4、使用掩膜的直方图 5、直方图均衡化十、图象直方图 1、…

人工智能 2023年6月20日
0069
生信学习——R语言练习题-初级（附详细答案解读）

题目目录 1. 打开 Rstudio 告诉我它的工作目录。 2. 新建6个向量，基于不同的数据类型。（重点是字符串，数值，逻辑值） 3. 告诉我在你打开的rstudio里面 get…

人工智能 2023年6月11日
0096

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Bootstrap方法(参数和非参数Bootstrap方法)、Matlab算例

估计量的标准误差的Bootstrap估计

步骤

估计量的均方误差的Bootstrap估计

例1

Bootstrap置信区间

步骤及原理

续例1

步骤

例2：

大家都在看