假设检验中两类错误及最小样本量计算

2023年7月16日下午10:03 • 人工智能 • 阅读 63

脚注: 以下内容均为个人总结，便于日后查阅。如有不对地方，还请及时指正。

案例：

在互联网等行业中，大家会对产品、排序模型、机制策略等模块不断迭代/创新，来提升整个App的用户体验。那么，怎样能够确认这些模块的迭代/创新是有效性的呢？

常见的就是创建一套AB实验系统，通过预先设立的实验生命周期，以及实验所需达到的最小样本量，结合严谨的去异常逻辑和统计学假设检验方法，最终获得一份实验报表，来衡量本次的迭代/创新是否置信有效。

通常会考察的效率指标如：用户下单时长是否降低？点击率(CTR)、用户交易总额(GMV)等是否有提升？下面我们就以一种新产品(E.G. 商品上展示点评分)是否提升点击率(CTR)为例，来复习关于 假设检验的相关知识。

文章目录

*
– 一、如何确定原假设和备择假设？
– 二、假设检验的两类错误: 拒真错误(α \alpha α) & 纳伪错误(β \beta β)
–
+ 2.1 两类错误的定义
+ 2.2 两类错误的几何理解
+
* 2.2.1 第二个疑问「公式推导视角」
* 2.2.2 第一个疑问「公式推导视角」
* 2.2.3 第二个疑问「几何视角」
* 2.2.4 两个疑问「逻辑理解视角」
+ 2.3 p p p 值是啥？
– 三、计算实验所需的最小样本量

一、如何确定原假设和备择假设？

一般把任意一个有关未知分布的假设称为统计假设或简称假设。以是否提升CTR为例，现将实验组CTR 真实值(为理论值存在但未知)记作:μ 1 \mu_1 μ1 , 对照组CTR 真实值(为理论值存在但未知)记作:μ 2 \mu_2 μ2 。实验组指的是App上展示新产品的组，反之即为对照组。
第一个统计假设: μ 1 − μ 2 = 0 \mu_1 – \mu_2 = 0 μ1 −μ2 =0，表示新产品对CTR没有提升，用H 0 H_0 H 0 表示；
第二个统计假设: μ 1 − μ 2 = δ ( > 0 ) \mu_1 – \mu_2 =\delta(> 0)μ1 −μ2 =δ(>0 )，表示新产品对CTR有提升，用H 1 H_1 H 1 表示。

至于在两个假设中用哪一个作为原假设，哪一个作为备择假设，是根据具体的目的和要求而定。假如我们的目的是希望能够从子样观察值得到对某一个陈述的强有力的支持，那么我们就把这一陈述的否定作为原假设，而把陈述本身作为备择假设。原因是我们用一个子样无法去证实一个陈述，但用一个子样去否定一个陈述的理由就比较充分。上面这个例子，希望通过向访问App的部分用户展示新产品来获得更多的点击数，但新产品效果未知，因此不可能会让较多的用户参与测试，也就是说无法拥有充分多的数据。为此，我们取”新产品对CTR没有提升”作为原假设，并以”新产品对CTR有提升”作为备择假设。

此外，还有一种说法是”将不想轻易被拒绝的假设”作为原假设，如：此处App之前固有的产品是经历过大数据/长时间考验的产品形态，并不容易轻易被拒绝。所以，我们取”新产品对CTR没有提升”作为原假设。

「Note」在我们这个问题里，母体分布的类型为已知，仅有一个或几个参数为未知，这种仅涉及母体分布的未知参数的统计假设，称为参数假设。而另一种只能对未知分布函数的类型或者他的某些特征提取某种假设，称为非参数假设。

二、假设检验的两类错误: 拒真错误( α \alpha α ) & 纳伪错误( β \beta β )

一提到假设检验，经常听到就是这两类错误，但它们具体描述的是什么内容？又是怎么计算的呢？在描述这个问题之前，我们先从课本上检索一些标准术语做内容铺垫。

统计假设检验问题的一般提法是：在给定备择假设H 1 H_1 H 1 下对原假设H 0 H_0 H 0 作出判断，若拒绝原假设H 0 H_0 H 0 ，那就意味着接受备择假设H 1 H_1 H 1 ，否则就接受原假设H 0 H_0 H 0 。简单地说，假设检验问题就是要在原假设H 0 H_0 H 0 和备择假设H 1 H_1 H 1 中作出拒绝哪一个、接受哪一个的判断。 这类假设检验问题常常简称为H 0 H_0 H 0 对H 1 H_1 H 1 的检验问题。

在H 0 H_0 H 0 对H 1 H_1 H 1 的检验问题中要作出某种判断，必须要从子样出发，制定一个法则，一旦子样的观察值x x x确定后，利用我们所构造的法则作出判断: 拒绝H 0 H_0 H 0 还是拒绝H 1 H_1 H 1 。 这种法则就称为H 0 H_0 H 0 对H 1 H_1 H 1 的一个检验法则，简称为一个检验。

这里所说的具体检验法则是：将子样空间Φ \Phi Φ划分成两个互不相交的子集C C C和C ∗ C^C ∗，使得当子样的观察值x ∈ C x \in C x ∈C时，我们拒绝原假设H 0 H_0 H 0 ；若x ∈ C ∗ x \in C^x ∈C ∗时，我们接受原假设H 0 H_0 H 0 。这样的划分构成一个准则，我们称这个子样空间的子集C C C为 检验的临界域(或拒绝域).

2.1 两类错误的定义

第一类错误: 当母体H 0 H_0 H 0 为真时，而子样的观察值落入C C C，按给定的检验法则，我们应当拒绝H 0 H_0 H 0 ，这种错误称为 第一类错误。其发生的概率称为 犯第一类错误的概率或称 拒真概率，通常记作α \alpha α.

P ( 拒绝 H 0 ∣ H 0 为真 ) = α P(拒绝H_0 | H_0为真) = \alpha P (拒绝H 0 ∣H 0 为真)=α

E.G. P ( x ∈ C ∣ μ 1 − μ 2 = 0 ) = α P(x \in C | \mu_1-\mu_2=0) = \alpha P (x ∈C ∣μ1 −μ2 =0 )=α.

第二类错误: 当母体H 1 H_1 H 1 为真时，而子样的观察值落入C ∗ C^C ∗，按给定的检验法则，我们应当接受H 0 H_0 H 0 ，这种错误称为 第二类错误。其发生的概率称为 犯第二类错误的概率或称 纳伪概率*，通常记作β \beta β.

P ( 接受 H 0 ∣ H 1 为真 ) = β P(接受H_0 | H_1为真) = \beta P (接受H 0 ∣H 1 为真)=β

E.G. P ( x ∈ C ∗ ∣ μ 1 − μ 2 = δ > 0 ) = β P(x \in C^* | \mu_1-\mu_2=\delta>0) = \beta P (x ∈C ∗∣μ1 −μ2 =δ>0 )=β.

; 2.2 两类错误的几何理解

对于给定的一对H 0 H_0 H 0 和H 1 H_1 H 1 ，总可找出许多临界域。所以总是希望能够找到某种临界域C C C，使得犯两类错误的概率α \alpha α与β \beta β都很小。这里大家可能经常又听到一个结论：”在子样本容量n n n固定时，要使α \alpha α和β \beta β都很小是不可能的”。这里埋藏了两个问题：

为什么说”固定子样本容量”情况下？
为什么找不到C C C，使得α \alpha α和β \beta β都很小？

2.2.1 第二个疑问「公式推导视角」

两组母体CTR均值μ 1 , μ 2 \mu_1, \mu_2 μ1 ,μ2 ，方差σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ1 2 ,σ2 2 均为理论值(存在但未知)，将上述公式表达的具体内容实例化：

通过试验，获得实验组和对照组两组样本的CTR
实验组：{ x 1 , x 2 , … , x n 1 } {x_1,x_2,\dots,x_{n1}}{x 1 ,x 2 ,…,x n 1 }，共n 1 n_1 n 1 个
对照组：{ y 1 , y 2 , … , y n 2 } {y_1,y_2,\dots,y_{n2}}{y 1 ,y 2 ,…,y n 2 }，共n 2 n_2 n 2 个
x ˉ \bar{x}x ˉ: 表示实验组(μ 1 \mu_1 μ1 )样本均值=Σ i = 1 n 1 x i n 1 \frac{\Sigma_{i=1}^{n1}x_i}{n1}n 1 Σi =1 n 1 x i

y ˉ \bar{y}y ˉ: 表示对照组(μ 2 \mu_2 μ2 )样本均值=Σ i = 1 n 2 y i n 2 \frac{\Sigma_{i=1}^{n2}y_i}{n2}n 2 Σi =1 n 2 y i

此处给出母体未知参数μ ≜ μ 1 − μ 2 \mu \triangleq \mu_1-\mu_2 μ≜μ1 −μ2 的估计μ ^ = x ˉ − y ˉ \hat\mu = \bar{x}-\bar{y}μ^=x ˉ−y ˉ，其服从正态分布：
μ ^ = x ˉ − y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) (1) \hat\mu = \bar{x}- \bar{y} \sim N(\mu_1-\mu_2, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{1}μ^=x ˉ−y ˉ∼N (μ1 −μ2 ,n 1 σ1 2 +n 2 σ2 2 )(1 )

下面先来计算 拒绝域C C C 和 接受域C ∗ C^*C ∗:

借助上 (1)式，即在H 0 ( μ = 0 ) H_0(\mu=0)H 0 (μ=0 )的情况下, 估计量x ˉ − y ˉ \bar{x} – \bar{y}x ˉ−y ˉ服从如下分布，
μ ^ = x ˉ − y ˉ ∼ N ( 0 , σ 1 2 n 1 + σ 2 2 n 2 ) \hat\mu=\bar{x} – \bar{y} \sim N(0, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} })μ^=x ˉ−y ˉ∼N (0 ,n 1 σ1 2 +n 2 σ2 2 )
已知上述正态分布，将其转换为标准正态分布(Z统计量)：
x ˉ − y ˉ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{\bar{x} – \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ∼N (0 ,1 )
求解拒绝域C C C如下:
P ( x ˉ − y ˉ σ 1 2 n 1 + σ 2 2 n 2 ∈ C ∣ μ 1 − μ 2 = 0 ) = α P(\frac{\bar{x}- \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \in C | \mu_1-\mu_2=0) = \alpha P (n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ∈C ∣μ1 −μ2 =0 )=α
⇒ \Rightarrow ⇒
P ( ∣ ( x ˉ − y ˉ ) σ 1 2 n 1 + σ 2 2 n 2 ∣ > μ 1 − α / 2 ) = α P(|\frac{(\bar{x}- \bar{y})}{\sqrt{\frac{\sigma_1^2} {n_1}+\frac{\sigma_2^2}{n_2}}}| > \mu_{1-\alpha/2}) = \alpha P (∣n 1 σ1 2 +n 2 σ2 2 (x ˉ−y ˉ)∣>μ1 −α/2 )=α
C = ( − ∞ , − μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ) ∪ ( μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 , + ∞ ) C = (-\infty, -\mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} ) \cup ( \mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, +\infty)C =(−∞,−μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 )∪(μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ,+∞)
C ∗ = [ − μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 , μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ] C^ = [-\mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}]C ∗=[−μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ,μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ]

根据已设定好 显著性水平α \alpha α、及上面求解出 接受域C ∗ C^*C ∗, 下面计算 犯第二类错误概率β \beta β：

借助上式 (1)，即在H 1 ( μ = δ ) H_1(\mu=\delta)H 1 (μ=δ)的情况下, 估计量x ˉ − y ˉ \bar{x} – \bar{y}x ˉ−y ˉ服从如下分布，
μ ^ = x ˉ − y ˉ ∼ N ( δ , σ 1 2 n 1 + σ 2 2 n 2 ) (2) \hat\mu=\bar{x} – \bar{y} \sim N(\delta, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{2}μ^=x ˉ−y ˉ∼N (δ,n 1 σ1 2 +n 2 σ2 2 )(2 )
已知:
P { μ ^ ∈ C ∗ ∣ μ 1 − μ 2 = δ } = β P{ \hat\mu \in C^ | \mu_1-\mu_2=\delta } = \beta P {μ^∈C ∗∣μ1 −μ2 =δ}=β
⇒ \Rightarrow ⇒
P { ∣ x ˉ − y ˉ ∣ ≤ μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ∣ μ 1 − μ 2 = δ } = β P{ |\bar{x}-\bar{y}| \leq \mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta } = \beta P {∣x ˉ−y ˉ∣≤μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ∣μ1 −μ2 =δ}=β
⇒ P { − μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ≤ x ˉ − y ˉ ≤ μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ∣ μ 1 − μ 2 = δ } = β \Rightarrow P{ -\mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } \leq \bar{x}-\bar{y} \leq \mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta } = \beta ⇒P {−μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ≤x ˉ−y ˉ≤μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ∣μ1 −μ2 =δ}=β
⇒ P { − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ≤ x ˉ − y ˉ − δ σ 1 2 n 1 + σ 2 2 n 2 ≤ μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 } = β \Rightarrow P{ -\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} } = \beta ⇒P {−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ≤n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ−δ≤μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ}=β
结合上式 (2)，可知：
x ˉ − y ˉ − δ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0,1)n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ−δ∼N (0 ,1 )
⇒ \Rightarrow ⇒对上式进行等价改写:
Φ ( μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) − Φ ( − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) = β (4) \Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) – \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}Φ(μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)−Φ(−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)=β(4 )
⇒ β \Rightarrow\beta ⇒β对应的 Z统计量区间为：
Z β ≜ [ − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 , μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ] (3) Z_{\beta}\triangleq[-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}, \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}] \tag{3}Z β≜−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ,μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ

对式(3)进行分析：
若样本量不变，α ↓ \alpha\downarrow α↓, μ 1 − α / 2 ↑ \mu_{1-\alpha/2}\uparrow μ1 −α/2 ↑, 则Z β ↑ Z_\beta\uparrow Z β↑ ⇒ \Rightarrow ⇒ β ↑ \beta\uparrow β↑
若样本量不变，α ↑ \alpha\uparrow α↑, μ 1 − α / 2 ↓ \mu_{1-\alpha/2}\downarrow μ1 −α/2 ↓, 则Z β ↓ Z_\beta\downarrow Z β↓ ⇒ \Rightarrow ⇒ β ↓ \beta\downarrow β↓
由此便解释：在控制样本容量的情况下，α , β \alpha, \beta α,β是此消彼长的关系。

2.2.2 第一个疑问「公式推导视角」

实际上，第一个疑问所延展出来的常听到的结论是：增大样本容量，可使得两类错误同时降低。就在我思考如何从数学公式的角度来解释 第一个疑问时，我傻了。原因是犯第一类错误的概率，一般都是在假设检验前就已经给定(如,α = 0.05 \alpha=0.05 α=0 .0 5). 因此，关于如何从公式推导方向来说明这个同时缩小两类错误的结论，还没有想到好的方法，可暂时借用下方(从网上找到别人的)逻辑视角来解释。

2.2.3 第二个疑问「几何视角」

我们分别以H 0 H_0 H 0 ,H 1 H_1 H 1 为真情况下，分别绘出两个分布曲线，详情如下图(忽略图片美观).

对下图做一些标记的解释：
(1) 图中在 LOWER-LINE与 UPPER-LINE两条线之间，对应的样本统计量取值为 接受域C C C
(2) 图中蓝色面积区域，表示：H 1 H_1 H 1 为真时，样本落入接受域C ∗ C^*C ∗内，即为 犯第二类错误的概率β \beta β
(3) 图中红色面积区域，表示：H 0 H_0 H 0 为真时，样本落入拒绝域C C C内，即为 犯第一类错误的概率α \alpha α

集中观察上图中 UPPLER_LINE这条直线：
(1)将这条线往右(→ \rightarrow →)移动，则α ↓ \alpha\downarrow α↓ ⇒ \Rightarrow ⇒ β ↑ \beta\uparrow β↑
(2)将这条线往左(← \leftarrow ←)移动，则α ↑ \alpha\uparrow α↑ ⇒ \Rightarrow ⇒ β ↓ \beta\downarrow β↓

; 2.2.4 两个疑问「逻辑理解视角」

转自链接：https://zhidao.baidu.com/question/1574553796509010100.html
(1)第一个疑问
由于拒真误差和纳伪误差都属于抽样误差，如果扩大了样本容量，那么抽样得到的值越接近于真实水平。换句话说，如果原假设是成立的，这个抽样算出来的值将非常接近真实的值，很大程度上不会出现在拒绝域，因而减小了弃真误差。取伪误差同理。

「Note」何为抽样误差？即因抽样的不合理导致出现和预期相违背的结论，比如第一类错误(拒真错误)，已知原假设是成立的，但是由于抽样的原因，例如抽样比较偏，赶巧抽到了边缘地带，抽样的结果算出来出现在拒绝域，因而拒绝了原假设。

(2)第二个疑问
从逻辑上理解的话，已知原假设成立，减小拒真错误，我的容错性更强，为了不让可能正确的值脱离接受域，我尽可能的扩大接受域，拒真确实小了。但当我的已知条件是原假设不成立的时候，抽样算出的错误值（纳伪错误）落入盲目扩大的”接受域”的可能性大大增强，即纳伪增大了。

2.3 p p p 值是啥？

p值定义：由检验统计量的观察值得出的原假设H 0 H_0 H 0 可被拒绝的最小显著性水平。

换句话说，即以当前子样观察值为 新拒绝域边界，来计算在当前 新拒绝域下发生的概率p p p。如果计算出来p < α p \lt \alpha p <α，说明当前子样观察值已经落入到给定拒绝域C C C内(具体见下例).

假设app上开发新产品，上线运行10天AB实验，最终收集到连续10天：实验组日CTR(x t i x_{t_i}x t i ) – 对照组日CTR(y t i y_{t_i}y t i ):

H 0 : μ 1 − μ 2 = 0 H_0: \mu_1 – \mu_2 = 0 H 0 :μ1 −μ2 =0 VS H 1 : μ 1 − μ 2 = δ > 0 H_1: \mu_1 – \mu_2 =\delta > 0 H 1 :μ1 −μ2 =δ>0
假设已知：σ 1 2 = σ 2 2 = 0.125 \sigma_1^2=\sigma_2^2=0.125 σ1 2 =σ2 2 =0 .1 2 5，n 1 = n 2 = 10 n_1=n_2=10 n 1 =n 2 =1 0，α = 0.05 \alpha=0.05 α=0 .0 5

观测值差为：x t i − y t i = { − 0.001 , 0.03 , 0.01 , 0.02 , 0.03 , 0.04 , 0.03 , 0.01 , 0.02 , 0.001 } x_{t_i}-y_{t_i} = {-0.001,0.03,0.01,0.02,0.03,0.04,0.03,0.01,0.02,0.001}x t i −y t i ={−0 .0 0 1 ,0 .0 3 ,0 .0 1 ,0 .0 2 ,0 .0 3 ,0 .0 4 ,0 .0 3 ,0 .0 1 ,0 .0 2 ,0 .0 0 1 }

构造检验统计量(H 0 H_0 H 0 成立)：
z = x ˉ − y ˉ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) z=\frac{\bar{x} – \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)z =n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ∼N (0 ,1 )
带入数据得到z的观察值：
z 0 = Σ x t i 10 − Σ y t i 10 0.125 10 + 0.125 10 = 2.403 z_0=\frac{\frac{\Sigma{x_{t_i}}}{10}- \frac{\Sigma{y_{t_i}}}{10}}{\sqrt{\frac{0.125}{10} + \frac{0.125}{10} }} = 2.403 z 0 =1 0 0 .1 2 5 +1 0 0 .1 2 5 1 0 Σx t i −1 0 Σy t i =2 .4 0 3
概率P ( z ≥ z 0 ) = p ( z ≥ 2.403 ) = 1 − Φ ( 2.403 ) = 0.022 P(z \geq z_0)=p(z \geq 2.403)=1-\Phi(2.403)=0.022 P (z ≥z 0 )=p (z ≥2 .4 0 3 )=1 −Φ(2 .4 0 3 )=0 .0 2 2

不难发现：结合当前实验获取的子样本，计算出统计量z z z的观察值z 0 = 2.403 > 1.96 z_0=2.403 > 1.96 z 0 =2 .4 0 3 >1 .9 6，刚好落在了拒绝域内(如下图)。所以，应拒绝原假设H 0 H_0 H 0 .

与此同时，计算出p p p值= 0.022 < 0.05 =0.022 < 0.05 =0 .0 2 2 <0 .0 5. 这就很快回到我们常见的”听说”：
(1)当p ≤ α ( 如： 0.05 ) p \leq \alpha(如：0.05)p ≤α(如：0 .0 5 )时，则在显著性水平为α \alpha α下，拒绝H 0 H_0 H 0 ;
(1)当p > α ( 如： 0.05 ) p > \alpha(如：0.05)p >α(如：0 .0 5 )时，则在显著性水平为α \alpha α下，接受H 0 H_0 H 0 .

「Note」这里简单提一下 假设检验的原理，即为小概率事件不发生。

我们回想一下：在H 0 H_0 H 0 成立情况下，通过定义犯第一类错误的概率α ( = 0.05 ) \alpha(=0.05)α(=0 .0 5 )，计算出拒绝域C C C。那为什么可以通过子样观察值x x x是否落入拒绝域C C C就可以判断拒绝 or 接受H 0 H_0 H 0 呢？

因为我们认为当H 0 H_0 H 0 成立情况下，样本能够落入到拒绝域C C C内的概率仅为0.05，这是一个小概率事件，认为在我们抽样子样时是不可能出现，一旦出现，我们甘愿冒着犯第一类错误的风险也要拒绝H 0 H_0 H 0 .

; 三、计算实验所需的最小样本量

像比较大的互联网公司，它们的日浏览用户体量都比较大，所以几乎是不太关注 实验所需的最小样本量，当然我个人觉得还是需要的，防范于未然嘛。但在很多类似消费频次比较低(如：酒店、旅游、保养车等App，该问题就比较突出，因为日UV体量不是很大，这个时候实验是否置信有效？首先得关注是否达到实验所需的最小样本量。

针对不同的指标，它所服从的分布也将不同，计算最小样本量的推导也会不同，最终得到的公式也会有所差异。所以，下面会用一个实例来做最小样本量计算过程演示，其它均可类似，方法相同。

以上文中 “新产品是否能够提升CTR”为例，建立假设检验如下：

H 0 : μ 1 − μ 2 = 0 H_0: \mu_1 – \mu_2 = 0 H 0 :μ1 −μ2 =0 VS H 1 : μ 1 − μ 2 = δ > 0 H_1: \mu_1 – \mu_2 =\delta > 0 H 1 :μ1 −μ2 =δ>0

⇒ \Rightarrow ⇒(推导过程基本在上方给出)借助上(4)式

Φ ( μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) − Φ ( − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) = β (4) \Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) – \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}Φ(μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)−Φ(−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)=β(4 )

其中δ > 0 \delta>0 δ>0, 所以(4)式中第二项接近于0，再利用标准正态分布1 − β 1-\beta 1 −β分位数μ 1 − β \mu_{1-\beta}μ1 −β, 可把上式改写为：

− μ 1 − α / 2 + δ σ 1 2 n 1 + σ 2 2 n 2 = μ 1 − β -\mu_{1-\alpha/2}+\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} = \mu_{1-\beta}−μ1 −α/2 +n 1 σ1 2 +n 2 σ2 2 δ=μ1 −β

⇒ \Rightarrow ⇒结合实验组&对照组分流比例一致(即n 1 = n 2 n_1=n_2 n 1 =n 2 )，则可计算出最小样本量为:
n ≈ ( μ 1 − α 2 + μ 1 − β ) 2 ∗ ( σ 1 2 + σ 2 2 ) δ 2 n \approx \frac{(\mu_{1-\frac{\alpha}{2}}+\mu_{1-\beta})^2*(\sigma_1^2 + \sigma_2^2)}{\delta^2}n ≈δ2 (μ1 −2 α+μ1 −β)2 ∗(σ1 2 +σ2 2 )

在实践中，上面公式中的每一项从何而来？

α \alpha α: 一般设置为{0.01,0.05, 0.1}, 设置越大，拒绝域越宽，实验越容易显著。结合具体场景来设定。

β \beta β: 一般设置为{0.1, 0.2}

σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ1 2 ,σ2 2 : 公式中为母体方差，实践中我们均以过去某段时间样本方差来近似。这里有人会说，对照组方差可以近似，实验组还没有开始实验，我怎么知道它的样本方差呢？其实，因为这里分流比例一致，就会近似认为两组样本方差也相同。

δ \delta δ: 这里δ \delta δ，实际上是整个平台的一个预期，即认为较之前版本提升多少才认为达到目标。

其实有关 假设检验内容，在学校学习的时候，对于一些结论就很记忆，但究其原因，其实细想的不多。正好一个同学前一段时间来问我相关的内容，我发现自己其实也忘了很多。抽点时间整理一下，以便日后查阅。

参考文献
[1]魏宗舒等.概率论与数理统计教程.高等教育出版社.

[2]茆时松,吕晓玲等.数理统计学.中国人民大学出版社(第2版).

Original: https://blog.csdn.net/Queen0911/article/details/121718236
Author: 走过了笔尖
Title: 假设检验中两类错误及最小样本量计算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697314/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

奇迹mu 架设过程中可能会出现的问题及解决办法

**通常我们在架设奇迹的时候，可能会遇见这种问题那种问题，很多用户都不知道该如何解决，今天我们就来系统的说明一下一些常见的问题，帮助遇见这些问题的用户理清一个架设的思路，更清楚的判…

人工智能 2023年6月27日
00100
基于神经网络的微博情绪分类

本文仅供参考目录任务说明一、基于 Bert 的文本表示及文本分类方法二、实验原理三、具体步骤 1.构建句子向量 1.1导入库 1.2加载bert模型 1.3读取数据 1….

人工智能 2023年7月1日
0078
MXNet的开发背景是什么？有哪些公司或机构支持和使用它

开发背景 MXNet是一个开源的深度学习框架，由才华横溢的研究人员和工程师合作开发。它最初由华盛顿大学的计算机科学与工程系教授李沐等人领导的团队开发。MXNet的目标是提供一个高效…

人工智能 2024年1月1日
0037
【干货】一文搞懂java+neo4j

一.neo4j安装 1.安装jdk，这个就不讲了，版本为1.8 2.安装neo4j 官网：https://neo4j.com/download-center/ 区分为社区版和企业版…

人工智能 2023年6月1日
0084
Python中的图像处理（第九章）Python图像增强

Python中的图像处理（第九章）Python图像增强前言一. Python准备二. Python仿真三. 小结前言随着人工智能研究的不断兴起，Python的应用也在不…

人工智能 2023年6月19日
0088
Pytorch中dilation（Conv2d）参数详解

目录一、Conv2d 二、Conv2d中的dilation参数一、Conv2d 首先我们看一下Pytorch中的Conv2d的对应函数（Tensor通道排列顺序是：[batch…

人工智能 2023年7月20日
0071
【文献阅读】Adaptive Quantitative Trading: An Imitative Deep Reinforcement Learning Approach

1 解决了什么问题？目前强化学习方法在 QT 中应用主要有两大问题：金融财务数据具有高噪声、非平稳的特点；由于存在市场摩擦，agent 需要平衡 exploration 和 …

人工智能 2023年7月17日
0048
已解决（paddleocr库安装报错） error: subprocess-exited-with-error × Running setup.py install for python-Leve

已解决（paddleocr库安装报错） error: subprocess-exited-with-error× Running setup.py install for pyth…

人工智能 2023年6月16日
00126
Python中查询缺失值的4种方法

人生苦短，快学Python！在我们日常接触到的Python中，狭义的缺失值一般指DataFrame中的 NaN。广义的话，可以分为三种。缺失值：在Pandas中的缺失值有三种：n…

人工智能 2023年7月18日
0096
PPYOLOE

PP-YOLOE是基于PP-YOLOv2的单阶段Anchor-free模型，超越了多种流行的yolo模型。PP-YOLOE有一系列的模型，即s/m/l/x，可以通过width mu…

人工智能 2023年7月13日
0074
Anaconda完全卸载教程（Windows10系统）

前言：任何软件在卸载的时候，不要直接用目录下自带的uninstall.exe卸载程序，这样子肯定是卸载不干净滴。最近在做项目用到了anaconda环境，做完就卸载anaconda，…

人工智能 2023年7月5日
00100
Python 基础科学模块包以及数据可视化

基础科学模块包前言 Numpy * 基本操作相关API 实际应用 Pandas 数据可视化 * Tensorboard Matplotlib – plot(x, y…

人工智能 2023年5月26日
0078
yolov5深度剖析+源码debug级讲解系列（三）yolov5 head源码解析

前言 2021年8月19日订正部分原理在上次的文章中我们解析了backbone网络的构建源码，在这篇中我们针对yolo.py剩余的部分进行debug解析。如果没看过之前文章的小伙…

人工智能 2023年7月12日
0070
深度学习模型加速方法

1、从网络结构上进行优化2、从计算量上进行优化3、硬件上优化 1、使用1 _1卷积核代替全连接层可以减小参数2、使用多个小卷积核代替一个大卷积核，可以达到相同的感受野，同时减小计算…

人工智能 2023年6月16日
0069
「PyTorch自然语言处理系列」6. 自然语言处理的序列模型

来源 | Natural Language Processing with PyTorch 作者 | Rao，McMahan 译者 | Liangchu 校对 | gongyoul…

人工智能 2023年5月30日
0082
ros-noetic三个slam包-安装

下面安装cartographer好像需要python3，我觉得最好默认就是python3，之前我是没注意的 sudo apt-get install ros-noetic-navi…

人工智能 2023年6月11日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31