脚注: 以下内容均为个人总结,便于日后查阅。如有不对地方,还请及时指正。
案例:
在互联网等行业中,大家会对产品、排序模型、机制策略等模块不断迭代/创新,来提升整个App的用户体验。那么,怎样能够确认这些模块的迭代/创新是有效性的呢?
常见的就是创建一套AB实验系统,通过预先设立的实验生命周期,以及实验所需达到的最小样本量,结合严谨的去异常逻辑和统计学假设检验方法,最终获得一份实验报表,来衡量本次的迭代/创新是否置信有效。
通常会考察的效率指标如:用户下单时长是否降低?点击率(CTR)、 用户交易总额(GMV)等是否有提升?下面我们就以一种新产品(E.G. 商品上展示点评分)是否提升点击率(CTR)为例,来复习关于 假设检验的相关知识。
文章目录
*
– 一、如何确定原假设和备择假设?
– 二、假设检验的两类错误: 拒真错误(α \alpha α) & 纳伪错误(β \beta β)
–
+ 2.1 两类错误的定义
+ 2.2 两类错误的几何理解
+
* 2.2.1 第二个疑问「公式推导视角」
* 2.2.2 第一个疑问「公式推导视角」
* 2.2.3 第二个疑问「几何视角」
* 2.2.4 两个疑问「逻辑理解视角」
+ 2.3 p p p 值是啥?
– 三、计算实验所需的最小样本量
一、如何确定原假设和备择假设?
一般把任意一个有关未知分布的假设称为统计假设或简称假设。以是否提升CTR为例,现将实验组CTR 真实值(为理论值存在但未知)
记作:μ 1 \mu_1 μ1 , 对照组CTR 真实值(为理论值存在但未知)
记作:μ 2 \mu_2 μ2 。实验组指的是App上展示新产品的组,反之即为对照组。
第一个统计假设: μ 1 − μ 2 = 0 \mu_1 – \mu_2 = 0 μ1 −μ2 =0,表示新产品对CTR没有提升,用H 0 H_0 H 0 表示;
第二个统计假设: μ 1 − μ 2 = δ ( > 0 ) \mu_1 – \mu_2 =\delta(> 0)μ1 −μ2 =δ(>0 ),表示新产品对CTR有提升,用H 1 H_1 H 1 表示。
至于在两个假设中用哪一个作为原假设,哪一个作为备择假设,是根据具体的目的和要求而定。假如我们的目的是希望能够从子样观察值得到对某一个陈述的强有力的支持,那么我们就把这一陈述的否定作为原假设,而把陈述本身作为备择假设。原因是我们用一个子样无法去证实一个陈述,但用一个子样去否定一个陈述的理由就比较充分。上面这个例子,希望通过向访问App的部分用户展示新产品来获得更多的点击数,但新产品效果未知,因此不可能会让较多的用户参与测试,也就是说无法拥有充分多的数据。为此,我们取”新产品对CTR没有提升”作为原假设,并以”新产品对CTR有提升”作为备择假设。
此外,还有一种说法是”将不想轻易被拒绝的假设”作为原假设,如:此处App之前固有的产品是经历过大数据/长时间考验的产品形态,并不容易轻易被拒绝。所以,我们取”新产品对CTR没有提升”作为原假设。
「Note」在我们这个问题里,母体分布的类型为已知,仅有一个或几个参数为未知,这种仅涉及母体分布的未知参数的统计假设,称为参数假设。而另一种只能对未知分布函数的类型或者他的某些特征提取某种假设,称为非参数假设。
二、假设检验的两类错误: 拒真错误( α \alpha α ) & 纳伪错误( β \beta β )
一提到假设检验,经常听到就是这两类错误,但它们具体描述的是什么内容?又是怎么计算的呢?在描述这个问题之前,我们先从课本上检索一些标准术语做内容铺垫。
统计假设检验问题的一般提法是:在给定备择假设H 1 H_1 H 1 下对原假设H 0 H_0 H 0 作出判断,若拒绝原假设H 0 H_0 H 0 ,那就意味着接受备择假设H 1 H_1 H 1 ,否则就接受原假设H 0 H_0 H 0 。简单地说,假设检验问题就是要在原假设H 0 H_0 H 0 和备择假设H 1 H_1 H 1 中作出拒绝哪一个、接受哪一个的判断。 这类假设检验问题常常简称为H 0 H_0 H 0 对H 1 H_1 H 1 的检验问题。
在H 0 H_0 H 0 对H 1 H_1 H 1 的检验问题中要作出某种判断,必须要从子样出发,制定一个法则,一旦子样的观察值x x x确定后,利用我们所构造的法则作出判断: 拒绝H 0 H_0 H 0 还是拒绝H 1 H_1 H 1 。 这种法则就称为H 0 H_0 H 0 对H 1 H_1 H 1 的一个检验法则,简称为一个检验。
这里所说的具体检验法则是:将子样空间Φ \Phi Φ划分成两个互不相交的子集C C C和C ∗ C^C ∗,使得当子样的观察值x ∈ C x \in C x ∈C时,我们拒绝原假设H 0 H_0 H 0 ;若x ∈ C ∗ x \in C^x ∈C ∗时,我们接受原假设H 0 H_0 H 0 。这样的划分构成一个准则,我们称这个子样空间的子集C C C为 检验的临界域(或拒绝域).
2.1 两类错误的定义
第一类错误: 当母体H 0 H_0 H 0 为真时,而子样的观察值落入C C C,按给定的检验法则,我们应当拒绝H 0 H_0 H 0 ,这种错误称为 第一类错误。其发生的概率称为 犯第一类错误的概率或称 拒真概率,通常记作α \alpha α.
P ( 拒 绝 H 0 ∣ H 0 为 真 ) = α P(拒绝H_0 | H_0为真) = \alpha P (拒绝H 0 ∣H 0 为真)=α
E.G. P ( x ∈ C ∣ μ 1 − μ 2 = 0 ) = α P(x \in C | \mu_1-\mu_2=0) = \alpha P (x ∈C ∣μ1 −μ2 =0 )=α.
第二类错误: 当母体H 1 H_1 H 1 为真时,而子样的观察值落入C ∗ C^C ∗,按给定的检验法则,我们应当接受H 0 H_0 H 0 ,这种错误称为 第二类错误。其发生的概率称为 犯第二类错误的概率或称 纳伪概率*,通常记作β \beta β.
P ( 接 受 H 0 ∣ H 1 为 真 ) = β P(接受H_0 | H_1为真) = \beta P (接受H 0 ∣H 1 为真)=β
E.G. P ( x ∈ C ∗ ∣ μ 1 − μ 2 = δ > 0 ) = β P(x \in C^* | \mu_1-\mu_2=\delta>0) = \beta P (x ∈C ∗∣μ1 −μ2 =δ>0 )=β.
; 2.2 两类错误的几何理解
对于给定的一对H 0 H_0 H 0 和H 1 H_1 H 1 ,总可找出许多临界域。所以总是希望能够找到某种临界域C C C,使得犯两类错误的概率α \alpha α与β \beta β都很小。这里大家可能经常又听到一个结论:”在子样本容量n n n固定时,要使α \alpha α和β \beta β都很小是不可能的”。这里埋藏了两个问题:
- 为什么说”固定子样本容量”情况下?
- 为什么找不到C C C,使得α \alpha α和β \beta β都很小?
2.2.1 第二个疑问「公式推导视角」
两组母体CTR均值μ 1 , μ 2 \mu_1, \mu_2 μ1 ,μ2 ,方差σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ1 2 ,σ2 2 均为理论值(存在但未知),将上述公式表达的具体内容实例化:
通过试验,获得实验组和对照组两组样本的CTR
实验组:{ x 1 , x 2 , … , x n 1 } {x_1,x_2,\dots,x_{n1}}{x 1 ,x 2 ,…,x n 1 },共n 1 n_1 n 1 个
对照组:{ y 1 , y 2 , … , y n 2 } {y_1,y_2,\dots,y_{n2}}{y 1 ,y 2 ,…,y n 2 },共n 2 n_2 n 2 个
x ˉ \bar{x}x ˉ: 表示实验组(μ 1 \mu_1 μ1 )样本均值=Σ i = 1 n 1 x i n 1 \frac{\Sigma_{i=1}^{n1}x_i}{n1}n 1 Σi =1 n 1 x i
y ˉ \bar{y}y ˉ: 表示对照组(μ 2 \mu_2 μ2 )样本均值=Σ i = 1 n 2 y i n 2 \frac{\Sigma_{i=1}^{n2}y_i}{n2}n 2 Σi =1 n 2 y i
此处给出母体未知参数μ ≜ μ 1 − μ 2 \mu \triangleq \mu_1-\mu_2 μ≜μ1 −μ2 的估计μ ^ = x ˉ − y ˉ \hat\mu = \bar{x}-\bar{y}μ^=x ˉ−y ˉ,其服从正态分布:
μ ^ = x ˉ − y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) (1) \hat\mu = \bar{x}- \bar{y} \sim N(\mu_1-\mu_2, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{1}μ^=x ˉ−y ˉ∼N (μ1 −μ2 ,n 1 σ1 2 +n 2 σ2 2 )(1 )
下面先来计算 拒绝域
C C C 和 接受域
C ∗ C^*C ∗:
借助上
(1)
式,即在H 0 ( μ = 0 ) H_0(\mu=0)H 0 (μ=0 )的情况下, 估计量x ˉ − y ˉ \bar{x} – \bar{y}x ˉ−y ˉ服从如下分布,
μ ^ = x ˉ − y ˉ ∼ N ( 0 , σ 1 2 n 1 + σ 2 2 n 2 ) \hat\mu=\bar{x} – \bar{y} \sim N(0, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} })μ^=x ˉ−y ˉ∼N (0 ,n 1 σ1 2 +n 2 σ2 2 )
已知上述正态分布,将其转换为标准正态分布(Z统计量
):
x ˉ − y ˉ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{\bar{x} – \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ∼N (0 ,1 )
求解拒绝域C C C如下:
P ( x ˉ − y ˉ σ 1 2 n 1 + σ 2 2 n 2 ∈ C ∣ μ 1 − μ 2 = 0 ) = α P(\frac{\bar{x}- \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \in C | \mu_1-\mu_2=0) = \alpha P (n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ∈C ∣μ1 −μ2 =0 )=α
⇒ \Rightarrow ⇒
P ( ∣ ( x ˉ − y ˉ ) σ 1 2 n 1 + σ 2 2 n 2 ∣ > μ 1 − α / 2 ) = α P(|\frac{(\bar{x}- \bar{y})}{\sqrt{\frac{\sigma_1^2} {n_1}+\frac{\sigma_2^2}{n_2}}}| > \mu_{1-\alpha/2}) = \alpha P (∣n 1 σ1 2 +n 2 σ2 2 (x ˉ−y ˉ)∣>μ1 −α/2 )=α
C = ( − ∞ , − μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ) ∪ ( μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 , + ∞ ) C = (-\infty, -\mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} ) \cup ( \mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, +\infty)C =(−∞,−μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 )∪(μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ,+∞)
C ∗ = [ − μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 , μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ] C^ = [-\mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}]C ∗=[−μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ,μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ]
根据已设定好 显著性水平
α \alpha α、及上面求解出 接受域
C ∗ C^*C ∗, 下面计算 犯第二类错误概率
β \beta β:
借助上式
(1)
,即在H 1 ( μ = δ ) H_1(\mu=\delta)H 1 (μ=δ)的情况下, 估计量x ˉ − y ˉ \bar{x} – \bar{y}x ˉ−y ˉ服从如下分布,
μ ^ = x ˉ − y ˉ ∼ N ( δ , σ 1 2 n 1 + σ 2 2 n 2 ) (2) \hat\mu=\bar{x} – \bar{y} \sim N(\delta, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{2}μ^=x ˉ−y ˉ∼N (δ,n 1 σ1 2 +n 2 σ2 2 )(2 )
已知:
P { μ ^ ∈ C ∗ ∣ μ 1 − μ 2 = δ } = β P{ \hat\mu \in C^ | \mu_1-\mu_2=\delta } = \beta P {μ^∈C ∗∣μ1 −μ2 =δ}=β
⇒ \Rightarrow ⇒
P { ∣ x ˉ − y ˉ ∣ ≤ μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ∣ μ 1 − μ 2 = δ } = β P{ |\bar{x}-\bar{y}| \leq \mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta } = \beta P {∣x ˉ−y ˉ∣≤μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ∣μ1 −μ2 =δ}=β
⇒ P { − μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ≤ x ˉ − y ˉ ≤ μ 1 − α / 2 ∗ σ 1 2 n 1 + σ 2 2 n 2 ∣ μ 1 − μ 2 = δ } = β \Rightarrow P{ -\mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } \leq \bar{x}-\bar{y} \leq \mu_{1-\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta } = \beta ⇒P {−μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ≤x ˉ−y ˉ≤μ1 −α/2 ∗n 1 σ1 2 +n 2 σ2 2 ∣μ1 −μ2 =δ}=β
⇒ P { − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ≤ x ˉ − y ˉ − δ σ 1 2 n 1 + σ 2 2 n 2 ≤ μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 } = β \Rightarrow P{ -\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} } = \beta ⇒P {−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ≤n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ−δ≤μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ}=β
结合上式(2)
,可知:
x ˉ − y ˉ − δ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0,1)n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ−δ∼N (0 ,1 )
⇒ \Rightarrow ⇒对上式进行等价改写:
Φ ( μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) − Φ ( − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) = β (4) \Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) – \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}Φ(μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)−Φ(−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)=β(4 )
⇒ β \Rightarrow\beta ⇒β对应的Z
统计量区间为:
Z β ≜ [ − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 , μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ] (3) Z_{\beta}\triangleq[-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}, \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}] \tag{3}Z β≜−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ,μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ
对式(3)进行分析:
若样本量不变,α ↓ \alpha\downarrow α↓, μ 1 − α / 2 ↑ \mu_{1-\alpha/2}\uparrow μ1 −α/2 ↑, 则Z β ↑ Z_\beta\uparrow Z β↑ ⇒ \Rightarrow ⇒ β ↑ \beta\uparrow β↑
若样本量不变,α ↑ \alpha\uparrow α↑, μ 1 − α / 2 ↓ \mu_{1-\alpha/2}\downarrow μ1 −α/2 ↓, 则Z β ↓ Z_\beta\downarrow Z β↓ ⇒ \Rightarrow ⇒ β ↓ \beta\downarrow β↓
由此便解释:在控制样本容量的情况下,α , β \alpha, \beta α,β是此消彼长的关系。
2.2.2 第一个疑问「公式推导视角」
实际上,第一个疑问所延展出来的常听到的结论是:增大样本容量,可使得两类错误同时降低。就在我思考如何从数学公式的角度来解释 第一个疑问
时,我傻了。原因是犯第一类错误的概率,一般都是在假设检验前就已经给定(如,α = 0.05 \alpha=0.05 α=0 .0 5). 因此,关于如何从公式推导方向来说明这个同时缩小两类错误的结论,还没有想到好的方法,可暂时借用下方(从网上找到别人的
)逻辑视角来解释。
2.2.3 第二个疑问「几何视角」
我们分别以H 0 H_0 H 0 ,H 1 H_1 H 1 为真情况下,分别绘出两个分布曲线,详情如下图(忽略图片美观).
对下图做一些标记的解释:
(1) 图中在LOWER-LINE
与UPPER-LINE
两条线之间,对应的样本统计量取值为接受域
C C C
(2) 图中蓝色面积区域,表示:H 1 H_1 H 1 为真时,样本落入接受域C ∗ C^*C ∗内,即为犯第二类错误的概率
β \beta β
(3) 图中红色面积区域,表示:H 0 H_0 H 0 为真时,样本落入拒绝域C C C内,即为犯第一类错误的概率
α \alpha α
集中观察上图中 UPPLER_LINE
这条直线:
(1)将这条线往右(→ \rightarrow →)移动,则α ↓ \alpha\downarrow α↓ ⇒ \Rightarrow ⇒ β ↑ \beta\uparrow β↑
(2)将这条线往左(← \leftarrow ←)移动,则α ↑ \alpha\uparrow α↑ ⇒ \Rightarrow ⇒ β ↓ \beta\downarrow β↓
; 2.2.4 两个疑问「逻辑理解视角」
转自链接:https://zhidao.baidu.com/question/1574553796509010100.html
(1)第一个疑问
由于拒真误差和纳伪误差都属于抽样误差,如果扩大了样本容量,那么抽样得到的值越接近于真实水平。换句话说,如果原假设是成立的,这个抽样算出来的值将非常接近真实的值,很大程度上不会出现在拒绝域,因而减小了弃真误差。取伪误差同理。
「Note」何为抽样误差?即因抽样的不合理导致出现和预期相违背的结论,比如第一类错误(拒真错误),已知原假设是成立的,但是由于抽样的原因,例如抽样比较偏,赶巧抽到了边缘地带,抽样的结果算出来出现在拒绝域,因而拒绝了原假设。
(2)第二个疑问
从逻辑上理解的话,已知原假设成立,减小拒真错误,我的容错性更强,为了不让可能正确的值脱离接受域,我尽可能的扩大接受域,拒真确实小了。但当我的已知条件是原假设不成立的时候,抽样算出的错误值(纳伪错误)落入盲目扩大的”接受域”的可能性大大增强,即纳伪增大了。
2.3 p p p 值是啥?
p值定义
:由检验统计量的观察值得出的原假设H 0 H_0 H 0 可被拒绝的最小显著性水平。
换句话说,即以当前子样观察值为 新拒绝域边界
,来计算在当前 新拒绝域
下发生的概率p p p。如果计算出来p < α p \lt \alpha p <α,说明当前子样观察值已经落入到给定拒绝域C C C内(具体见下例).
假设app上开发新产品,上线运行10天AB实验,最终收集到连续10天:实验组日CTR(x t i x_{t_i}x t i ) – 对照组日CTR(y t i y_{t_i}y t i ):
H 0 : μ 1 − μ 2 = 0 H_0: \mu_1 – \mu_2 = 0 H 0 :μ1 −μ2 =0 VS H 1 : μ 1 − μ 2 = δ > 0 H_1: \mu_1 – \mu_2 =\delta > 0 H 1 :μ1 −μ2 =δ>0
假设已知:σ 1 2 = σ 2 2 = 0.125 \sigma_1^2=\sigma_2^2=0.125 σ1 2 =σ2 2 =0 .1 2 5,n 1 = n 2 = 10 n_1=n_2=10 n 1 =n 2 =1 0,α = 0.05 \alpha=0.05 α=0 .0 5
观测值差为:x t i − y t i = { − 0.001 , 0.03 , 0.01 , 0.02 , 0.03 , 0.04 , 0.03 , 0.01 , 0.02 , 0.001 } x_{t_i}-y_{t_i} = {-0.001,0.03,0.01,0.02,0.03,0.04,0.03,0.01,0.02,0.001}x t i −y t i ={−0 .0 0 1 ,0 .0 3 ,0 .0 1 ,0 .0 2 ,0 .0 3 ,0 .0 4 ,0 .0 3 ,0 .0 1 ,0 .0 2 ,0 .0 0 1 }
构造检验统计量(H 0 H_0 H 0 成立):
z = x ˉ − y ˉ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) z=\frac{\bar{x} – \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)z =n 1 σ1 2 +n 2 σ2 2 x ˉ−y ˉ∼N (0 ,1 )
带入数据得到z的观察值:
z 0 = Σ x t i 10 − Σ y t i 10 0.125 10 + 0.125 10 = 2.403 z_0=\frac{\frac{\Sigma{x_{t_i}}}{10}- \frac{\Sigma{y_{t_i}}}{10}}{\sqrt{\frac{0.125}{10} + \frac{0.125}{10} }} = 2.403 z 0 =1 0 0 .1 2 5 +1 0 0 .1 2 5 1 0 Σx t i −1 0 Σy t i =2 .4 0 3
概率P ( z ≥ z 0 ) = p ( z ≥ 2.403 ) = 1 − Φ ( 2.403 ) = 0.022 P(z \geq z_0)=p(z \geq 2.403)=1-\Phi(2.403)=0.022 P (z ≥z 0 )=p (z ≥2 .4 0 3 )=1 −Φ(2 .4 0 3 )=0 .0 2 2
不难发现:结合当前实验获取的子样本,计算出统计量z z z的观察值z 0 = 2.403 > 1.96 z_0=2.403 > 1.96 z 0 =2 .4 0 3 >1 .9 6,刚好落在了拒绝域内(如下图)。所以,应拒绝原假设H 0 H_0 H 0 .
与此同时,计算出p p p值= 0.022 < 0.05 =0.022 < 0.05 =0 .0 2 2 <0 .0 5. 这就很快回到我们常见的”听说”:
(1)当p ≤ α ( 如 : 0.05 ) p \leq \alpha(如:0.05)p ≤α(如:0 .0 5 )时,则在显著性水平为α \alpha α下,拒绝H 0 H_0 H 0 ;
(1)当p > α ( 如 : 0.05 ) p > \alpha(如:0.05)p >α(如:0 .0 5 )时,则在显著性水平为α \alpha α下,接受H 0 H_0 H 0 .
「Note」这里简单提一下
假设检验的原理
,即为小概率事件不发生。
我们回想一下:在H 0 H_0 H 0 成立情况下,通过定义犯第一类错误的概率α ( = 0.05 ) \alpha(=0.05)α(=0 .0 5 ),计算出拒绝域C C C。那为什么可以通过子样观察值x x x是否落入拒绝域C C C就可以判断拒绝 or 接受H 0 H_0 H 0 呢?
因为我们认为当H 0 H_0 H 0 成立情况下,样本能够落入到拒绝域C C C内的概率仅为0.05,这是一个小概率事件,认为在我们抽样子样时是不可能出现,一旦出现,我们甘愿冒着犯第一类错误的风险也要拒绝H 0 H_0 H 0 .
; 三、计算实验所需的最小样本量
像比较大的互联网公司,它们的日浏览用户体量都比较大,所以几乎是不太关注 实验所需的最小样本量
,当然我个人觉得还是需要的,防范于未然嘛。但在很多类似消费频次比较低(如:酒店、旅游、保养车等App,该问题就比较突出,因为日UV体量不是很大,这个时候实验是否置信有效?首先得关注是否达到实验所需的最小样本量。
针对不同的指标,它所服从的分布也将不同,计算最小样本量的推导也会不同,最终得到的公式也会有所差异。所以,下面会用一个实例来做最小样本量计算过程演示,其它均可类似,方法相同。
以上文中 “新产品是否能够提升CTR”为例,建立假设检验如下:
H 0 : μ 1 − μ 2 = 0 H_0: \mu_1 – \mu_2 = 0 H 0 :μ1 −μ2 =0 VS H 1 : μ 1 − μ 2 = δ > 0 H_1: \mu_1 – \mu_2 =\delta > 0 H 1 :μ1 −μ2 =δ>0
⇒ \Rightarrow ⇒(推导过程基本在上方给出)借助上(4)式
Φ ( μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) − Φ ( − μ 1 − α / 2 − δ σ 1 2 n 1 + σ 2 2 n 2 ) = β (4) \Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) – \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}Φ(μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)−Φ(−μ1 −α/2 −n 1 σ1 2 +n 2 σ2 2 δ)=β(4 )
其中δ > 0 \delta>0 δ>0, 所以(4)式中第二项接近于0,再利用标准正态分布1 − β 1-\beta 1 −β分位数μ 1 − β \mu_{1-\beta}μ1 −β, 可把上式改写为:
− μ 1 − α / 2 + δ σ 1 2 n 1 + σ 2 2 n 2 = μ 1 − β -\mu_{1-\alpha/2}+\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} = \mu_{1-\beta}−μ1 −α/2 +n 1 σ1 2 +n 2 σ2 2 δ=μ1 −β
⇒ \Rightarrow ⇒结合实验组&对照组分流比例一致(即n 1 = n 2 n_1=n_2 n 1 =n 2 ),则可计算出最小样本量为:
n ≈ ( μ 1 − α 2 + μ 1 − β ) 2 ∗ ( σ 1 2 + σ 2 2 ) δ 2 n \approx \frac{(\mu_{1-\frac{\alpha}{2}}+\mu_{1-\beta})^2*(\sigma_1^2 + \sigma_2^2)}{\delta^2}n ≈δ2 (μ1 −2 α+μ1 −β)2 ∗(σ1 2 +σ2 2 )
在实践中,上面公式中的每一项从何而来?
α \alpha α: 一般设置为{0.01,0.05, 0.1}, 设置越大,拒绝域越宽,实验越容易显著。结合具体场景来设定。
β \beta β: 一般设置为{0.1, 0.2}
σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ1 2 ,σ2 2 : 公式中为母体方差,实践中我们均以过去某段时间样本方差来近似。这里有人会说,对照组方差可以近似,实验组还没有开始实验,我怎么知道它的样本方差呢?其实,因为这里分流比例一致,就会近似认为两组样本方差也相同。
δ \delta δ: 这里δ \delta δ,实际上是整个平台的一个预期,即认为较之前版本提升多少才认为达到目标。
其实有关 假设检验内容,在学校学习的时候,对于一些结论就很记忆,但究其原因,其实细想的不多。正好一个同学前一段时间来问我相关的内容,我发现自己其实也忘了很多。抽点时间整理一下,以便日后查阅。
参考文献
[1]魏宗舒等.概率论与数理统计教程.高等教育出版社.
[2]茆时松,吕晓玲等.数理统计学.中国人民大学出版社(第2版).
Original: https://blog.csdn.net/Queen0911/article/details/121718236
Author: 走过了笔尖
Title: 假设检验中两类错误及最小样本量计算
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/697314/
转载文章受原作者版权保护。转载请注明原作者出处!