数据分析之卡方检验

1、卡方检验定义

卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

是一种 非参数检验方法。它的原假设H0 为:观察频数与期望频数 没有显著性差异。

其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验分为拟合度的卡方检验和卡方独立性检验。

在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。

通俗来讲:卡方检验就是检验两个变量之间有没有关系,
例如:

  • 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
  • 不同城市级别的消费者对买SUV车有没有什么区别;

2、卡方检验用途

  1. 检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布,均匀分布,Poisson(泊松)分布
  2. 检验某个分类变量的各类的概率是否等于指定概率
  3. 检验某两个分类变量是否 相互独立
  4. 检测两种方法的检测结果是否一致
  5. 检测控制某种或某几种的变量后,另外两个分类变量是否相互独立。

卡方检验的一个典型应用场景是衡量特定条件下的分布是否与理论分布一致,比如:特定用户某项指标的分布与大盘的分布是否差异很大,这时通过临界概率可以合理又科学的筛选异常用户。

另外,x2值描述了自变量与因变量之间的相关程度:x2值越大,相关程度也越大,所以很自然的可以利用x2值来做降维,保留相关程度大的变量。例如新闻分类的场景,如果我们希望获取和娱乐类别相关性最强的100个词,以后就按照标题是否包含这100个词来确定新闻是否归属于娱乐类,对娱乐类新闻标题所包含的每个词按上述步骤计算x2值,然后按x2值排序,取x2值最大的100个词。

3、案例

3.1 独立性检验

独立性检验评估的是,在一个列联表中,不成对的观测对象中的两个变量是不是相互独立的

案例一、想知道喝牛奶对感冒发病率有没有影响

数据分析之卡方检验

喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也可能是 牛奶对感冒率真的有影响。

下面进行假设:假设喝牛奶对感冒发病率没有影响,即喝牛奶与感冒无关

所以感冒的发病率实际是(43+28)/(43+28+96+84)=28.29%
所以可以得到理论的表格

数据分析之卡方检验

如果说真的没有影响的话 表格中理论值和实际值差别应该会很小。

卡方检验的计算公式

数据分析之卡方检验

其中:Ai 为单元格i中的观察值,pi为单元格i中的在H0假设前提下的概率,k为单元格数 ​ X^2值的意义:衡量理论与实际的差异程度。

经过计算可以计算得到 X^2=1.077

H0假设拒绝与接受
根据得到的χ2 值,还并不能直接到的p-value。因为卡方分布根据其自由度有所不同,如下图所示:

数据分析之卡方检验
卡方分布的概率密度函数如下:
数据分析之卡方检验
其中k为自由度。

所以,首先需要计算所研究样本的自由度

数据分析之卡方检验
其中R为单元格的行数,C为单元格的列数。
上述例子中,自由度k = ( 2 − 1 ) ( 2 − 1 ) = 1;【即自由度 = (行数-1)*(列数-1)】

根据所给定的自由度k以及χ2值,即可计算p-value

对于得到的p-value,与自己指定的显著性水平作比较(通常将0.05作为显著性水平),如果得到的p-value小于0.05,那我们认为样本所表现出来的结果是小概率事件,则我们有理由拒绝原假设H0;否则,我们需要接受原假设H0

数据分析之卡方检验
参考:统计分布临界值表

我们看到,χ2分布在自由度k = 1,p=0.05时的取值为3.84。我们得到的χ2值1.077,小于3.84,且接近于p = 0.3时的χ2值1.07,故不能拒绝原假设H0 ,即喝牛奶对感冒发病率没有影响(即喝牛奶与感冒无关)

案例一 参考链接:卡方检验(详解)

; 3.2 适合度检验

适合度检验展示了一个观察到的频率分布是否与一个理论分布不同。

案例二 投掷筛子

下表为投掷120次六面骰子的实际观察值:

数据分析之卡方检验

; 3.2.1 期望值

我们知道,在正常情况下,掷骰子服从二项分布X ∼ B ( n , p ) 其数学期望E [ X ] = n p ,方差为Var[ X ] = np( 1 − p ) 。

在进行适合度检验时,我们的原假设H0为观察到的掷骰子结果符合理论上的二项分布(Binomial distribution)。那么,我们就能得到掷骰子的理论值如下表:

数据分析之卡方检验

3.2.2 χ2 值计算

由公式可得

                                          χ2=2.3

3.2.3 自由度确定

对于适合度检验,自由度的计算按照以下公式:

                                          k=C−M

其中,C为我们观察到的类别数,此例中为6;M为我们要比较的理论分布的参数的个数,此例中为1;因此k = 5

3.2.4 H0假设接受与拒绝

统计量χ 2 =2.3 所对应的p-value大约为0.8,与显著性水平0.05相差甚远,故我们应该接受原假设H0.

参考链接:卡方检验 (Chi-square test / Chi-square goodness-of-fit test)

4、使用SPSS进行卡方检验

想研究性别和是否抽烟之间有没有关系,男性抽烟的比例有没有更高等,通过抽样调查得到如下数据:

数据分析之卡方检验

; 1、SPSS操作步骤

(1)传入数据或输入数据

打开SPSS软件,上传如下图所示的数据格式文件,或者在SPSS软件中手动输入下图所示数据:

数据分析之卡方检验
第一列存入行(性别)信息,其中1代表男,2代表女;

第二列存入列(是否吸烟)信息,其中1代表吸烟,2代表不吸烟;

第三列存入每一种情况所对应的数据(人数),如:是男性且吸烟的人数有51人。

; (2)数据加权处理

在主页面点击【数据】-【加权个案】

数据分析之卡方检验
弹出加权个案操作的对话框,选中【加权个案】
数据分析之卡方检验
将【人数】变量拖入【频率变量】框中,点击【确定】。

数据分析之卡方检验
这样就完成了数据加权处理,下一步可以做卡方检验了。
(3)卡方检验操作

点击【分析】-【描述统计】-【交叉表】

数据分析之卡方检验
弹出交叉表操作对话框,按照下图的关系将三个变量放入对应的分析框中。
数据分析之卡方检验
放好之后就是这个样子:
数据分析之卡方检验
放好变量后,接着设置:点击【统计量】-在弹出的对话框中选中【卡方】,并选中名义栏中的【Phi和Gramer变量】-点击【继续】
数据分析之卡方检验
此时回到交叉表对话框,点击【确定】得出分析结果。
数据分析之卡方检验
; (4)卡方检验结果

数据分析之卡方检验
SPSS看输出的卡方检验结果,主要看卡方值和P值。
原假设H0为性别与抽烟之间没有关系,P值为0.017

Original: https://blog.csdn.net/DD18203614685/article/details/125593444
Author: 北影男高材生
Title: 数据分析之卡方检验

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/693125/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球