python数据分析(一):列联分析与方差分析

列联分析

  1. 收集样本数据产生二维或多维交叉列联表;
  2. 对两个分类变量的相关性进行检验(假设检验)

pandas.crosstab(index,columns,margins,normalize)

  • margins默认为False不带合计数据
  • normalize=True频率列联表

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

salary_reform.scv

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

结果为列联表

补充的内容

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

列联表的期望分布

根据比例求出的各个变量的期望值

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

RT为给定单元所在行的合计,CT为给定单元所在列的合计,n为样本量

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

卡方检验

python数据分析(一):列联分析与方差分析
  • 当样本量较大时,上述统计量服从自由度为(r-1)(c-1)的卡方分布

  • 用于衡量实际值与理论值的差异程度(有差异表示自变量对因变量有影响)

  • 返回值:统计量,p值,自由度

  • p值:可以理解为落在极端值上的概率
  • 计算方法:已知统计量的值,求对应卡方分布的概率,过大则拒绝原假设(独立)

python数据分析(一):列联分析与方差分析

课堂练习一

作列联表

python数据分析(一):列联分析与方差分析

期望值分析

python数据分析(一):列联分析与方差分析

卡方检验

结果分析:p值较小,说明race对于工资水平的影响不显著

python数据分析(一):列联分析与方差分析

方差分析

比较多个总体的均值是否相等;
研究一个或多个分类型自变量与一个数值型因变量的关系;

假设:
(1)每个总体都应服从正态分布(如何检验样本是否服从正态分布?);
(2)各个总体的方差必须相同;
(3)观测值是独立的

单因素方差分析

方差齐性检验levene

H0:

python数据分析(一):列联分析与方差分析, H1: python数据分析(一):列联分析与方差分析不全相等(自变量对因变量有显著影响)

构建统计量F检验
SST:总平方和;SSA:组间平方和;SSE:组内平方和

python数据分析(一):列联分析与方差分析python数据分析(一):列联分析与方差分析
python数据分析(一):列联分析与方差分析

若原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值不会太大,F>Fa,拒绝原假设

python数据分析(一):列联分析与方差分析

方差来源分析及检验过程anova_lm()

运算符

说明

+

将运算符左右两边的数据都纳入生成的数据集中

将运算符左边的纳入,右边的移除

:

计算运算符两边的交集(交互效应),生成一列数据

*

a+b+a:b形式的简写

python数据分析(一):列联分析与方差分析

关系强度的测量

python数据分析(一):列联分析与方差分析
组间误差占总误差比例越高,相关度越高

python数据分析(一):列联分析与方差分析

多重比较

通过对总体均值之间的两两比较来检验哪些均值之间存在差异

LSD检验

已知总体方差的联合估计量

python数据分析(一):列联分析与方差分析

组内方差

python数据分析(一):列联分析与方差分析

k = 2时,

python数据分析(一):列联分析与方差分析

构造统计量:

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析,认为差异是显著的,拒绝原假设。

HSD检验

基于学生化极差的成对比较。

计算HSD统计量,如果两组均数的差异大于该极差,认为差异是显著的,拒绝原假设。

HSD检验较LSD检验更保守,更不易发现显著差异,一般用于样本容量相同的组之间的均值比较

python数据分析(一):列联分析与方差分析

多因素方差分析

不存在交互效应的多因素方差分析

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

tv.csv

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

结果解释:”品牌”的p值过小,拒绝”品牌”的原假设,可认为品牌对销售量有显著影响。

python数据分析(一):列联分析与方差分析

存在交互效应的多因素方差分析

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

traffic.csv

python数据分析(一):列联分析与方差分析

python数据分析(一):列联分析与方差分析

结果解释:路段对通行时间有显著影响;时段对通行时间有显著影响;没有证据表明路段和时段的交互作用对通行时间有显著影响。

python数据分析(一):列联分析与方差分析

Original: https://blog.csdn.net/weixin_56631477/article/details/124732817
Author: Kentos(acoustic ver.)
Title: python数据分析(一):列联分析与方差分析

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/694918/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球