1.1 相关性分析
1.1.1 不同变量类型
1) 阈值性状(1,2)
plink的语境叫”case and control”,即表型值数据是两类数据:1,2,其中0和-9都表示缺失。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
• –assoc,不允许有协变量
• –logistic,允许有协变量,如果考虑协变量,速度变慢。比assoc速度慢。
2) 连续性状(定量性状)
这里的性状时连续性状,也就是除了1,2,0,-9外还有其它数值,–assoc会进行T检验(Student’s test),还可以用–linear进行分析。
• –assoc,不允许有协变量,速度快
• –linear,允许有协变量,速度慢
连续型变量示例
评估rs9674439与BMI的相关性,生成BMIrs9674439.assoc.linear文件。下面的输出显示SNP rs9674439上C等位基因的每一个拷贝都与BMI降低0.29相关。
$ plink --bfile 1kg_EU_BMI --snps rs9674439 --assoc --linear --out BMIrs9674439
$ head BMIrs9674439.assoc.linear
CHR SNP BP A1 TEST NMISS BETA STAT P
16 rs9674439 33836510 C ADD 379 -0.2974 -1.269 0.2052
- 染色体计数(CHR)
- 变异标识符 (SNP)
- 碱基对位点 (BP)
- 效应等位基因 (Al)
- 使用的统计检验类型 (TEST),这里是ADD
- 缺失值的数量 (NMISS)
- 回归系数(BETA)
- t统计 (STAT);
- t统计量的渐近p值 §
分类变量(cases,controls)示例
生成Overweight_rs9674439.logistic文件
plink --bfile 1kg_EU_Overweight --snps rs9674439 --assoc --logistic --out Overweight_rs9674439
$ head BMIrs9674439.assoc.linear
CHR SNP BP A1 TEST NMISS OR STAT P
16 rs9674439 33836510 C ADD 1092 0.7261 -3.32 0.0009017
优势率(OR),总是大于0,OR>1,表示增加风险,OR
Original: https://blog.csdn.net/ziixiaoshenwang/article/details/126986385
Author: 紫霄zixiao
Title: PLINK相关性分析,分类变量和连续型变量
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/666615/
转载文章受原作者版权保护。转载请注明原作者出处!