PLINK相关性分析,分类变量和连续型变量

1.1 相关性分析

1.1.1 不同变量类型

1) 阈值性状(1,2)

plink的语境叫”case and control”,即表型值数据是两类数据:1,2,其中0和-9都表示缺失。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
• –assoc,不允许有协变量
• –logistic,允许有协变量,如果考虑协变量,速度变慢。比assoc速度慢。

2) 连续性状(定量性状)

这里的性状时连续性状,也就是除了1,2,0,-9外还有其它数值,–assoc会进行T检验(Student’s test),还可以用–linear进行分析。
• –assoc,不允许有协变量,速度快
• –linear,允许有协变量,速度慢

连续型变量示例

评估rs9674439与BMI的相关性,生成BMIrs9674439.assoc.linear文件。下面的输出显示SNP rs9674439上C等位基因的每一个拷贝都与BMI降低0.29相关。

$ plink --bfile 1kg_EU_BMI --snps rs9674439 --assoc --linear --out BMIrs9674439
$ head BMIrs9674439.assoc.linear
 CHR         SNP         BP   A1       TEST    NMISS       BETA         STAT            P
  16   rs9674439   33836510    C        ADD      379    -0.2974       -1.269       0.2052
  1. 染色体计数(CHR)
  2. 变异标识符 (SNP)
  3. 碱基对位点 (BP)
  4. 效应等位基因 (Al)
  5. 使用的统计检验类型 (TEST),这里是ADD
  6. 缺失值的数量 (NMISS)
  7. 回归系数(BETA)
  8. t统计 (STAT);
  9. t统计量的渐近p值 §

分类变量(cases,controls)示例

生成Overweight_rs9674439.logistic文件

plink --bfile 1kg_EU_Overweight --snps rs9674439 --assoc --logistic --out Overweight_rs9674439

$ head BMIrs9674439.assoc.linear
 CHR         SNP         BP   A1       TEST    NMISS       OR         STAT            P
  16   rs9674439   33836510    C        ADD    1092    0.7261       -3.32      0.0009017

优势率(OR),总是大于0,OR>1,表示增加风险,OR

Original: https://blog.csdn.net/ziixiaoshenwang/article/details/126986385
Author: 紫霄zixiao
Title: PLINK相关性分析,分类变量和连续型变量

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/666615/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球