富集分析:(一)概述

(全文约6600字)

1.1. 富集分析概念

富集分析,本质上是对数据的分布检验,如果分布集中在某个区域,则认为富集。

常用的分布检验方法有卡方检验、Fisher精确检验以及KS检验等方法。

背景基因集(N) 下获得 一组特定基因集(S) ,S可能是基因列表,表达图谱,基因芯片等形式。在预先构建好 基因注释数据库(例如GO,KEGG等)已对背景基因集(N)根据生物功能或过程进行分类的前提下,通过 统计学算法找出有那些显著区别于背景基因集(N)的类别(生物组成/功能/过程),或者找出这组特定基因集间在生物组成/功能/过程的共性,经过聚类后去除冗余得到基因富集结果的过程,即为富集分析。

  • 其中, 背景基因集(N) 常常是一个物种的基因组注释基因总和。
  • 一组 特定基因集(S) 常常是差异表达基因集(differentially expressed genes, DEGs)。
  • 预先构建好 基因注释数据库常用GO或KEGG数据库。
  • 常见的 统计学算法包括ORA,FCS,PT,NT四种。

通常会使用其他分析的结果作为 特定基因集(S),做基因富集分析来查看这些基因集是否主要集中在某些类别,这些类别代表的功能是否与表型或者进化事件有关联。比如:

  • 比较转录组分析得到的差异表达基因集;
  • 比较基因组分析中得到的某物种特有的基因集;
  • 基因家族收缩扩张分析得到的基因组中显著扩张/收缩的基因集;
  • 基因组共线性分析中在全基因组复制事件附近的Ks值的基因集等各种分析得到的基因集;

1.2. 富集分析的算法

富集分析算法经过发展,常见的有四类:

过表达分析(ORA)是对背景基因集(N)和特定基因集(S)按照已知的基因功能或通路等分组,并鉴定特定基因集(S)在哪些组包含比背景基因集(N)比例更多的基因(过度表达,over-represented,即富集enriched)或更少的基因(表达不足,under-represented)的一种统计学方法。

ORA是出现最早,最常用,有完善的统计学理论基础的方法。ORA重点在于通过基因集组成的比例来判断富集程度。

ORA类方法用的是离散分布的检验(Fisher精确检验,依据超几何分布的原理)。

超几何分布有很多资料可参考,比如:https://www.jianshu.com/p/13f46bebebd4

  • ORA使用的统计方法(例如超几何分布,二项分布,卡方分布)只考虑差异基因数量,忽略了差异程度(不同表达水平),,需要人为设置阈值,没有一个设置规定,阈值设置有主观性。
  • 通过一刀切的人为规定的阈值,找出差异最显著的单个基因,而忽略其他基因,比如差异小但变化方向一致的基因集,往往后者比前者更重要。
  • 利用的统计学假设每个基因相互独立,但是就生物体本身而言,忽略了基因间内部的复杂的相互作用,并且每个基因在不同的生物学过程中发挥的作用大小不一样,同等看待结果可能会不准确。
  • 假设每条通路都独立其他通路。

  • 背景基因集(N):常常是一个物种的基因组注释基因总和

  • 特定基因集(S):常常是差异表达基因集(differentially expressed genes, DEGs)
  • 背景基因集的分类信息:常常通过注释数据库(GO,KEGG等)和背景基因集获得
  • 特定基因集的分类信息:常常通过注释数据库(GO,KEGG等)和特定基因集获得

通过四组数据获得基因数量的2×2列联表,再利用fisher精确检验或超几何分布得到p值。认为设置一个显著性阈值,高于阈值的即为富集基因。

功能分类打分(FCS)与ORA相比进行了基本假设的改变,除了考虑单个基因的显著变化外,还考虑微效基因的叠加效果。

代表是基因集富集分析(Gene Set Enrichment Analysis, GSEA)

  • 计算单个基因表达水平的统计值,采用如衡量差异基因的ANOVA、Q-statistic、t检验、Z-score、信噪比,进行打分或排序,或者直接使用排序好的基因表达谱
  • 同一通路上所有基因的表达水平统计值进行整合,汇集成单个通路水平的分数或统计值,采用基因水平统计的和、均值或中位数,Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic
  • 对通路水平的显著性进行评估:利用重抽样(bootstrap)的统计学方法

  • 不需要人为规定的阈值来一刀切显著性

  • FCS考虑同一通路中基因表达的协调变化,即考虑微效基因的叠加效果。
  • 通过考虑基因表达的协调变化,FCS 方法解释了通路中基因之间的依赖性

  • 与 ORA 类似,FCS 独立分析每个通路。一个基因可以在多个通路中发挥作用,这意味着这些通路可以交叉和重叠。

  • 许多 FCS 方法使用基因表达的变化来对给定通路中的基因进行排序,并丢弃进一步分析的变化。例如,假设通路中的两个基因 A 和 B 分别发生 2 倍和 20 倍的变化。只要它们与通路中的其他基因相比具有相同的各自等级,大多数 FCS 方法都会平等地对待它们。

基因富集分析(GSEA)是FCS算法中最常用的一种。

  • 基因排序

首先,根据各基因与表型间相关性r或两组间t检验统计量得分值对背景基因集(N)进行降序排列,比如把所有基因在两个分组(或表型)中的差异度从大到小排序,形成排好序的基因列表。

  • 基因富集

查看基因注释数据库(GO/KEGG)中每个小组基因集(例如GO一个通路一个小组)里的基因是否在排序的背景基因集里均匀分布,或者主要分布在排序背景基因集的顶部/底部。均匀分布说明不在这两个分组(或表型)中富集,集中分布在顶部/底部说明这个小组基因集在两个分组(表型)之一富集。

  • 富集分析

计算每一小组基因集的富集分数(enrichment score,ES)值,然后对ES值进行显著性检验和多重假设检验,计算得出显著富集的基因集。

  • 计算富集分数(enrichment score,ES)

对每一个小组基因集,遍历排好序的背景基因集(N),当基因出现在特定基因集(S)就加分,反之减分,加减分值由基因与表型的相关性决定。

  • 估计ES的统计显著性

基于样品的置换检验可以计算P值。

  • 多重假设检验矫正

根据每一小组基因集的大小对每个基因的ES做标准化,得到标准化NES(normalized enrichment score ,NES)。为了检验每一小组基因集的NES是否显著,将排好序的背景基因集(N)随机打乱排列一定次数,每次都计算每个基因集的NES(ES),得到每个基因集的NES在随机排序情况下的理论分布,从而计算其p值。若p

Original: https://blog.csdn.net/qq_40569830/article/details/125471215
Author: 生信技工
Title: 富集分析:(一)概述

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/692954/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球