WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

2023年6月16日上午2:27 • 人工智能 • 阅读 334

WGCNA 系列

WGCNA 系列
参考
关联模块与临床特征
量化module-trait(模块-特征)关系
基因与性状和重要模块的关系：基因重要性和模块成员
模块内分析:鉴定高GS和MM基因
网络分析结果汇总输出
模块基因富集分析
往期

参考

本文主要参考官方指南Tutorials for WGCNA R package (ucla.edu)，详细内容可参阅官方文档。

其它资料：

WGCNA – 文集 – 简书 (jianshu.com)
WGCNA分析，简单全面的最新教程 – 简书 (jianshu.com)
WGCNA：（加权共表达网络分析）_bioprogrammer-CSDN博客
WGCNA如何从module中挖掘关键基因_庐州月光的博客-CSDN博客

关联模块与临床特征

如果前面没保存再跑一遍以得到本次分析需要的数据。

量化module-trait(模块-特征)关系

在这个分析中，我们希望识别与临床特征显著相关的模块。由于我们已经有了每个模块的特征基因，我们简单地将特征基因与临床特征关联起来，并寻找最显著的关联。

Module eigengene
Module eigengene is defined as the first principal component of the expression matrix of the corresponding module.

# 导入之前的数据(也可以重新跑一遍上一期的内容)
lnames =load(file="FemaleLiver-02-networkConstruction-auto.RData");
lnames
# 明确基因和样本数
nGenes =ncol(datExpr);
nSamples =nrow(datExpr);
# 用颜色标签重新计算MEs
# 按照模块计算每个module的MEs（也就是该模块的第一主成分）
MEs0 = moduleEigengenes(datExpr, moduleColors)$eigengenes
# 对给定的(特征)向量重新排序，使相似的向量(通过相关性测量)彼此相邻。
MEs = orderMEs(MEs0)
# 计算基因模块MEs 与 临床特征的相关性以及p值
# use 给出在缺少值时计算协方差的方法 
moduleTraitCor =cor(MEs, datTraits, use ="p");
moduleTraitPvalue = corPvalueStudent(moduleTraitCor, nSamples)

可视化

# 如需保存
# pdf("Module-trait associations.pdf",width = 8, height=10)
par(mar =c(6, 8.5, 3, 3));
# 通过热图显示相关性
labeledHeatmap(Matrix = moduleTraitCor,
               xLabels =names(datTraits),
               yLabels =names(MEs),
               ySymbols =names(MEs),
               colorLabels = FALSE,
               colors= greenWhiteRed(50),
               textMatrix = textMatrix,
               setStdMargins = FALSE,
               cex.text= 0.5,
               zlim =c(-1,1),
               main =paste("Module-traitrelationships"))

# dev.off()

图1:模块-特征关联。每一行对应一个模块特征基因，每一列对应一个性状。每个单元格包含相应的相关性和p值。根据颜色图例，该表通过相关性进行颜色编码

基因与性状和重要模块的关系：基因重要性和模块成员

Module Membership简称MM, 将该基因的表达量与module的第一主成分，即module eigengene进行相关性分析就可以得到MM值，所以MM值本质上是一个相关系数，如果基因和某个module的MM值为0，说明二者根本不相关，该基因不属于这个module; 如果MM的绝对值接近1，说明基因与该module相关性很高。
Gene Significance简称GS, 将该基因的表达量与对应的表型数值进行相关性分析，最终的相关系数的值就是GS, GS反映出基因表达量与表型数据的相关性。

# 以特征变量weight 为例
weight =as.data.frame(datTraits$weight_g);
names(weight) ="weight"
# 命名模块
modNames =substring(names(MEs), 3)
geneModuleMembership =as.data.frame(cor(datExpr, MEs, use ="p"));
MMPvalue =as.data.frame(corPvalueStudent(as.matrix(geneModuleMembership), nSamples));
names(geneModuleMembership) =paste("MM", modNames, sep="");
names(MMPvalue) =paste("p.MM", modNames, sep="");
geneTraitSignificance =as.data.frame(cor(datExpr, weight, use ="p"));
GSPvalue =as.data.frame(corPvalueStudent(as.matrix(geneTraitSignificance), nSamples));
names(geneTraitSignificance) =paste("GS.",names(weight), sep="");
names(GSPvalue) =paste("p.GS.",names(weight), sep="");

模块内分析:鉴定高GS和MM基因

在感兴趣的基因模块中，筛选出高 GS和 MM的基因。在图1中可以看到，与性状 weight_g相关性最高的基因模块是 MEbrown，因此选择 MEbrown进行后续分析，绘制 brown模块中 GS和 MM的散点图。

module ="brown"
column =match(module, modNames);
moduleGenes = moduleColors==module;
sizeGrWindow(7, 7);
par(mfrow =c(1,1));
verboseScatterplot(abs(geneModuleMembership[moduleGenes, column]),
                   abs(geneTraitSignificance[moduleGenes, 1]),
                   xlab =paste("ModuleMembershipin", module,"module"),
                   ylab ="Genesignificanceforbodyweight",
                   main =paste("Modulemembershipvs.genesignificance\n"),
                   cex.main = 1.2, cex.lab = 1.2, cex.axis= 1.2,col= module)

图2:棕色模块中weight与模块成员(MM)的基因显著性(GS)散点图。在这个模块中，GS和MM之间存在极显著的相关性

如图2所示，GS和MM是高度相关的，这说明与一个性状高度相关的基因往往也是与该性状相关的模块中最重要的(中心)元素。

网络分析结果汇总输出

我们已经找到了与我们的兴趣特征高度相关的模块，并通过 MM确定了它们的核心参与者。现在，我们将这些统计信息与基因注释合并并导出。

names(datExpr)
# 返回brown模块中所有ID
names(datExpr)[moduleColors=="brown"]
# 导入注释文件
annot = read.csv(file = "GeneAnnotation.csv");
dim(annot)
names(annot)
probes = names(datExpr)
probes2annot = match(probes, annot$substanceBXH)
# 统计没有注释到的基因
sum(is.na(probes2annot))
# 创建数据集，包含探测ID ，
geneInfo0 = data.frame(substanceBXH = probes, 
                       geneSymbol = annot$gene_symbol[probes2annot], 
                       LocusLinkID = annot$LocusLinkID[probes2annot], 
                       moduleColor = moduleColors, 
                       geneTraitSignificance, GSPvalue)
# 通过显著性对模块进行排序
modOrder = order(-abs(cor(MEs, weight, use = "p")))
# 添加模块成员
for (mod in 1:ncol(geneModuleMembership))
{
  oldNames = names(geneInfo0)
  geneInfo0 = data.frame(geneInfo0, geneModuleMembership[, 
                                                         modOrder[mod]],
                         MMPvalue[, modOrder[mod]]);
  names(geneInfo0) = c(oldNames, paste("MM.", 
                                       modNames[modOrder[mod]], sep=""),
                       paste("p.MM.", modNames[modOrder[mod]], sep=""))
}
# 对基因进行排序
geneOrder = order(geneInfo0$moduleColor, abs(geneInfo0$GS.weight))
geneInfo = geneInfo0[geneOrder, ]
# 导出
write.csv(geneInfo, file = "geneInfo.csv")

模块基因富集分析

批量导出模块基因后，使用在线网站或者R包 clusterProfiler进行富集分析。

# Get the corresponding Locuis Link IDs
allLLIDs = annot$LocusLinkID[probes2annot];
# 选择感兴趣的模块
intModules = c("brown", "red", "salmon")
for (module in intModules)
{
  # 模块探针
  modGenes = (moduleColors==module)
  # 得到 entrez ID 
  modLLIDs = allLLIDs[modGenes];
  # 导出
  fileName = paste("LocusLinkIDs-", module, ".txt", sep="");
  write.table(as.data.frame(modLLIDs), file = fileName,
              row.names = FALSE, col.names = FALSE)
}

往期

2.
3.

4.
5.

Original: https://blog.csdn.net/weixin_45822007/article/details/122007807
Author: 木舟笔记
Title: WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/619109/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《深度学习之pytorch实战计算机视觉》笔记和代码(可跑通)（全）

最近学习了《深度学习之pytorch实战计算机视觉》这本书。计算机视觉、自然语言处理和语音识别是目前深度学习领域很热门的三大应用方向，《深度学习之PyTorch实战计算机视觉…

人工智能 2023年6月15日
0059
（六）多项式回归

文章目录前言 1. 一个例子 2. 多项式回归模型 3. 代码实现前言这篇文章介绍多项式回归。一个例子线性回归可以很好地拟合线性分布的数据，但是对于非线性的数据却派不上…

人工智能 2023年6月13日
0084
wavefile和librosa使用常用到的问题（音频处理）

最近做一些基于深度学习音频上的算法，在对数据处理时，需要做数据的重采样、滤波。常常会用到librosa和wavfile，其中会遇到很多隐形的问题，会导致工作量加大。最近把遇到的问题…

人工智能 2023年5月27日
0081
【论文&模型讲解】Vision Transformer

文章目录 0. 前言 1. 背景 2. 现状分析 3. 任务&结论（简介） 4. 整体框架 5. 流程 6. 模型 * Embedding层 Transformer Enc…

人工智能 2023年7月3日
0075
[ 注意力机制 ] 经典网络模型3——ECANet 详解与复现

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年7月30日
0097
解决使用uni-app MediaError MediaError ErrorCode -5

需要给app做一个语音播报，先在网上找一个在线和成MP3文件网站，合成需要的语音下载好。放到本地文件里，要使用的时候直接 innerAudioContext.onPlay 就行。…

人工智能 2023年5月23日
0081
风格迁移试玩

风格迁移 * – 图像风格迁移原理 – + 内容损失函数 + 风格损失函数 – 现成工具：tensorflow hub – 手工实现…

人工智能 2023年5月25日
0085
python颜色识别，46行代码实现865种颜色识别，看过的都说顶呱呱！

1.先介绍我做的颜色识别的功能，简单的说，就是该脚本可以打开图片，在图片上点击某个区域，可以识别某个区域的颜色，颜色识别准确度很高，很多时候颜色识别是辅助物体的颜色识别，但这个代码…

人工智能 2023年6月19日
00125
SE(Squeeze and Excitation)模块的理解以及代码实现

文章目录 * – 1. 简介 – 2. 运算讲解 1. 简介 SE Block并非一个完整的网络，而且一个子结构，可以嵌在其他分类或检测模型中。SE Bl…

人工智能 2023年6月23日
0077
【java】IO流

文章目录 File类 * File类概述和构造方法 File类创建功能 File类判断和获取功能 File类删除功能递归递归+File：案例–遍历目录 IO流 * …

人工智能 2023年6月27日
0076
【阅读笔记】Towards Personalized Federated Learning个性化联邦综述

文章目录前言 1 背景 * 1.1 机器学习、联邦学习 1.2 促进个性化联邦学习的动机 2 个性化联邦学习的策略 * 2.1 全局模型个性化 – 2.1.1 基于数…

人工智能 2023年6月24日
0082
python金融数据分析及可视化

目录 1、数据来源——Wind金融终端 2、数据读取及其基本描述 3、收盘价与成交量关系图 4、收益率曲线 5、K线图 6、移动平均线 1、数据来源——Wind金融终端在Wind…

人工智能 2023年7月7日
0076
Spark DataFrame基础

Spark创建DataFrame的不同方式首先，让我们导入Spark需要的隐式函数，如.toDF()函数，并为示例创建数据。 import spark.implicits._ v…

人工智能 2023年6月2日
0075
贝叶斯核函数回归

BKMR是哈佛大学J.F. Bobb等2015年在Biostatistics上发表的方法，该团队后续在2018年发布BKMR包（R）可被调用处理应用问题。BKMR所涉及的数学知识主…

人工智能 2023年6月16日
0087
Anaconda安装tensorflow和keras包

1.背景在Anaconda中无法直接安装这两个包，安装过程异常漫长。 2.准备工作添加清华源 1.在Anaconda prompt中(可利用全局搜索查找)运行 conda co…

人工智能 2023年5月23日
0079
知识点练习对话辅助器（简易版）

知识点练习对话辅助器（简易版）一、概述在专业面试的时候经常会有人（比如说我自己=_=）知识点理解的很好，且在平时中也能够比较清晰的讲述出来。但是到了面试的时候，在面试官的注视下…

人工智能 2023年5月25日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

WGCNA 系列

参考

关联模块与临床特征

量化module-trait(模块-特征)关系

基因与性状和重要模块的关系：基因重要性和模块成员

模块内分析:鉴定高GS和MM基因

网络分析结果汇总输出

模块基因富集分析

往期

大家都在看