生信学习——GEO数据挖掘

2023年7月16日下午6:39 • 人工智能 • 阅读 87

步骤

STEP1：表达矩阵ID转换
STEP2：差异分析
STEP3：KEGG数据库注释
完整代码

写在前面——按照生信技能树的学习路线，学完R语言就该学习GEO数据挖掘了。有人说GEO数据挖掘可以快速发文（https://zhuanlan.zhihu.com/p/36303146），不知道靠不靠谱。反正学一学总没有坏处。看完Jimmy老师的视频，写一篇总结方便日后复习。这里有很多操作在
《生信人的20个R语言习题》

都可以见到，那里写的更加详细。

视频教程：https://www.bilibili.com/video/BV1is411H7Hq?p=1
代码地址：https://github.com/jmzeng1314/GEO

STEP1：表达矩阵ID转换

首先理解下面的4个概念：
GEO Platform (GPL)
GEO Sample (GSM)
GEO Series (GSE)
GEO Dataset (GDS)
理解起来也很容易。一篇文章可以有一个或者多个GSE数据集，一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS，不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台，就是GPL。

用R获取芯片探针与基因的对应关系三部曲-bioconductor
http://www.bio-info-trainee.com/1399.html


if(F){
  suppressPackageStartupMessages(library(GEOquery))
  gset  getGEO('GSE42872', destdir=".",
                 AnnotGPL = F,
                 getGPL = F)
  save(gset,file='GSE42872_gset.Rdata')
}
load('GSE42872_gset.Rdata')

exprSet  exprs(gset[[1]])
pdata  pData(gset[[1]])
group_list  c(rep('control', 3), rep('case', 3))

suppressPackageStartupMessages(library(hugene10sttranscriptcluster.db))

ls("package:hugene10sttranscriptcluster.db")
ids  toTable(hugene10sttranscriptclusterSYMBOL)

table(rownames(exprSet) %in% ids$probe_id)
dim(exprSet)
exprSet  exprSet[(rownames(exprSet) %in% ids$probe_id),]
dim(exprSet)

ids  ids[match(rownames(exprSet),ids$probe_id),]
dim(ids)

tmp  by(exprSet,ids$symbol,
          function(x) rownames(x)[which.max(rowMeans(x))])
tmp[1:20]
probes  as.character(tmp)
exprSet  exprSet[rownames(exprSet) %in% probes, ]
dim(exprSet)
dim(ids)

rownames(exprSet)  ids[match(rownames(exprSet),ids$probe_id),2]

save(exprSet, group_list, file = 'GSE42872_new_exprSet.Rdata')

转换前的exprSet

转换后的exprSet
生信学习——GEO数据挖掘

STEP2：差异分析

load('GSE42872_new_exprSet.Rdata')

library(reshape2)
m_exprSet  melt(exprSet)
head(m_exprSet)
colnames(m_exprSet)  c("symbol", "sample", "value")
head(m_exprSet)
m_exprSet$group  rep(group_list, each = nrow(exprSet))
head(m_exprSet)

library(ggplot2)
ggplot(m_exprSet, aes(x = sample, y = value, fill = group)) + geom_boxplot()

colnames(exprSet)  paste(group_list,1:6,sep='')
hc  hclust(dist(t(exprSet)))
nodePar  list(lab.cex = 0.6, pch = c(NA, 19), cex = 0.7, col = "blue")
par(mar=c(5,5,5,10))
plot(as.dendrogram(hc), nodePar = nodePar,  horiz = TRUE)

library(limma)

design  model.matrix(~0 + factor(group_list))
colnames(design)  levels(factor(group_list))
rownames(design)  colnames(exprSet)
design

contrast.matrix  makeContrasts("case-control" ,levels = design)

contrast.matrix

fit  lmFit(exprSet,design)

fit2  contrasts.fit(fit, contrast.matrix)

fit2  eBayes(fit2)

tempOutput  topTable(fit2, coef=1, n=Inf)

nrDEG  na.omit(tempOutput)

head(nrDEG)

DEG  nrDEG

logFC_cutoff  with(DEG, mean(abs(logFC)) + 2*sd(abs(logFC)))

DEG$result  as.factor(ifelse(DEG$P.Value < 0.05 & abs(DEG$logFC) > logFC_cutoff,
                               ifelse(DEG$logFC >logFC_cutoff, 'UP', 'DOWN'), 'NOT')

)

this_tile  paste0('Cutoff for logFC is', round(logFC_cutoff, 3),
                    '\nThe number of UP gene is ', nrow(DEG[DEG$result == 'UP', ]),
                    '\nThe number of DOWN gene is ', nrow(DEG[DEG$result == 'DOWN', ]))
this_tile

head(DEG)

library(ggplot2)

ggplot(data=DEG, aes(x=logFC, y=-log10(P.Value), color=result)) +
  geom_point(alpha=0.4, size=1.75) +
  theme_set(theme_set(theme_bw(base_size=20)))+
  xlab("log2 fold change") + ylab("-log10 p-value") +
  ggtitle( this_tile ) + theme(plot.title = element_text(size=15,hjust = 0.5))+
  scale_colour_manual(values = c('blue','black','red'))

save(exprSet, group_list, nrDEG, DEG, file = 'GSE42872_DEG.Rdata')

?topTable ：Value
DEG中的行变量对应的说明
A dataframe with a row for the number top genes and the following columns:

genelist：one or more columns of probe annotation, if genelist was included as input
logFC：estimate of the log2-fold-change corresponding to the effect or contrast (for topTableF there may be several columns of log-fold-changes)
CI.L：left limit of confidence interval for logFC (if confint=TRUE or confint is numeric)
CI.R：right limit of confidence interval for logFC (if confint=TRUE or confint is numeric)
AveExpr：average log2-expression for the probe over all arrays and channels, same as Amean in the MarrayLM object
t：moderated t-statistic (omitted for topTableF)
F：moderated F-statistic (omitted for topTable unless more than one coef is specified)
P.Value：raw p-value
adj.P.Value：adjusted p-value or q-value
B：log-odds that the gene is differentially expressed (omitted for topTreat)

STEP3：KEGG数据库注释

生信技能树：差异分析得到的结果注释一文就够

差异分析通过自定义的阈值挑选了有统计学显著的基因列表，我们需要对它们进行注释才能了解其功能，最常见的就是GO/KEGG数据库注释，当然也可以使用Reactome和Msigdb数据库来进行注释。最常见的注释方法就是超几何分布检验。

load('GSE42872_DEG.Rdata')
suppressPackageStartupMessages(library(clusterProfiler))
suppressPackageStartupMessages(library(org.Hs.eg.db))

gene  head(rownames(nrDEG), 1000)

gene.df  bitr(gene, fromType = "SYMBOL",
                toType = c("ENSEMBL", "ENTREZID"),
                OrgDb = org.Hs.eg.db)
head(gene.df)

kk  enrichKEGG(gene = gene.df$ENTREZID, organism = "hsa",
                 pvalueCutoff = 0.05)
head(kk)[,1:6]

data(geneList, package = "DOSE")
boxplot(geneList)
head(geneList)

boxplot(nrDEG$logFC)
geneList  nrDEG$logFC
names(geneList)  rownames(nrDEG)
head(geneList)

gene.symbol  bitr(names(geneList), fromType = "SYMBOL",
                toType = c("ENSEMBL", "ENTREZID"),
                OrgDb = org.Hs.eg.db)
head(gene.symbol)

tmp  data.frame(SYMBOL = names(geneList),
                  logFC = as.numeric(geneList))
tmp  merge(tmp, gene.symbol, by = 'SYMBOL')
geneList  tmp$logFC
names(geneList)  tmp$ENTREZID
head(geneList)

geneList  sort(geneList, decreasing = T)

kk2  gseKEGG(geneList     = geneList,
               organism     = 'hsa',
               nPerm        = 1000,
               minGSSize    = 120,
               pvalueCutoff = 0.05,
               verbose      = FALSE)
head(kk2)[,1:6]

gseaplot(kk2, geneSetID = "hsa04142")

完整代码

setwd(dir = "geo_learn/")

if(F){
  suppressPackageStartupMessages(library(GEOquery))
  gset  getGEO('GSE42872', destdir=".",
                 AnnotGPL = F,
                 getGPL = F)
  save(gset,file='GSE42872_gset.Rdata')
}
load('GSE42872_gset.Rdata')

exprSet  exprs(gset[[1]])
pdata  pData(gset[[1]])
group_list  c(rep('control', 3), rep('case', 3))

suppressPackageStartupMessages(library(hugene10sttranscriptcluster.db))

ids  toTable(hugene10sttranscriptclusterSYMBOL)

table(rownames(exprSet) %in% ids$probe_id)

exprSet  exprSet[(rownames(exprSet) %in% ids$probe_id),]

ids  ids[match(rownames(exprSet),ids$probe_id),]

tmp  by(exprSet,ids$symbol,
          function(x) rownames(x)[which.max(rowMeans(x))])

probes  as.character(tmp)
exprSet  exprSet[rownames(exprSet) %in% probes, ]

rownames(exprSet)  ids[match(rownames(exprSet),ids$probe_id),2]

save(exprSet, group_list, file = 'GSE42872_new_exprSet.Rdata')

load('GSE42872_new_exprSet.Rdata')

library(reshape2)
m_exprSet  melt(exprSet)
head(m_exprSet)
colnames(m_exprSet)  c("symbol", "sample", "value")
head(m_exprSet)
m_exprSet$group  rep(group_list, each = nrow(exprSet))
head(m_exprSet)

library(ggplot2)
ggplot(m_exprSet, aes(x = sample, y = value, fill = group)) + geom_boxplot()

colnames(exprSet)  paste(group_list,1:6,sep='')
hc  hclust(dist(t(exprSet)))
nodePar  list(lab.cex = 0.6, pch = c(NA, 19), cex = 0.7, col = "blue")
par(mar=c(5,5,5,10))
plot(as.dendrogram(hc), nodePar = nodePar,  horiz = TRUE)

library(limma)
design  model.matrix(~0 + factor(group_list))
colnames(design)  levels(factor(group_list))
rownames(design)  colnames(exprSet)
design

contrast.matrix  makeContrasts("case-control" ,levels = design)

contrast.matrix

fit  lmFit(exprSet,design)

fit2  contrasts.fit(fit, contrast.matrix)

fit2  eBayes(fit2)

tempOutput  topTable(fit2, coef=1, n=Inf)
nrDEG  na.omit(tempOutput)
head(nrDEG)

DEG  nrDEG
logFC_cutoff  with(DEG, mean(abs(logFC)) + 2*sd(abs(logFC)))
DEG$result  as.factor(ifelse(DEG$P.Value < 0.05 & abs(DEG$logFC) > logFC_cutoff,
                               ifelse(DEG$logFC >logFC_cutoff, 'UP', 'DOWN'), 'NOT')

)

this_tile  paste0('Cutoff for logFC is', round(logFC_cutoff, 3),
                    '\nThe number of UP gene is ', nrow(DEG[DEG$result == 'UP', ]),
                    '\nThe number of DOWN gene is ', nrow(DEG[DEG$result == 'DOWN', ]))
this_tile

head(DEG)
library(ggplot2)
ggplot(data=DEG, aes(x=logFC, y=-log10(P.Value), color=result)) +
  geom_point(alpha=0.4, size=1.75) +
  theme_set(theme_set(theme_bw(base_size=20)))+
  xlab("log2 fold change") + ylab("-log10 p-value") +
  ggtitle( this_tile ) + theme(plot.title = element_text(size=15,hjust = 0.5))+
  scale_colour_manual(values = c('blue','black','red'))

save(exprSet, group_list, nrDEG, DEG, file = 'GSE42872_DEG.Rdata')

load('GSE42872_DEG.Rdata')
suppressPackageStartupMessages(library(clusterProfiler))
suppressPackageStartupMessages(library(org.Hs.eg.db))

gene  head(rownames(nrDEG), 1000)

gene.df  bitr(gene, fromType = "SYMBOL",
                toType = c("ENSEMBL", "ENTREZID"),
                OrgDb = org.Hs.eg.db)
head(gene.df)

kk  enrichKEGG(gene = gene.df$ENTREZID, organism = "hsa",
                 pvalueCutoff = 0.05)
head(kk)[,1:6]

data(geneList, package = "DOSE")
boxplot(geneList)
head(geneList)

boxplot(nrDEG$logFC)
geneList  nrDEG$logFC
names(geneList)  rownames(nrDEG)
head(geneList)

gene.symbol  bitr(names(geneList), fromType = "SYMBOL",
                toType = c("ENSEMBL", "ENTREZID"),
                OrgDb = org.Hs.eg.db)
head(gene.symbol)

tmp  data.frame(SYMBOL = names(geneList),
                  logFC = as.numeric(geneList))
tmp  merge(tmp, gene.symbol, by = 'SYMBOL')
geneList  tmp$logFC
names(geneList)  tmp$ENTREZID
head(geneList)

geneList  sort(geneList, decreasing = T)

kk2  gseKEGG(geneList     = geneList,
               organism     = 'hsa',
               nPerm        = 1000,
               minGSSize    = 120,
               pvalueCutoff = 0.05,
               verbose      = FALSE)
head(kk2)[,1:6]

gseaplot(kk2, geneSetID = "hsa04142")

Original: https://blog.csdn.net/narutodzx/article/details/121950483
Author: Dzfly..
Title: 生信学习——GEO数据挖掘

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696993/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

英语在线听力翻译器_英语听力翻译软件下载_英语听力翻译2020官网下载地址_开心技术乐园…

英语听力翻译APP，是一款在线翻译英语听力的学习软件。这款软件和小学教材同步，涵盖各个地区不同版本的英语教材，能够为学生提供最符合学习进程的听力训练，循序渐进地提高英语听力成绩。听…

人工智能 2023年5月27日
0098
图神经网络及其Pytorch实现

图结构一般而言是十分不规则的，可以认为是无限维的一种数据，因此不存在平移不变性。每一个结点周围的结构都是独一无二的，因此针对该结构的数据。涌现出GNN、DeepWalk、node2…

人工智能 2023年7月22日
0054
【语音识别】WeNet：面向工业落地的E2E语音识别工具

WeNet：面向工业落地的E2E语音识别工具文章目录 WeNet：面向工业落地的E2E语音识别工具 * 一、WeNet语音识别平台搭建 – 1、参考资料 2、快速搭建…

人工智能 2023年5月27日
00193
Pandas进阶

1、数据转换 1、apply,applymap应用 apply对DataFrame中的某一Series进行操作，上例中将Python中的成绩统一加100，使用的是简单隐式函数。 a…

人工智能 2023年7月17日
0079
cold diffusion的个人理解

背景和介绍最近阅读了Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise，做了个简短的汇报，写…

人工智能 2023年7月28日
0064
用python做Cox分析的三个库的介绍和体验

用python做Cox分析的三个常见库的介绍和体验跟时间相关的数据分析（预测模型），一个是时间序列（X随时间变化），另外一个就是Cox（y随时间变化），都有专门的包，statsm…

人工智能 2023年6月16日
0070
结构重参数化之三：Diverse Branch Block

paper: Diverse Branch Block: Building a Convolution as an Inception-like Unit code: https:…

人工智能 2023年5月26日
00105
【人工智能】MindSpore Hub

目录前言一、什么是MindSpore Hub 1.简单介绍 2.MindSpore Hub包含功能 3.MindSpore Hub使用场景二、安装MindSpore Hub …

人工智能 2023年7月28日
0069
Abstractive Dialog Summarization with Semantic Scaffolds

中文标题：基于语义框架的生成式对话摘要论文链接：https://arxiv.org/pdf/1910.00825.pdf发表：ICLR 2020组织：浙大 Abstract 作者指…

人工智能 2023年5月28日
00120
双光子荧光成像_为什么双光子成像如此重要？

成像技术一直是推动声明科学进步的主要动力。历史上，X射线、全息照相法、MRI核共振成像、超高分辨率显微成像技术都获得了Nobel奖。本文引用地址：http://www.eepw.c…

人工智能 2023年6月1日
0067
利用Python对Excel数据进行处理

通过本文，记录分享我利用Python对已存在的excel表格进行数据处理。因为是没学可视化之前做的，所以都展示在后台上。 1.1加载文件夹内所有的Excel数据； 1.2 生产贡…

人工智能 2023年7月15日
0071
【计算机视觉】数字图像处理（五）—— 图像的退化与复原

数字图像处理（五）—— 图像的退化与复原 * – 一、图像退化 – + 图像退化的定义： – 二、图像复原 – + （一）、图像复原…

人工智能 2023年7月28日
00130
数据集 TPC-H、TPC-DS、IMDB的导入使用

一. TPC-H 数据集数据集下载 TPC-H数据集可采用gcc下载或者直接下载zip包，然后解压即可。具体使用方法可以查看 dbgen文件目录下的：README文件数据表…

人工智能 2023年7月17日
00137
pytorch学习笔记十二：优化器

前言机器学习中的五个步骤：数据 ——> 模型 ——> 损失函数 ——> 优化器 ——> 迭代训练，通过前向传播，得到模型的输出和真实标签之间的差异，也就是损…

人工智能 2023年6月17日
00147
OCR（文字识别）功能与ASR（语音识别）的java应用开发（基于百度智能云）

百度云官网：百度智能云-智能时代基础设施百度智能云专注云计算、智能大数据、人工智能服务，提供稳定的云服务器、云主机、云存储、CDN、域名注册、物联网等云服务,支持API对接,快速…

人工智能 2023年5月23日
0091
《商务与经济统计》练习：案例3-4：天使巧克力的网络交易

此练习涉及的知识技能：描述统计学、相关关系分析、Excel（数据透视表、数据分析工具）的应用练习内容：三种数值变量（浏览网站时间、观看网页数量、消费金额）的图表和和数值汇总分…

人工智能 2023年7月15日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生信学习——GEO数据挖掘

步骤

大家都在看