GO和KEGG富集分析详细步骤

2023年5月31日上午3:11 • 人工智能 • 阅读 148

GO和KEGG富集分析

文章目录

GO和KEGG富集分析
*
@[toc]
1. 将差异表达结果的基因名称转化为id
2. GO富集分析
3. GO圈图绘制
4. KEGG富集分析
5. KEGG圈图绘制

1. 将差异表达结果的基因名称转化为id

因为GO和KEGG分析需要用到id，所以这一步需要将基因名字转换为id。具体步骤如下：

新建空白文件夹，将差异分析得到的diff.xls复制粘贴到文件夹中
因为在这里只需要diff.xls中的基因名称和logFC两列，所以只复制这两列粘贴到新建的文本文件symbol.txt，如下图所示：
新建R语言脚本文件symbol2id.R，代码如下：

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("org.Hs.eg.db")

setwd("C:\\Users\\Administrator\\Desktop\\cptac\\4_name2id")          #设置工作目录

library("org.Hs.eg.db")          #引用包
rt=read.table("symbol.txt",sep="\t",check.names=F,header=T)    #读取文件
genes=as.vector(rt[,1])
entrezIDs

设置好工作目录之后，打开R软件，运行上述代码即可。运行结束在文件夹中会有id.txt，打开后如下图所示：

2. GO富集分析

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库，旨在建立一个适用于各种物种的、对基因和蛋白质功能进行限定和描述的、并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种，提供了三层结构的系统定义方式，用于描述基因产物的功能。在转录组项目中，GO功能分析一方面给出差异表达转录本的GO功能分类注释；另一方面给出差异表达转录本的GO功能显著性富集分析。

下面介绍GO分析的步骤：

将含有基因id的文本文件id.txt复制粘贴到新的文件夹中
新建R语言脚本，命名为GO.R，其代码如下：

install.packages("colorspace")
install.packages("stringi")
install.packages("ggplot2")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("DOSE")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("clusterProfiler")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("enrichplot")

library("clusterProfiler")
library("org.Hs.eg.db")
library("enrichplot")
library("ggplot2")

setwd("C:\\Users\\Administrator\\Desktop\\cptac\\5_GO分析")                  #设置工作目录
rt=read.table("id.txt",sep="\t",header=T,check.names=F)           #读取id.txt文件
rt=rt[is.na(rt[,"entrezID"])==F,]                                 #去除基因id为NA的基因
gene=rt$entrezID

#GO富集分析
kk

这里GO分析用到的包为”clusterProfiler”，画图用到的包为”enrichplot”。 在代码中会设置p值和q值，设置的都是0.05，如果该条件下分析得到的可用基因较少，可将q设置为0，只看p值，但这样准确性也会降低一些。
3. 打开R软件，运行上述代码，最终得到的结果如下图所示，下图按顺序分别是柱状图、气泡图以及GO分析结果。

4. 讲一下GO分析得到的文本文件，也就是上面三幅图中的最后一幅图，第一列是GO分析的分类，分别是BP，CC，MF；第二列是GO的id；第三列为对应的描述；第四列为基因背景的比例；第五列为p值，表示富集的显著性；第六列为p值得校正值；第七列为q值；第八列为基因id，也就是基因名称；最后一列就是富集在每个GO上的数目。 对于柱状图和气泡图，会分为BP，CC，MF，每个类别颜色越红表示富集程度越高。

3. GO圈图绘制

话不多说，直接上步骤。

新建R语言脚本文件GOplot.R，脚本文件和GO分析得到的结果放在同一目录下，其代码如下：

install.packages("digest")
install.packages("GOplot")

library(GOplot)
setwd("C:\\Users\\Administrator\\Desktop\\cptac\\6_GO圈图绘制")              #设置工作目录

ego=read.table("GO.txt", header = T,sep="\t",check.names=F)      #读取kegg富集结果文件
go=data.frame(Category = "All",ID = ego$ID,Term = ego$Description, Genes = gsub("/", ", ", ego$geneID), adj_pval = ego$p.adjust)

#读取基因的logFC文件
id.fc

打开R软件运行上述代码即可。最终即可得到两个圈图，如下图所示：

4. KEGG富集分析

将差异分析得到的含有id的id.txt文件作为输入文件，新建文件夹，将id.txt拷贝到此文件夹下
新建R语言脚本文件，更改脚本文件的环境目录，代码如下：

install.packages("colorspace")
install.packages("stringi")
install.packages("ggplot2")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("DOSE")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("clusterProfiler")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("enrichplot")

library("clusterProfiler")
library("org.Hs.eg.db")
library("enrichplot")
library("ggplot2")

setwd("C:\\Users\\Administrator\\Desktop\\cptac\\7_KEGG分析")            #设置工作目录
rt=read.table("id.txt",sep="\t",header=T,check.names=F)       #读取id.txt文件
rt=rt[is.na(rt[,"entrezID"])==F,]                             #去除基因id为NA的基因
gene=rt$entrezID

#kegg富集分析
kk

打开R软件运行上述代码，即可得到结果。
运行完之后还会得到KEGGId.txt，里面的需要将里面的id转化为基因名字。因此新建perl脚本文件，代码太长，这里就不展示了。在该文件夹目录下打开powershell窗口，输入命令perl id2symbol.pl，运行完毕之后文件夹目录下就会产生新的含有基因名字的kegg文件，文件名为kegg.txt
至此，KEGG分析完毕

5. KEGG圈图绘制

这里的圈图绘制和上面的GO圈图绘制步骤一样的。话不多说，直接上代码：

install.packages("digest")
install.packages("GOplot")

library(GOplot)
setwd("C:\\Users\\Administrator\\Desktop\\cptac\\8_KEGG圈图绘制")              #设置工作目录

ego=read.table("kegg.txt", header = T,sep="\t",check.names=F)       #读取kegg富集结果文件
go=data.frame(Category = "All",ID = ego$ID,Term = ego$Description, Genes = gsub("/", ", ", ego$geneID), adj_pval = ego$p.adjust)

#读取基因的logFC文件
id.fc

这里将代码的工作环境更改一下，然后将kegg分析所得到的kegg.txt和之前的id.txt复制到同一目录下，然后打开R软件运行代码即可。得到的圈图如下：

至此，KEGG圈图绘制结束。

Original: https://blog.csdn.net/tqptr_opqww/article/details/124881210
Author: 涂apple
Title: GO和KEGG富集分析详细步骤

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548189/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python读取json格式文件大量数据，以及python字典和列表嵌套用法详解

1.Python读取JSON报错:JSONDecodeError:Extra data:line 2 column 1 错误原因： JSON数据中数据存在多行，在读取数据时，不能够…

人工智能 2023年7月5日
0084
【Python数据分析】数据挖掘建模——聚类分析

聚类算法是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法，是一种无监督学习方法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，…

人工智能 2023年7月15日
0050
深度学习—鸢尾花分类—注意力机制模型和一般线性神经网络

注意力机制模型一般，线性模型的全连接网络如下，图1. 线性模型全连接神经网络图1是一个全连接的神经网络，所有特征有等同的地位。在前向传播中，前一层网络的节点和下一层网络的节点…

人工智能 2023年7月13日
0062
HIT机器学习实验三聚类R语言参考代码

library(scatterplot3d) 一键清空 rm(list=ls()) 打印颜色的函数 color Y Original: https://blog.csdn.net/…

人工智能 2023年6月2日
00105
TVM 加速模型，优化推断

TVM 是一个开源深度学习编译器，可适用于各类 CPUs, GPUs 及其他专用加速器。它的目标是使得我们能够在任何硬件上优化和运行自己的模型。不同于深度学习框架关注模型生产力，T…

人工智能 2023年6月4日
0078
【机器学习】数据增强(Data Augmentation)

文章目录一、引言 – 背景二、为什么需要数据增强？三、什么是数据增强？ * 定义分类四、有监督的数据增强 * 1. 单样本数据增强 – （1）几何…

人工智能 2023年7月25日
0071
DistMult 论文笔记

EMBEDDING ENTITIES AND RELATIONS FOR LEARNING AND INFERENCE IN KNOWLEDGE BASES – Abs…

人工智能 2023年5月27日
00111
python珍藏宝藏学习资料

因为对Python还蛮感兴趣的，所以总结一下Python学习资料，包括三部分：一、可以学习Python的地方这个是我在百度经验看到别人总结的，觉得还不错，直接拿过来用了~ 二、…

人工智能 2023年7月5日
0091
为什么说EBC是提升企业“数治”水平的最优解

全面拥抱 EBC ，能够让企业在这个不确定的时代找寻更多发展机会，于时代洪流中实现韧性增长。作者|子雨出品|产业家中国的医药、医疗行业一直以来都是商家林立、相对分散的传统业态…

人工智能 2023年6月28日
0084
《天池龙珠 – Python训练营》04.Python数据分析：从0完成一个数据分析实战

目录 1、赛前准备 2、数据处理 3、数据探索与清洗 4、数据分析与数据可视化 5、补充 1、赛前准备按照官方的新手教程，大致可概括为以下内容：数据源介绍（详情参考训练营文档）…

人工智能 2023年6月11日
0078
MATLAB从入门到精通：MATLAB调色板，作图更酷炫

绘图最主要的一个因素之一是色彩的搭配，比如画几条曲线的图，那么很有必要给这些曲线搭配一些容易区分的颜色，这样画出来的图一目了然。 MATLAB的画图函数plot提供了最基本的8种颜…

人工智能 2023年6月22日
0056
基于Matlab利用移动目标指示雷达抑制地面杂波（附源码）

目录一、构建雷达系统二、定义目标三、杂波四、仿真接收到的脉冲和匹配滤波器五、使用三脉冲消除器执行六、使用交错PRF模拟接收到的脉冲七、对交错的 PRF 执行八、总结…

人工智能 2023年6月26日
0098
pandas 实现无关联key数据交叉连接（cross join）

有两个数据帧，分别有一列col1，col2，他们没有相同的key： left = pd.DataFrame({‘col1’ : [‘A’, ‘B’, ‘C’]}) right = …

人工智能 2023年7月8日
0070
opencv圆形网格提取函数findCirclesGrid源码笔记

opencv–findCircle源码笔记函数处理流程源码分析 * findCirclesGrid源码 findCirclesGrid2 函数源码 – …

人工智能 2023年6月18日
0084
【无标题】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
00133
【小记】BatchSize的数值是设置的越大越好吗

通常我们可能会认为设置较大的batchsize时，模型的训练效果会比较好。原因有以下几点： 1、模型由于每次得到较多的训练数据，模型的下降方向会更加准确，模型训练曲线会更加平滑。 …

人工智能 2023年7月26日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31