新版TCGA不同癌种数据合并

2023年6月29日下午11:17 • 人工智能 • 阅读 108

很多文章对于TCGA中的一些癌症都是联合分析的，比如TCGA-COAD和TCGA-READ，首先是它们的疾病特点和治疗方式存在很多相似之处，同时这样做也可以增大样本量。

如果你是使用 TCGAbiolinks包下载的数据，那么它们的合并超级简单，直接 cbind()即可！

加载数据和R包

数据都是之前下载好的，可以参考之前的推文：

我们直接加载TCGA-COAD和TCGA-READ的数据。


load(file = "./TCGA-mRNA/TCGA-COAD_mRNA.Rdata")
coad  data

load(file = "./TCGA-mRNA/TCGA-READ_mRNA.Rdata")
read  data

合并数据

现在 coad和 read都是 SummarizedExperiment对象，并且具有相同的行和行名：

coad

read

对于这样的数据我们直接合并即可，我认为这是目前合并两个癌种最方便的方法了！


colrectal  cbind(coad,read)

colrectal

得到的结果也是一个 SummarizedExperiment对象。并且这个对象中各种信息也是保存好的，想用什么直接提取即可，非常方便。

但是这样合并可能涉及批次效应的问题，大家在实际使用时可根据自己的情况选择要不要去除批次效应！

提取信息

比如提取样本的临床信息，非常简单，甚至不需要重新下载：

clin  as.data.frame(colData(colrectal))

clin[1:10,1:10]

dim(clin)

colnames(clin)[10:30]

现在一共有698行，107列临床信息， 你想要的生存时间、生存状态、样本类型、分期等信息都在里面，都不需要自己手动划分，想要什么直接取子集就好了。

比如大家最喜欢的生存信息：

clin_subset  clin[,c("days_to_last_follow_up","vital_status")]

head(clin_subset)

合并miRNA

也是一样的操作。

rm(list = ls())

load(file = "./TCGA-mirna/TCGA-COAD_miRNA.Rdata")
coad  data

load(file = "./TCGA-mirna/TCGA-READ_miRNA.Rdata")
read  data

可以看到两个表达矩阵的第一列（miRNA的名字），完全一样：

identical(coad$miRNA_ID,read$miRNA_ID)

所以我们直接合并即可：

但是miRNA的表达矩阵现在还有点问题，它包含3种信息：count/rpm/cross-mapped，而我们只需要count，所以还是要处理一下。

dim(colrectal_mi)

colrec_mi  colrectal_mi[,c(1,seq(2,1891,by=3))]
dim(colrec_mi)

colnames(colrec_mi)[-1]  substr(colnames(colrec_mi)[-1],12,39)

colrec_mi[1:5,1:5]

简单！

合并CNV

rm(list = ls())
load("G:/tcga/TCGA-CNV/TCGA-COAD_CNV.Rdata")
coad  data

load("G:/tcga/TCGA-CNV/TCGA-READ_CNV.Rdata")
read  data

colrec_cnv  rbind(coad,read)

head(colrec_cnv)

这个文件稍加整理就可以拿去给gistic用了。

合并SNP

rm(list = ls())

load("G:/tcga/TCGA-SNP/TCGA-READ_SNP.Rdata")
read  data

load("G:/tcga/TCGA-SNP/TCGA-COAD_SNP.Rdata")
coad  data

colrec_snp  rbind(coad,read)

这样以后再分析就可以用合并后的数据了！

Original: https://blog.csdn.net/Ayue0616/article/details/127824228
Author: 医学和生信笔记
Title: 新版TCGA不同癌种数据合并

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/660159/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Windows11】Cuda和Cudnn详细安装教程

1. 介绍 cuda： Compute Unified Device Architecture，是一种有NVIDIA推出的通用并行计算架构，该架构使 GPU能够解决复杂的计算问…

人工智能 2023年5月26日
0066
Python环境配置教程（超详细图文版）

Python环境配置教程说明本教程为一个python入门教程，面向初学者，因此内容较为详细。主要内容为python环境配置教程，包括Anaconda，PyCharm，Jupyt…

人工智能 2023年7月5日
00103
dlib.get_frontal_face_detector()及detector()返回值

目录 1.结论 2.验证过程 2.1代码 2.2数据：传入图片（必应搜索获取） 2.3输出结果 3.参考致谢 1.结论 detector=dlib.get_frontal_face…

人工智能 2023年5月28日
00102
简述Pytorch多卡训练原理与实现

一、多卡训练原理 1.为什么要多卡训练：简单来说，有两种原因：第一种是模型在一块GPU上放不下，两块或多块GPU上就能运行完整的模型（如早期的AlexNet）。第二种是多块GPU…

人工智能 2023年7月21日
0063
机器学习实验四：朴素贝叶斯分类

文章目录 * – 一、算法介绍 – 二、朴素贝叶斯分类的优缺点 – 三、代码简单实现一、算法介绍贝叶斯分类算法是一大类分类算法的总称，贝叶斯…

人工智能 2023年7月2日
0080
NLP 实战 (9) | CSDN topN指数月排行榜竞赛动画

开源一个 topn 词竞赛动画项目 topn_race: GitCode 仓库：https://gitcode.net/csdn/topn_race 核心功能：输入：按月统计的t…

人工智能 2023年5月30日
0086
自动驾驶算法详解(1) : Apollo路径规划 Piecewise Jerk Path Optimizer的python实现

本文作为 Apollo Planning决策规划代码详细解析系列文章的补充，将使用Python代码以及anaconda环境，来实现Apollo 决策规划Planning 模块里的 …

人工智能 2023年6月15日
00126
python绘制相关系数热力图

python绘制相关系数热力图一.数据说明和需要安装的库二.准备绘图三.设置配色，画出多幅图全部代码：本文讲述如何利用python绘制如上的相关系数热力图 ; 一.数据说…

人工智能 2023年7月30日
0067
【技术白皮书】第一章：基于深度学习的文本检测与识别的技术背景

1.技术背景 1.1技术背景——什么是文本检测与识别 OCR全称Optical Character Recognition，即光学字符识别，最早在1929年被德国科学家Taus…

人工智能 2023年6月20日
00105
OpenKE实现转移距离模型trans系列代码

OpenKE实现转移距离模型trans系列代码前言前段时间学习了知识图谱表示的转移距离模型trans系列大礼包，编辑这篇博客的起因是一个学妹找我要trans系列的代码，所以就在…

人工智能 2023年6月1日
0067
深度学习论文精读[7]：nnUNet

相较于常规的自然图像，以UNet为代表的编解码网络在医学图像分割中应用更为广泛。常见的各类医学成像方式，包括计算机断层扫描（Computed Tomography, CT）、核磁共…

人工智能 2023年6月13日
0085
3.0 Maixpy(maixduino)的简单使用、训练的讲解，识别程序和视频播放的讲解（以垃圾分类为例）

注意！！！这篇文章写于2021年10月，但是我使用这个开发板是在2020年8月到12月的期间用的，并且这块板子还是比较新的，也是最近一段时间资料才开始逐渐完善的。当时我用的时候…

人工智能 2023年7月2日
0091
机器学习实战-泰坦尼克号生存预测案例

泰坦尼克号生存预测案例操作平台：Jupyter Notebook 实验数据：从官方下载的泰坦尼克号测试集与训练集使用语言：python 实验步骤：这里首先我们看看这些标签代表…

人工智能 2023年7月28日
0047
监督学习中的标签是什么意思？它们如何被用于训练机器学习模型

1. 问题背景在监督学习中，标签是指训练数据中的目标变量或输出变量，即我们希望机器学习模型能够预测或分类的值。标签可以是离散的，比如分类问题中的类别标签，也可以是连续的，比如回归…

人工智能 2024年1月2日
0095
自制AVA数据集工具/slowfast模型训练数据集制作

AVA2.1版本更新了追踪这一列。那2.2版本请参考此链接文章：自定义ava数据集及训练与测试完整版时空动作/行为视频数据集制作 yolov5, deep sort, V…

人工智能 2023年7月22日
0065
【论文翻译】CP-GAN: CONTEXT PYRAMID GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT

论文阅读：CP-GAN: CONTEXT PYRAMID GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT 时间：2020…

人工智能 2023年5月25日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31