数据库生存曲线_4个小时TCGA肿瘤数据库知识图谱视频教程又有学习笔记啦

2023年6月1日下午5:13 • 人工智能 • 阅读 76

早在三年前我就整理并且制作了TCGA肿瘤数据库知识图谱视频教程，一年半前免费公布在生信技能树的B站，现在勉勉强强也快有两万的观看量。

视频地址：https://www.bilibili.com/video/av49363776
代码地址：https://github.com/jmzeng1314/tcga_example

阅读量如下：

但是我有预感，这个阅读量会暴涨，里面的干货知识不能再被埋没了，课程配套代码发在GitHub的TCGA视频课程上面，如下：

step00-install-packages.R
step01-getData-from-GDC.R
step01-getData-from-RTCGA.R
step01-getData-from-Xena.R
step01-getData-from-firehose.R
step02-DEG-3-packages.R
step03-batch-logRank.R
step04-batch-coxp.R
step05-lasso.R
step06-coxph-forest.R
step07-risk-score-distribution.R
step08-Random-foreast.R
step09-miRNA-downstream.R
step10-maftools.R
step11-boxplot.R
step12-correlation.R
step13-split-cohort.R
step14-timeROC.R
step15-choose_lncRNA.R
step16-clinical-tables.R
step17-mutation-signatures.R
step17-others.R
step18-SVM.R

基本上大家看到的TCGA数据库挖掘文章里面的主流分析要点都被我的代码覆盖了，你如果有R语言基础，实际上无需看视频，直接解析我的代码就ok了。

我给视频的配套教程有些过时了

关于TCGA数据下载，我挑选了部分，写了6个数据下载系列教程：

TCGA的28篇教程- 使用R语言的cgdsr包获取TCGA数据（cBioPortal）
TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据（离线打包版本）
TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据（FireBrowse portal）
TCGA的28篇教程- 批量下载TCGA所有数据（ UCSC的 XENA）
TCGA的28篇教程-数据下载就到此为止吧
TCGA的28篇教程-整理GDC下载的xml格式的临床资料

但是，建议你选择UCSC的xena数据库下载方式。如果你看视频，并不需要全盘接受，把握住重点。

我也写了部分常见的TCGA数据库用法：

TCGA的28篇教程-免疫全景图
TCGA的28篇教程-指定癌症查看感兴趣基因的表达量
TCGA的28篇教程-对TCGA数据库的任意癌症中任意基因做生存分析
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
TCGA的28篇教程-数据挖掘三板斧之ceRNA
TCGA的28篇教程-所有癌症的突变全景图
TCGA的28篇教程-早期泛癌研究
TCGA的28篇教程-CNV全攻略
TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手

但是个人力量总归是有限的，我们生信技能树团队优秀R语言讲师（小洁）也学完了我的全套视频，在她自己的理解的基础上面，也给大家奉献了一套笔记：

小洁的笔记

细数下来，写了17篇TCGA相关的笔记，现对其进行完整梳理，一篇年度精品推文横空出世。再次重申：本系列是我的 TCGA学习记录，跟着生信技能树B站课程学的，已获得授权。课程链接： https://www.bilibili.com/video/av49363776

一、数据下载

1.官方工具GDC

需要去官网下载对应系统版本的GDC软件，存放在工作目录下。关于这个工具前后写了三篇： (1)GDC数据下载 (2)GDC数据整理 (3)GDC数据整理续集这个方法需要扎实的的linux命令行和R语言基础，仅仅是理解代码，也是需要花费一些时间的。

2.R包TCGA-biolinks

R包TCGAbiolinks下载数据这是一个完全基于R语言的流程，下载的是最新的数据，其实还是基于GDC，更加集成化，操作简单很多，除了参数研究比较费时间，没有发现什么缺点。

3.R包RTCGA

使用RTCGA包获取数据这是一个数据库式的包，把所有数据都包装进去了，导致包很大，不是最新的数据，但最简单。

总结一下这三种方法，都是分别下载表达矩阵和meta信息，但由于有的病人既有肿瘤样本，又有正常样本，导致他们并非是一一对应的关系，需要一定的R语言技巧。

二.差异分析

TCGA（转录组）差异分析三大R包及其结果对比使用转录组三大R包deseq2，limma和edgeR分别进行差异分析。

三.生存分析

两种方法批量做TCGA生存分析单个基因的生存分析可视化是很简单的，有非常好的R包可用，画出来的图要颜值有颜值，要内涵有内涵。

四.生存模型构建

课程中共使用了四种算法构建模型：

cox(可做单因素和多因素) TCGA的cox模型构建和风险森林图
lasso回归用lasso回归构建生存模型+ROC曲线绘制
随机森林听起来很霸气用起来并不难的随机森林
支持向量机听起来很霸气用起来并不难的支持向量机

不管用了那种算法，核心都只是几句代码而已。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

全国巡讲全球听（买一得五），你的生物信息学入门课
生信技能树的2019年终总结，你的生物信息学成长宝藏
2020学习主旋律，B站74小时免费教学视频为你领路

Original: https://blog.csdn.net/weixin_39942492/article/details/112588059
Author: weixin_39942492
Title: 数据库生存曲线_4个小时TCGA肿瘤数据库知识图谱视频教程又有学习笔记啦

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557795/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文解析:Matrix Capsule

Matrix network 《MATRIX CAPSULES WITH EM ROUTING》总体介绍 matrix network是对前一篇capsule network的改…

人工智能 2023年6月2日
0060
Faceswap文档之—使用手册

前言本篇博客，记录了使用github上的明星项目faceswap的过程，和一些踩坑记录。这个项目可以很好的实现视频换脸，感兴趣同学可以试一下。说明：本篇文章我将项目部署在linu…

人工智能 2023年5月23日
0089
深度学习系列37：CLIP模型

1 模型说明含义：CLIP（Contrastive Language-Image Pre-training）git地址：https://github.com/openai/CLI…

人工智能 2023年6月22日
0090
德国iF多项大奖加冕，这副耳机有多强？音珀GTW 270 Hybrid深度评测

传统耳机和电竞耳机，我们一般都是有针对性的选择，毕竟市场可以二合一，而且两方面打出优秀的耳机产品并不多，而对于电竞耳机，尤其是电脑PC游戏，大多以耳机为主，相对而言，耳机对于游戏音…

人工智能 2023年5月23日
0073
Adult数据集分析及四种模型实现

文章目录一、数据集 * 数据集介绍数据集预处理及分析二、四种模型对上述数据集进行预测 * 深度学习决策树支持向量机随机森林三、结果分析一、数据集数据集下载：htt…

人工智能 2023年6月15日
0082
用python实现主成分分析（PCA）

用python实现主成分分析（PCA） python应用实例：如何用python实现主成分分析 * 背景 iris数据集简介算法的主要步骤代码实现查看各特征值的贡献率 pyt…

人工智能 2023年5月26日
0097
15 本你必须阅读的 PyTorch 书籍

PyTorch 书籍使用 PyTorch 进行深度学习将使这一旅程变得引人入胜且充满乐趣。 PyTorch 是另一个深度学习库，它实际上是 Chainer（完全基于 python…

人工智能 2023年7月21日
0048
深度学习论文精读[13]：Deeplab v3+

Deeplab v3+是Deeplab系列最后一个网络结构，也是基于空洞卷积和多尺度系列模型的集大成者。相较于Deeplab v3，v3+版本参考了UNet系列网络，对基于空洞卷积…

人工智能 2023年6月25日
0073
[Pytorch]多层感知机（MLP）回归的实现、训练与评估

文章目录前言一、网络主体构建 * 1.网络构建 1.网络结构可视化二、数据集构建与网络训练 * 1.数据集构建 2.网络训练三、网络评估总结前言 MLP是一种常用的前馈…

人工智能 2023年7月20日
0041
python socket 通信（发送文字、图片、文件）

1、IP/TCP/UDP简介 1.1、IP协议互联网上每个计算机的唯一标识就是 IP 地址。IP 地址实际上是一个32位整数（称为IPv4），它是以字符串表示的 IP 地址，如：…

人工智能 2023年7月5日
0063
CIKM 2021 | DISENKGAT：知识图谱解耦表征学习

©PaperWeekly 原创 · 作者 | 吴俊康学校 | 中国科学技术大学硕士生研究方向 |信息检索论文标题： DisenKGAT: Knowledge Graph Em…

人工智能 2023年6月1日
0066
资产风险的分类及风险测度理论与方法

风险概述风险是指事件发生与否的不确定性，用在金融资产上，风险指的是获得收益的不确定性，通常以实际收益与期望收益的偏离来表示。风险分类市场风险又称为系统性风险，是指能够对所有…

人工智能 2023年7月3日
0084
图像处理基础（OpenCV）

python与c#互相调用 pythonnet是一个强大的工具包，用于C#代码与python代码进行交互，不仅可以实现在C#中调用python，也可以实现在python中调用C#….

人工智能 2023年6月22日
0081
python导入Graphviz库-画决策树图

学习决策树时，发现如果要用python画决策树，python需要导入Graphviz库，看了几篇csdn，发现个别文章不是很全，会出错误，这里简单记录下完整过程。文章目录 0.下…

人工智能 2023年7月6日
0071
简明扼要理解YOLOX

首先来看看YOLOX的网络结构图如上图将这个网络分为四个部分：1，输入端；2，Backbone；3，Neck；4 Prediction 输入端在yolox的输入端采用了 Mos…

人工智能 2023年7月26日
0060
pip安装python库时报Failed building wheel for xxx

目录一、问题描述二、解决办法 1. 下载并安装对应的 .whl 文件 2. 安装 .whl 文件一、问题描述如题，在使用pip install xxx的方法安装python…

人工智能 2023年7月4日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31