数据库生存曲线_4个小时TCGA肿瘤数据库知识图谱视频教程又有学习笔记啦

早在三年前我就整理并且制作了TCGA肿瘤数据库知识图谱视频教程,一年半前免费公布在生信技能树的B站,现在勉勉强强也快有两万的观看量。

  • 视频地址:https://www.bilibili.com/video/av49363776
  • 代码地址:https://github.com/jmzeng1314/tcga_example

阅读量如下:

但是我有预感,这个阅读量会暴涨,里面的干货知识不能再被埋没了,课程配套代码发在GitHub的TCGA视频课程上面, 如下:

step00-install-packages.R
step01-getData-from-GDC.R
step01-getData-from-RTCGA.R
step01-getData-from-Xena.R
step01-getData-from-firehose.R
step02-DEG-3-packages.R
step03-batch-logRank.R
step04-batch-coxp.R
step05-lasso.R
step06-coxph-forest.R
step07-risk-score-distribution.R
step08-Random-foreast.R
step09-miRNA-downstream.R
step10-maftools.R
step11-boxplot.R
step12-correlation.R
step13-split-cohort.R
step14-timeROC.R
step15-choose_lncRNA.R
step16-clinical-tables.R
step17-mutation-signatures.R
step17-others.R
step18-SVM.R

基本上大家看到的TCGA数据库挖掘文章里面的主流分析要点都被我的代码覆盖了,你如果有R语言基础,实际上无需看视频,直接解析我的代码就ok了。

我给视频的配套教程有些过时了

关于TCGA数据下载,我挑选了部分,写了6个数据下载系列教程

  • TCGA的28篇教程- 使用R语言的cgdsr包获取TCGA数据(cBioPortal)
  • TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
  • TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据(FireBrowse portal)
  • TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)
  • TCGA的28篇教程-数据下载就到此为止吧
  • TCGA的28篇教程-整理GDC下载的xml格式的临床资料

但是,建议你选择UCSC的xena数据库下载方式。如果你看视频,并不需要全盘接受,把握住重点。

我也写了部分常见的TCGA数据库用法

  • TCGA的28篇教程-免疫全景图
  • TCGA的28篇教程-指定癌症查看感兴趣基因的表达量
  • TCGA的28篇教程-对TCGA数据库的任意癌症中任意基因做生存分析
  • TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
  • TCGA的28篇教程-数据挖掘三板斧之ceRNA
  • TCGA的28篇教程-所有癌症的突变全景图
  • TCGA的28篇教程-早期泛癌研究
  • TCGA的28篇教程-CNV全攻略
  • TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手

但是个人力量总归是有限的,我们生信技能树团队优秀R语言讲师(小洁)也学完了我的全套视频,在她自己的理解的基础上面,也给大家奉献了一套笔记:

小洁的笔记

细数下来,写了17篇TCGA相关的笔记,现对其进行完整梳理,一篇年度精品推文横空出世。再次重申:本系列是我的 TCGA学习记录,跟着生信技能树B站课程学的,已获得授权。课程链接: https://www.bilibili.com/video/av49363776

一、数据下载

1.官方工具GDC

需要去官网下载对应系统版本的GDC软件,存放在工作目录下。 关于这个工具前后写了三篇: (1)GDC数据下载 (2)GDC数据整理 (3)GDC数据整理续集 这个方法需要扎实的的linux命令行和R语言基础,仅仅是理解代码,也是需要花费一些时间的。

2.R包TCGA-biolinks

R包TCGAbiolinks下载数据 这是一个完全基于R语言的流程,下载的是最新的数据,其实还是基于GDC,更加集成化,操作简单很多,除了参数研究比较费时间,没有发现什么缺点。

3.R包RTCGA

使用RTCGA包获取数据 这是一个数据库式的包,把所有数据都包装进去了,导致包很大,不是最新的数据,但最简单。

总结一下这三种方法,都是分别下载表达矩阵和meta信息,但由于有的病人既有肿瘤样本,又有正常样本,导致他们并非是一一对应的关系,需要一定的R语言技巧。

二.差异分析

TCGA(转录组)差异分析三大R包及其结果对比 使用转录组三大R包deseq2,limma和edgeR分别进行差异分析。

三.生存分析

两种方法批量做TCGA生存分析 单个基因的生存分析可视化是很简单的,有非常好的R包可用,画出来的图要颜值有颜值,要内涵有内涵。

四.生存模型构建

课程中共使用了四种算法构建模型:

  • cox(可做单因素和多因素) TCGA的cox模型构建和风险森林图
  • lasso回归 用lasso回归构建生存模型+ROC曲线绘制
  • 随机森林 听起来很霸气用起来并不难的随机森林
  • 支持向量机 听起来很霸气用起来并不难的支持向量机

不管用了那种算法,核心都只是几句代码而已。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

  • 全国巡讲全球听(买一得五) ,你的生物信息学入门课
  • 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
  • 2020学习主旋律,B站74小时免费教学视频为你领路

Original: https://blog.csdn.net/weixin_39942492/article/details/112588059
Author: weixin_39942492
Title: 数据库生存曲线_4个小时TCGA肿瘤数据库知识图谱视频教程又有学习笔记啦

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/557795/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球