R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

这个临床模型预测会针对一个案例进行讲解,目录如下:

1.下载数据

  1. 匹配基因

  2. 基因去重复

4.匹配临床数据

5.批量cox回归分析

6.差异表达基因筛选

7.取交集,选出预后相关的差异表达基因

8.森林图绘制

9.lasso回归进一步排除具有共线性的基因

10.验证集验证,数据合并验证

11.多因素cox回归建模

12.列线图

13.矫正曲线

14.ROC曲线分析

我们的案例就是自噬相关基因与肾癌:

那么我要做临床模型预测,首先肯定是筛基因,比如我们的研究方向是铁死亡相关基因,那么我们就得将铁死亡相关基因给全部找出来。

第一步,下载基因,对数据库的基因进行匹配。

自噬相关基因有一个数据库,在我们之前的文章中有讲过:

注意:由于自噬数据库最近打不开了,所以我将自噬相关基因上传到百度网盘上,供大家练习:

链接:https://pan.baidu.com/s/1dgUVqcoVoQvmLvQtKukSQA
提取码:z9m2
–来自百度网盘超级会员V5的分享

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

简单来说呢,就是把这些基因复制,粘贴到Excel里面。

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

全选,复制:

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

粘贴完了以后,我们需要对空格进行一下处理,因为自噬数据库呢,没有下载的地方我们只能这样手动粘贴,然后手动删减。

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

总之,处理好了以后,就剩下三列,我们最主要的就是要Symbol这一列。

注意:由于自噬数据库最近打不开了,所以我将自噬相关基因上传到百度网盘上,供大家练习:

链接:https://pan.baidu.com/s/1dgUVqcoVoQvmLvQtKukSQA
提取码:z9m2
–来自百度网盘超级会员V5的分享

下面我们得准备KIRC的测序数据和临床数据,大家可以取UCSC xena下载。不过下载的数据是FPKM格式的,需要传承TPM或者LCPM格式。

因为FPKM格式做的文章是容易受到质疑的。

在我的资源里面已经对TCGA的数据库进行了格式转换,id转换,大家也可以直接进入我的资源去下载:TCGA-KIRC-mRNA表达数据——肾透明细胞癌表达及临床数据集整理_黑色素瘤TCGA-数据挖掘文档类资源-CSDN下载TCGA-KIRC数据集已经整理成LCPM格式,临床数据已经汇总整理。LCPM格式即log2(CP黑色素瘤TCGA更多下载资源、学习资料请访问CSDN下载频道.R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑https://download.csdn.net/download/weixin_46500027/84997590?spm=1001.2014.3001.5503 ;

下载完了以后解压缩,和前面的自噬相关基因放在一起。

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

下面我们挨个看看这些文件里面的内容:

第一个KIRC_clinicalMatrix:

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

这个临床文件是整理好了的,包含了所有KIRC的临床信息。

下面的KIRC_LCPM是RNA-sequence数据:

这个数据是id转换完了,也从FPKM转成了LCPM格式,包含肿瘤和正常组织的6万多个基因的测序数据,是可以直接拿来用的。

当然有些研究者也还在沿用TPM格式,后面我也会陆续上传到我的资源里面,或者大家自己转一转格式。

这里使用LCPM格式的原因,是因为我之前发的一篇六分的文章,审稿人说FPKM和TPM格式有点过时了,建议我转成LCPM格式,所以我才跟大家介绍这种格式。我也特地去查了查文献,确实LCPM格式的稳定性比其他两种要强一些。这些都是有文献支持的。

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

这是RNA-seq数据。

下面是自噬相关基因的数据:

R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

准备好这些数据以后,下一期我将给大家讲id转换,以及批量单因素cox回归分析。

温馨提示:完成本专栏的学习,就可以发文章啦!

Original: https://blog.csdn.net/weixin_46500027/article/details/124088364
Author: 楷然教你学生信
Title: R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第一步,下载数据。本专栏可免费答疑

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/626901/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球