R学习 / 生存分析

2023年6月17日下午2:21 • 人工智能 • 阅读 86

1.1 基本概念

生存时间（survival time）：一般指从起始事件到终止事件所经历的时间，例如患某疾病的患者从发病到死亡的时间。
失效事件（failure event）与起始事件：失效事件一般指死亡事件或终点事件。起始事件是反映生存时间起始特征的事件，如疾病的确诊、治疗开始等。两者均需在设计时明确规定。
删失数据（censored data）：指在随访过程中，由于某种原因未能观察到患者的明确结局（终点事件），或称截尾。可能是失访、退出或终止等，其生存时间一般以”+”表示。
生存时间资料的分布特征：一般通过随访获得，因观察时间长且难以控制混杂因素，再加上存在截尾数据，规律难以估计，一般为正偏态分布。

1.2 主要研究内容

描述生存过程：估计生存率及平均存活时间，绘制生存曲线描述生存时间的分布特点。常用方法为 Kaplan-Meier法（乘积极限法）、寿命法等非参数法（无需假定生存时间的分布类型）。
比较生存过程：比较各样本生存率及其标准误，探讨各总体的生存过程是否有差别。常用方法： log-rank检验，比较两组或多组的生存曲线。
影响生存时间的因素分析：通常以生存时间和结局为应变量，影响因素作为自变量，拟合生存分析模型，探讨影响生存时间的因素。常用方法： cox模型（半参数法），对数logistic回归分析、Weibull分布法等参数法（需假定生存时间的的参数分布类型）。
竞争风险模型（有空再补充）

2.1 R包

生存分析的R包一般用 survival包和 survminer包。 survival包用于分析， survminer包用于绘图。

survival包核心函数：

Surv()：创建生存对象
survfit()：使用公式或以构建的cox模型拟合生存曲线
coxph()：拟合cox比例风险回归模型
survdiff()：用log-rank或mantel-Haenszel test 检验生存差异
cox.zph()：检验cox模型的比例风险假设

data$surv  Surv(time, status)
Surv(time, time2, event, type=c('right', 'left', 'interval', 'counting', 'interval2', 'mstate'),origin=0)

lung$surv  Surv(time = lung$time, lung$status == 2)

2.2 实例分析

绘制生存曲线，比较生存率

ggsurvplot()：绘制生存曲线

library("survival")
library("survminer")
head(lung)

sfit  survfit(formula = Surv(time, status)~1,data = lung)
summary(sfit)
sfit  survfit(formula = Surv(time, status)~sex, data = lung)
summary(sfit)
summary(sfit, times=seq(0, 1000, 100))
ggsurvplot(sfit, data = lung)

res.sum  surv_summary(sfit)
head(res.sum[res.sum$sex==1,])
head(res.sum[res.sum$sex==2,])
ggsurvplot(sfit,pval = TRUE, conf.int = TRUE,
           risk.table = TRUE)

surv_diff  survdiff(Surv(time, status) ~ sex, data = lung)
surv_diff
p.val = 1 - pchisq(surv_diff$chisq, length(surv_diff$n) - 1)
p.val

lung$age_cut  cut(lung$age, breaks = c(0, 70, Inf), labels = c("young", "old"))
fit  survfit(Surv(time, status)~age_cut, data = lung)

summary(fit)
ggsurvplot(fit, data = lung)

在新的survminer 0.2.4版本中，新增了可以一次确定一个或多个连续变量最佳分割点的函数 surv_cutpoint()与 surv_categorize()

Cox回归分析

cox回归模型： coxph(Surv(time, status) ~ x1 + x2 + ..., data = )
单因素分析：可以用 lapply(), sapply(), function()等批量分析和展示结果
多因素分析： ggforest()以森林图展示各因素的HR

fit  coxph(Surv(time, status)~sex, data=lung)
summary(fit)
cox.zph(fit)
plot(cox.zph(fit))

covariates  c("age", "sex", "ph.karno", "ph.ecog", "wt.loss")
univ_formulas  sapply(covariates,function(x) as.formula(paste('Surv(time, status)~', x)))
univ_models  lapply( univ_formulas, function(x){coxph(x, data = lung)})
hr_results  function(x){
        x  summary(x)
        p.valuesignif(x$wald["pvalue"], digits=2)
        wald.testsignif(x$wald["test"], digits=2)
        betasignif(x$coef[1], digits=2)
        HR round(x$coef[2], 2)
        HR.confint.lower  round(x$conf.int[,"lower .95"], 2)
        HR.confint.upper  round(x$conf.int[,"upper .95"],2)
        HR.with.CI  paste0(HR, " (", HR.confint.lower, "-", HR.confint.upper, ")")
        resc(beta, HR.with.CI, wald.test, p.value)

        return(res)}
univ_results  lapply(univ_models,hr_results)
res  t(as.data.frame(univ_results, check.names = FALSE))
res1  as.data.frame(res)

res.cox  coxph(Surv(time, status) ~ age + sex + ph.ecog, data = lung)
summary(res.cox)
ggforest(res.cox, data = lung,
         main = "Hazard ratio",
         cpositions = c(0.10, 0.22, 0.4),
         fontsize = 1.0)

Cox回归的重要假设：变量对于hazard rate的影响不随时间的变化而变化（等比例），可通过 cox.zph(fit)检验

多重插补法

sum(!complete.cases(lung))

md.pattern(lung, 5)
lung_cmplt  mice(lung, 5)
lung_cmplt_3  complete(lung_cmplt, 3)
lung_cmplt_3$surv  Surv(lung_cmplt_3$time, lung_cmplt_3$status == 2)
fit  survfit(surv~age, data = lung_cmplt)
ggsurvplot(fit, pval = TRUE)

使用多重插补法与直接删除缺失变量后进行cox回归，作敏感性分析。

2.3 生存曲线的进阶版

ggsurvplot() is a generic function to plot survival curves.
ggsurvplot_list() 绘制多个对象
ggsurvplot_facet() 分面到多个panels
ggsurvplot_group_by() 一幅图中多个分组
ggsurvplot_add_all() 总合所有的情况
ggsurvplot_combine() 一个图中结合多个survfit对象

p1  ggsurvplot(fit,
           pval = TRUE, conf.int = TRUE,
           risk.table = TRUE,
           risk.table.col = "strata",
           linetype = "strata",
           surv.median.line = "hv",
           ggtheme = theme_bw(),
           palette = c("#E7B800", "#2E9FDF"))

p2  ggsurvplot(fit,
                 pval = TRUE,
                 conf.int = TRUE,
                 conf.int.style = "step",
                 xlab = "Time in days",
                 break.time.by = 200,
                 ggtheme = theme_light(),
                 risk.table = "abs_pct",
                 risk.table.y.text.col = T,
                 risk.table.y.text = FALSE,
                 ncensor.plot = TRUE,
                 surv.median.line = "hv",
                 legend.labs = c("Male", "Female"),
                 palette = c("#E7B800", "#2E9FDF")
)
arrange_ggsurvplots(list(p1,p2))

参数 fun="event"，表示cumulative event 累计事件发生率
参数 fun="cumhaz"，表示cummulative hazard累计风险水平（在时刻t，事件发生的可能性）

p3  ggsurvplot(fit,
           conf.int = TRUE,
           risk.table.col = "strata",
           ggtheme = theme_bw(),
           palette = c("#E7B800", "#2E9FDF"),
           fun = "event")
p4  ggsurvplot(fit,
              conf.int = TRUE,
              risk.table.col = "strata",
              ggtheme = theme_bw(),
              palette = c("#E7B800", "#2E9FDF"),
              fun = "cumhaz")
arrange_ggsurvplots(list(p3,p4))

ggsurvplot()和 ggforest()的使用还需实战提高，可以使用 R出矢量图后在 AI中调试各种图例参数和图形的比例等。

Original: https://blog.csdn.net/weixin_43131393/article/details/122423452
Author: 不遇_
Title: R学习 / 生存分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630411/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

〖Python自动化办公篇⑩〗- word文件自动化 – 设置图片样式与表格样式

### 回答1： Python_实现 _word 自动_排版是通过操作 _Word文档_来实现的。 _Word文档_是一种MS _Word_应用程序的文档格式，使用 _Python…

人工智能 2023年7月5日
0057
智能小车倒车入库功能的实现（python,cpp,ubuntu）

From sztu 自动化专业的小菜鸡。 1.基本介绍倒车入库代码存在于~\config\teleop\src\smartcar\scripts文件目录下的camera_cmd….

人工智能 2023年7月5日
0046
SPSS学习（五）独立样本t检验

参考书籍：《SPSS其实很简单》应用场景：当对两个独立分组中感兴趣的一个连续因变量的均值进行比较时使用。目标：检验两个组别中关于某些感兴趣的因变量的均值是否存在显著差异数据要…

人工智能 2023年7月16日
00110
超高分辨率显著目标检测，新颖高效的错层嫁接架构PGNet（CVPR2022）

关注公众号，发现CV技术之美 ▊ 引言最近基于深度学习的显著目标检测方法取得了出色的性能。然而现有的大多数方法多事基于低分辨率输入设计的，这些模型在高分辨率图片上的表现不尽人意，…

人工智能 2023年7月9日
0069
论文阅读《Meta-FDMixup：Cross-Domain Few-Shot Learning Guided by Labeled Target Data》

Background ＆ Motivation 之前看的小样本论文大部分是目标域和源域属于同一个域，比如 COCO 数据集里的小样本设定：60类为 Base，20类为 Novel。…

人工智能 2023年7月10日
0073
决策树分类如何计算每个类别的概率

1. 为什么要知道每个样本其所属类别的概率？虽然决策树可以做到对样本分类，但在算法使用中也会遇到这种情况，模型对样本X进行预测，样本X属于A的概率为51% 属于B的概率为49%，…

人工智能 2023年7月2日
0084
MXNe

MXNe问题的介绍 MXNe是一种用于多源环境下异常检测的算法。在实际应用中，我们常常会面临多个不同的数据源，这些数据源往往具有不同的特征和分布。MXNe旨在解决在这种多源环境下进…

人工智能 2023年12月31日
0060
spss分析方法-聚类分析

聚类分析是根据研究对象的特征，按照一定标准对研究对象进行分类的一种分析方法。下面我们主要从下面四个方面来解说：实际应用理论思想建立模型 *分析结果一、实际应用聚类分析的目…

人工智能 2023年6月26日
0076
张量维度的理解

张量维度的理解介绍 * 一维张量二维张量三维张量四维张量（仅用于理解，坐标系已经不再适用）如何判断张量的batch数、行、列、深度小结：介绍参考链接1：参考链接2…

人工智能 2023年7月22日
0075
Python之粒子群算法（含代码实例）

这个算法，咋一听感觉很高级，挺难的，其实学习过后也就那样，原理其实挺简单的。下面是我对粒子群算法的一些个人理解，如有差错，还望指出。一、粒子群算法简介 Kennedy和Eberh…

人工智能 2023年7月29日
0085
Yolo-FastestV2在树莓派4B上的MNN移植记录

致谢 Yolo-FastestV2 https://github.com/dog-qiuqiu/Yolo-FastestV2/，非常感谢作者的分享！模型准备首先，下载代码，根…

人工智能 2023年7月11日
0074
JS原型对象

引入：我们先用构造函数来创建一个对象 function Student(name,age,gender){ this.name = name; this.age = age; th…

人工智能 2023年6月26日
0086
spss中有关t检验的详细介绍（包含操作过程和结果分析）

SPSS学习记录day1 写在前面：CSDN新人小白，最近在学校学习SPSS，但是学习的知识总是学了就忘，所以打算现在开始尝试记录一下自己的学习过程，希望能坚持下去吧emmm&#8…

人工智能 2023年7月16日
00110
Python-sqlparse解析SQL工具库一文详解（一）

目录前言一、sqlparse简介二、功能代码解析 1.初始方法 1.parse 2.parsestream 3.format 4.split 2.基类-Token 1.fla…

人工智能 2023年7月6日
0088
Mediapipe三维实时人体关键点检测与追踪（二）

Mediapipe三维实时人体关键点检测与追踪 1.Mediapipe动作计数 2.动作计数 * 2.1 俯卧撑 2.2 引体向上 2.3 仰卧起坐 2.3 下蹲 1.Mediap…

人工智能 2023年7月28日
00297
【MATLAB】高级绘图整理汇总

📣🥳🥳🥳📣✨Hello! 如果这篇【文章】对你有帮助😄，希望可以给博主点个赞👍鼓励一下😘📣🥳🥳🥳📣 💥💥关于MATLAB绘图的一些整理和汇总，可以直接【Ctrl+F】查找💥💥 🌏目…

人工智能 2023年6月22日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31