Topic 7. 临床预测模型–Cox回归

2023年6月17日下午12:52 • 人工智能 • 阅读 66

上期讨论完两种建模方式，这期讲一下经典的 Cox 回归，这个估计大家早就很熟悉了，但是这里还是需要梳理一下到底该怎么使用。

01 Cox回归概念

———————

在介绍Cox回归模型之前，先介绍几个有关生存相关的概念。

称为生存函数。生存函数 S(t,X) 又称为累积生存率。

死亡函数具有变量 X 的观察对象的生存时间 T 不大于某时刻 t 的概率，

![Topic 7. 临床预测模型--Cox回归](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/5a5690e9c493be223f42064be8032ffa.png)

称为死亡函数。死亡函数 F(t,X) 的实际意义是当观察随访到 t 时刻的累积死亡率。

死亡密度函数具有变量X的观察对象在某时刻 t 的瞬时死亡率，称为死亡密度函数。

危险率(风险)函数具有变量 X，且生存时间已达到 X 的观察对象在时刻 t 的瞬时死亡率，

危险率函数 h(t,X) 实际上是一个条件瞬间死亡率。

*COX回归模型

Cox 回归模型，又称”比例风险回归模型(proportional hazards model，简称Cox模型)”，是由英国统计学家 D.R.Cox(1972) 年提出的一种半参数回归模型。该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。由于上述优良性质，该模型自问世以来，在医学随访研究中得到广泛的应用，是迄今生存分析中应用最多的多因素分析方法。

临床研究需求

在临床研究中，存在许多情况，其中几个已知量（称为协变量）可能影响患者预后。例如，假设比较两组患者：那些患者和没有特定基因型的患者。如果其中一组也包含较老的个体，则存活率的任何差异可归因于基因型或年龄或两者。因此，在研究与任何一个因素相关的生存时，通常需要调整其他因素的影响。

Cox 比例风险模型是用于对生存分析数据建模的最重要方法之一。该模型的目的是同时评估几个因素对生存的影响。换句话说，它允许我们检查特定因素如何影响特定时间点发生的特定事件（例如，感染，死亡）的发生率。该比率通常称为危险率。预测变量（或因子）通常在生存分析文献中称为协变量。风险比（HR）大于1表示与事件概率正相关的协变量，因此与生存期长度负相关。

HR＝1：无效；
HR＜1：减少危害；
HR＞1：危险增加。

02 实例分析

—— —— ——****

Cox 实例分析我们使用 GBSG2 研究观察结果的数据集，包括实例临床数据，这个数据框包含了乳腺癌患者 686 名女性的观察结果来自一篇1999年发表的文章，这种回归算法也是有定年龄了，而这些数据的说明通过 ?GBSG2 即可获得，包含如下信息：

horTh：是否接受激素治疗；
age：年龄
menostat：绝经状态（两个水平上的一个因素绝经前(绝经前)和绝经后(绝经后)）；
tsize：肿瘤大小；
tgrade：肿瘤分级，I < II < III级为有序因子；
pnodes：结节数量；
progrec：黄体酮受体(fmol)；
estrec：雌激素受体(fmol)；
time：时间；
cens：截尾指示器(0-截尾，1-事件)。

?GBSG2
Format
This data frame contains the observations of 686 women:

horTh
hormonal therapy, a factor at two levels no and yes.

age
of the patients in years.

menostat
menopausal status, a factor at two levels pre (premenopausal) and post (postmenopausal).

tsize
tumor size (in mm).

tgrade
tumor grade, a ordered factor at levels I < II < III.

pnodes
number of positive nodes.

progrec
progesterone receptor (in fmol).

estrec
estrogen receptor (in fmol).

time
recurrence free survival time (in days).

cens
censoring indicator (0- censored, 1- event).

Source
W. Sauerbrei and P. Royston (1999). Building multivariable prognostic and diagnostic models: transformation of the predictors by using fractional polynomials. Journal of the Royal Statistics Society Series A, Volume 162(1), 71&#x2013;94.

&#x5BF9;&#x6587;&#x4EF6;&#x6570;&#x636E;&#x60C5;&#x51B5;&#x8FDB;&#x884C;&#x5206;&#x6790;&#xFF0C;&#x5E76;&#x67E5;&#x770B;&#x6BCF;&#x5217;&#x6570;&#x636E;&#x7684;&#x5C5E;&#x6027;&#xFF0C;&#x56E0;&#x5B50;&#x53D8;&#x91CF;&#x4E09;&#x4E2A;&#xFF0C;&#x5176;&#x4ED6;&#x4E3A;&#x6574;&#x6570;&#x503C;&#x578B;&#x53D8;&#x91CF;&#xFF0C;&#x5982;&#x4E0B;&#xFF1A;

#install.packages("TH.data")
data('GBSG2')
head(GBSG2)
  horTh age menostat tsize tgrade pnodes progrec estrec time cens
1    no  70     Post    21     II      3      48     66 1814    1
2   yes  56     Post    12     II      7      61     77 2018    1
3   yes  58     Post    35     II      9      52    271  712    1
4   yes  59     Post    17     II      4      60     29 1807    1
5    no  73     Post    35     II      1      26     65  772    1
6    no  32      Pre    57    III     24       0     13  448    1

str(GBSG2)
'data.frame':  686 obs. of  10 variables:
 $ horTh   : Factor w/ 2 levels "no","yes": 1 2 2 2 1 1 2 1 1 1 ...

 $ age     : int  70 56 58 59 73 32 59 65 80 66 ...

 $ menostat: Factor w/ 2 levels "Pre","Post": 2 2 2 2 2 1 2 2 2 2 ...

 $ tsize   : int  21 12 35 17 35 57 8 16 39 18 ...

 $ tgrade  : Ord.factor w/ 3 levels "I"<"ii"<"iii": 0 1 2 3 4 7 9 13 24 25 26 29 30 48 52 59 60 61 65 66 77 81 181 192 271 448 471 712 772 1807 1814 2014 2018 2161 2172 ... $ pnodes : int progrec estrec time cens summary(gbsg2) horth age menostat tsize tgrade no :440 min. :21.00 pre :290 3.00 i 1.00 yes:246 1st qu.:46.00 post:396 qu.: 20.00 ii :444 median :53.00 25.00 iii:161 mean :53.05 29.33 5.01 3rd qu.:61.00 35.00 7.00 max. :80.00 :120.00 :51.00 0.0 0.00 8.0 :0.0000 7.0 8.00 567.8 qu.:0.0000 32.5 36.00 :1084.0 110.0 96.25 :1124.5 :0.4359 131.8 114.00 qu.:1684.8 qu.:1.0000 :2380.0 :1144.00 :2659.0 :1.0000 < code></"ii"<"iii":>

乳腺癌患者是否接受激素治疗对生存期的影响因素，先对是否接受激素治疗进行生存分析即 Kaplan-Meier，结果 P=0.0034, 接受激素治疗的中位时间明显高于未接受激素治疗的患者，如下：

fit=survfit(Surv(time, cens)~horTh,data = GBSG2)
fit
Call: survfit(formula = Surv(time, cens) ~ horTh, data = GBSG2)

            n events median 0.95LCL 0.95UCL
horTh=no  440    205   1528    1296    1814
horTh=yes 246     94   2018    1918      NA

ggsurvplot(fit, # &#x521B;&#x5EFA;&#x7684;&#x62DF;&#x5408;&#x5BF9;&#x8C61;
           data = GBSG2,  # &#x6307;&#x5B9A;&#x53D8;&#x91CF;&#x6570;&#x636E;&#x6765;&#x6E90;
           conf.int = TRUE, # &#x663E;&#x793A;&#x7F6E;&#x4FE1;&#x533A;&#x95F4;
           pval = TRUE, # &#x6DFB;&#x52A0;P&#x503C;
           risk.table = TRUE, # &#x7ED8;&#x5236;&#x7D2F;&#x8BA1;&#x98CE;&#x9669;&#x66F2;&#x7EBF;
           surv.median.line = "hv", # &#x6DFB;&#x52A0;&#x4E2D;&#x4F4D;&#x751F;&#x5B58;&#x65F6;&#x95F4;&#x7EBF;
           add.all = FALSE, # &#x6DFB;&#x52A0;&#x603B;&#x60A3;&#x8005;&#x751F;&#x5B58;&#x66F2;&#x7EBF;
           palette = "hue")  # &#x81EA;&#x5B9A;&#x4E49;&#x8C03;&#x8272;&#x677F;

&#x6211;&#x4EEC;&#x7EE7;&#x7EED;&#x770B;&#x8FD8;&#x6709;&#x54EA;&#x4E9B;&#x56E0;&#x7D20;&#x4F1A;&#x5F71;&#x54CD;&#x751F;&#x5B58;&#x671F;&#xFF0C;&#x5229;&#x7528;&#x4E0A;&#x8FF0;&#x7ED3;&#x679C;&#x505A; Cox &#x6A21;&#x578B;&#x5E76;&#x505A;&#x68EE;&#x6797;&#x56FE;&#xFF0C;"."  &#x8868;&#x793A;&#x6240;&#x6709;&#x7684;&#x53D8;&#x91CF;&#xFF0C;p=< 2.2e-16 &#x8868;&#x793A;&#x6A21;&#x578B;&#x663E;&#x8457;&#xFF0C;&#x5982;&#x4E0B;&#xFF1A;

`
cox <- coxph(surv(time,cens)~.,data=”GBSG2)” summary(cox) call: coxph(formula=”Surv(time,” cens) ~ ., data=”GBSG2)” n=”686,” number of events=”299″ coef exp(coef) se(coef) z pr(>|z|)
horThyes -0.3462784 0.7073155 0.1290747 -2.683 0.007301
age -0.0094592 0.9905854 0.0093006 -1.017 0.309126
menostatPost 0.2584448 1.2949147 0.1834765 1.409 0.158954
tsize 0.0077961 1.0078266 0.0039390 1.979 0.047794 *
tgrade.L 0.5512988 1.7355056 0.1898441 2.904 0.003685
tgrade.Q -0.2010905 0.8178384 0.1219654 -1.649 0.099199 .
pnodes 0.0487886 1.0499984 0.0074471 6.551 5.7e-11
progrec -0.0022172 0.9977852 0.0005735 -3.866 0.000111
estrec 0.0001973 1.0001973 0.0004504 0.438 0.661307

Original: https://blog.csdn.net/weixin_41368414/article/details/122452355
Author: 桓峰基因
Title: Topic 7. 临床预测模型–Cox回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630177/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mahout实践：Mahout聚类算法-10

Mahout实践：Mahout聚类算法 1、实验描述本实验通过在安装配置好的Hadoop集群和Mahout框架的基础上，完成了Kmeans算法的聚类任务。实验时长：45分钟主…

人工智能 2023年6月2日
0068
使用 RGB-D 相机（Astra）实现 YOLO v3 实时目标检测

设备和环境：奥比中光RGB-D相机（Astra）；Ubuntu16.04 首先，先将自己的RGB-D相机的环境与依赖构建好，然后进行以下步骤构建darknet_ros。 1、下载d…

人工智能 2023年7月9日
0064
sklearn评估指标Classification metrics常用指标详解及小坑

sklearn评估指标Classification metrics常用指标详解及小坑计算评估指标需要用到预测结果和真实标签，首先说一下获得预测结果的model.predict()…

人工智能 2023年7月1日
0076
硬件里的玄乎事

系列文章目录 1.元件基础2.电路设计3.PCB设计4.元件焊接5.板子调试6.程序设计7.算法学习8.编写exe9.检测标准10.项目举例11.职业规划文章目录前言 1、一碰…

人工智能 2023年6月29日
0094
图神经网络（二）—GCN-pytorch版本代码详解

GCN代码详解-pytorch版本 1 GCN基本介绍 2 代码解析 * 2.1 导入数据 2.2 GCN模型框架 2.3 评估与训练参考资料写在前面… 在研究生的…

人工智能 2023年6月12日
0074
深度学习生成对抗网络（GAN）

一、概述生成对抗网络(Generative Adversarial Networks)是一种无监督深度学习模型，用来通过计算机生成数据，由Ian J. Goodfellow等人于…

人工智能 2023年7月4日
0063
Learning to Ask Neural Question Generation for Reading Comprehension

1 Abstract 本文提出了一个基于注意力的序列学习模型，研究了对句子级信息和段落信息进行编码的效果。 1 Introduction 问题生成QG的目的是从给定的句子或段落中产…

人工智能 2023年5月28日
0084
机器学习中的数学——激活函数（一）：Sigmoid函数

分类目录：《机器学习中的数学》总目录相关文章：· 激活函数：基础知识· 激活函数（一）：Sigmoid函数· 激活函数（二）：双曲正切函数（Tanh函数）· 激活函数（三）：线性…

人工智能 2023年6月15日
0096
kmeans聚类算法如何选k值？

本文目录 0. 写在前面 1. Kmeans聚类算法 2. 聚类评估指标 * 2.1 内部评价指标 2.2 外部评价指标 3. 寻找最优k值的方法 * 3.1 手肘法 3.2 最大…

人工智能 2023年5月31日
0085
【ELM分类】基于matlab遗传算法结合爬山算法优化ELM分类【含Matlab源码 1660期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【ELM分类】基于matlab鲸鱼算法优化核极限学习机数据分类【含Matlab源码 2012期】获取代码方式2：付费专…

人工智能 2023年7月2日
0079
Deepsort源码详解及个人理解

self.tracker.update(detections) 对跟踪对象进行更新。首先会进行级联特征匹配，先理解一下级联特征匹配的过程。 matches, unmatched_…

人工智能 2023年6月16日
0085
CDP营销方案不仅仅是数据整合

什么是CDP？ CDP（持续数据保护）是对传统数据备份技术的一次革命性的重大突破的技术。传统的数据备份解决方案专注在对数据的周期性备份上，因此一直伴随有备份窗口、数据一致性以及对生…

人工智能 2023年7月17日
0051
常见的Recognition算法有哪些

问题描述常见的Recognition算法有哪些？介绍 Recognition（识别）算法是机器学习中非常重要的一类算法，用于识别或分类不同类型的数据。它可以应用于图像识别、语音…

人工智能 2024年1月3日
0034
海康网络摄像机与电脑交互，有网络和无网络两种方式读取URL视频流，以及无网络情况下配置IP地址

目录（1）准备工具：（2）通过WiFi的接口连接（3）无网络情况下进行交互（4）海康官方软件（5）RTSP视频流 a）RTSP： b）视频流： c）rtsp流地址（1）…

人工智能 2023年5月26日
00220
我想简单的写写nce和infonce

从概念上了解区分nce 和info nce * – 为什么有nce – nce 方案：不算 – 为什么有infonce – + 所…

人工智能 2023年6月25日
00102
有没有开源的虚拟路由器？有，VPP了解一下

VPP(Vector Packet Processing，矢量包处理)平台是一个可扩展的开源框架，提供开箱即用的网络交换机或路由器的功能。VPP技术基于Cisco产品的成熟技术，是…

人工智能 2023年6月28日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Topic 7. 临床预测模型–Cox回归

大家都在看