Topic 4. 临床预测模型构建 Logistic 回归

2023年6月17日下午5:15 • 人工智能 • 阅读 74

上期我们已经基本了解变量的类型，以及如果处理不同种类的变量，现在我们就来学些一个临床预测模型–GLM 广义线性模型及 R 语言实现。

广义线性模型 (Generalized Linear Model) 是一般线性模型的推广，它使因变量的总体均值通过一个非线性连接函数而依赖于线性预测值，允许响应概率分布为指数分布族中的任何一员。许多广泛应用的统计模型都属于广义线性模型，如常用于研究二元分类响应变量的Logistic 回归、Poisson 回归和负二项回归模型等。一个广义线性模型包含以下三个部分:

①随机成分；

②线性成分；

③连接函数。

*线性模型的扩展
结果变量是类别型：二分变量和多分类变量，显示都不是正太分布；
结果变量是数值型：非负有限值，且均值和方差都是相关的（正态分布之间是相互独立的）；
广义线性模型扩展了线性模型的框架，包含了非正常因变量的分析。
*标准线性模型公式

现要对响应变量 Y 和 p 个预测变量 X1···Xp。间的关系进行建模。在标准线性模型中，可假设 Y 呈正态分布，关系的形式为：

该等式表明响应变量的条件均值是预测变量的线性组合。参数 β，指一单位 X；的变化造成的 Y 预期的变化，β0指当所有预测变量都为 0 时 Y 的预期值。对于该等式，你可通俗地理解为：给定一系列 X 变量的值，赋予 X 变量合适的权重，然后将它们加起来，便可预测 Y 观测值分布的均值。

*广义线性模型公式

上式中并没有对预测变量 Xj 做任何分布的假设。与 Y 不同，它们不需要呈正态分布。实际上，它们常为类别型变量（比如方差分析设计）。另外，对预测变量使用非线性函数也是允许的，比如你常会使用预测变量 X2 或者X1xX2，只要等式的参数（βo，β1，··，βp）为线性即可。广义线性模型公式为：

其中 g(μy) 是条件均值的函数（称为连接函数）。另外，你可放松 Y 为正态分布的假设，改为Y服从指数分布族中的一种分布即可。设定好连接函数和概率分布后，便可以通过最大似然估计的多次迭代推导出各参数值。

*g lm (generalized linear model) 函数的使用

R 中可通过 glm() 函数拟合广义线性模型。它的形式与 lm() 类似，只是多了一些参数。函数的基本形式为：

glm(formula, family=family(link=function), data=)

每种相应分布（指数分布族）允许各种关联函数将均值和线性预测器关联起来，常用如下：

binomal(link=’logit’) —-响应变量服从二项分布，连接函数为logit，即logistic回归；
binomal(link=’probit’) —-响应变量服从二项分布，连接函数为probit；
poisson(link=’identity’) —-响应变量服从泊松分布，即泊松回归。

glm() 函数中的连接函数，下表列出概率分布（family）和相应的默认函数（function），如下表：

*glm() 可连接的函数

glm() 可连接的函数与分析标准线性模型时lm()连用的许多函数在glm()中都有对应的形式，其中常见的函数如下：

summary() 展示拟合模型的细节;
coefficients()、coef() 列出拟合模型的参数（戳距项和斜率）;
confint() 给出模型参数的置信区间（默认为95％）;
residuals() 列出拟合模型的残差值;
anova() 生成两个拟合模型的方差分析表;
plot() 生成评价拟合模型的诊断图;
predict() 用拟合模型对新数据集进行预测;
deviance() 拟合模型的偏差;
df.residual() 拟合模型的残差自由度。

‍

*Logistic 回归模型概述

Logistic 回归模型是一种概率模型它是以某一事件发生与否的概率 P 为因变量，以影响 P的因素为自变量建立的回归模型，分析某事件发生的概率与自变量之间的关系，是一种非线性回归模型。

Logistic 回归模型适用适用于因变量为:

二项分类
多项分类（有序、无序）的资料。
*Logistic 回归模型分类
条件Logistic回归模型：适合于配对或配伍设计资料；
非条件Logistic回归模型：适合于成组设计的统计资料；
因变量可以是：两项分类、无序多项分类、有序多项分类等。
*Logistic 回归案例–变量筛选方式
R 中可进行以下变量筛选方式，最终筛选出独立影响因素。：
用 Enter 法把所有自变量全纳入（不做筛选）；
用逐步回归筛选自变量 (step()函数）；
先做单因素 Logistic 回归，p
*实例操作

下面仍然以肠癌 colon 数据为例子做 Logistic 回归模型，并进行后续的模型评价以及图形展示。

*数据处理

#%>%&#xA0;&#x6570;&#x636E;&#x5904;&#x7406;&#x65B9;&#x5F0F;&#x9700;&#x8981;&#x52A0;&#x8F7D;&#x4E00;&#x4E2A;dplyr&#x7684;R&#x5305;&#xA0;
library(survival)&#xA0;#&#xA0;cox&#x56DE;&#x5F52;&#x6A21;&#x578B;&#x9700;&#x8981;
library(dplyr) # &#x5904;&#x7406;&#x6570;&#x636E;&#x9700;&#x8981;2. &#x52A0;&#x8F7D;&#x6F14;&#x793A;&#x6570;&#x636E;&#x96C6;
data(colon)# &#x52A0;&#x8F7D;&#x6570;&#x636E;&#x96C6;
str(colon) # &#x67E5;&#x770B;&#x6570;&#x636E;&#x96C6;&#x7ED3;&#x6784;
'data.frame':  1858 obs. of  16 variables:
 $ id      : num  1 1 2 2 3 3 4 4 5 5 ...

 $ study   : num  1 1 1 1 1 1 1 1 1 1 ...

 $ rx      : Factor w/ 3 levels "Obs","Lev","Lev+5FU": 3 3 3 3 1 1 3 3 1 1 ...

 $ sex     : num  1 1 1 1 0 0 0 0 1 1 ...

 $ age     : num  43 43 63 63 71 71 66 66 69 69 ...

 $ obstruct: num  0 0 0 0 0 0 1 1 0 0 ...

 $ perfor  : num  0 0 0 0 0 0 0 0 0 0 ...

 $ adhere  : num  0 0 0 0 1 1 0 0 0 0 ...

 $ nodes   : num  5 5 1 1 7 7 6 6 22 22 ...

 $ status  : num  1 1 0 0 1 1 1 1 1 1 ...

 $ differ  : num  2 2 2 2 2 2 2 2 2 2 ...

 $ extent  : num  3 3 3 3 2 2 3 3 3 3 ...

 $ surg    : num  0 0 0 0 0 0 1 1 1 1 ...

 $ node4   : num  1 1 0 0 1 1 1 1 1 1 ...

 $ time    : num  1521 968 3087 3087 963 ...

 $ etype   : num  2 1 2 1 2 1 2 1 2 1 ...

mycolon <- colon %>%
  transmute(time, status,
            Age = age,
            Sex = factor(sex, levels = c(0,1), labels = c("Female", "Male")),
            Obstruct = factor(colon$obstruct),
            Differ = factor(colon$differ),
            Extent = factor(colon$extent)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;)
&#xA0;str(mycolon)
'data.frame':  1858 obs. of  7 variables:
 $ time    : num  1521 968 3087 3087 963 ...

 $ status  : num  1 1 0 0 1 1 1 1 1 1 ...

 $ Age     : num  43 43 63 63 71 71 66 66 69 69 ...

 $ Sex     : Factor w/ 2 levels "Female","Male": 2 2 2 2 1 1 1 1 2 2 ...

 $ Obstruct: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 2 2 1 1 ...

 $ Differ  : Factor w/ 3 levels "1","2","3": 2 2 2 2 2 2 2 2 2 2 ...

 $ Extent  : Factor w/ 4 levels "1","2","3","4": 3 3 3 3 2 2 3 3 3 3 ...&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
</->

*构建Logistic 回归模型

fit.full <- glm(status ~ age + sex obstruct differ extent, binomial(link="logit" ), data="mycolon" ) summary(fit.full) call: glm(formula="status" family="binomial(link" = "logit"), deviance residuals: min 1q median 3q max -1.6401 -1.1635 -0.6875 1.1829 1.7821 coefficients: estimate std. error z value pr(>|z|)
(Intercept) -1.178450   0.462241  -2.549 0.010790 *
Age         -0.002182   0.004004  -0.545 0.585738
SexMale     -0.043452   0.095669  -0.454 0.649689
Obstruct1    0.190504   0.121687   1.566 0.117460
Differ2      0.008928   0.160204   0.056 0.955559
Differ3      0.413460   0.191356   2.161 0.030720 *
Extent2      0.580586   0.408774   1.420 0.155518
Extent3      1.285277   0.384588   3.342 0.000832 ***
Extent4      1.798638   0.449425   4.002 6.28e-05 ***
Signif. codes:  0 &#x2018;***&#x2019; 0.001 &#x2018;**&#x2019; 0.01 &#x2018;*&#x2019; 0.05 &#x2018;.&#x2019; 0.1 &#x2018; &#x2019; 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2511.9  on 1811  degrees of freedom
Residual deviance: 2459.2  on 1806  degrees of freedom
  (&#x56E0;&#x4E3A;&#x4E0D;&#x5B58;&#x5728;&#xFF0C;46&#x4E2A;&#x89C2;&#x5BDF;&#x91CF;&#x88AB;&#x5220;&#x9664;&#x4E86;)
AIC: 2471.2

Number&#xA0;of&#xA0;Fisher&#xA0;Scoring&#xA0;iterations:&#xA0;4
</->

*模型比较

首先我们从两个模型的 AIC 可以看出第二个模型比较好，很多人只是看到AIC，并没深入了解，我大概说下意义：AIC信息准则即 Akaike information criterion ，是衡量统计模型拟合优良性 (Goodness of fit) 的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。但是也可通过ANOVA检验比较两个模型的性能，P 值为0.36，差异并不显著如下：

compare models
anova(fit.reduced, fit.full, test = "Chisq")
#Analysis of Deviance Table
#
#Model 1: status ~ Differ + Extent
#Model 2: status ~ Age + Sex + Obstruct + Differ + Extent
 Resid. Df Resid. Dev Df Deviance Pr(>Chi)
#1      1806     2459.2
#2      1803     2456.0  3   3.2095   0.3604

根据AIC第二个模型较第一个模型优良，所以我们利用第二个模型来进行预测，构造一个新的数据集，并进行预测，如下：

####predict  Differ + Extent,
newdata <- 1 2 3 4 5 6 7 8 9 10 11 12 data.frame(age="mean(mycolon$Age)," sex="factor(c("Female"," "male")), obstruct="factor(c(0,1))," differ="factor(1:3)," extent="factor(1:4)" ) newdata <- data.frame( =4), newdata$prob predict(fit.reduced, type="response" prob 0.2134350 0.3269006 0.5001318 0.6223619 0.2135137 0.3270037 0.5002489 0.6224720 0.2902202 0.4225756 0.6012210 0.7129210 < code></->

再来看下怎样查看模型中的各各参数：

查看各变量系数

coefficients(fit.full)
 (Intercept)          Age      SexMale    Obstruct1      Differ2      Differ3      Extent2      Extent3      Extent4
-1.178450077 -0.002182244 -0.043452048  0.190504495  0.008927713  0.413460103  0.580585812  1.285277260  1.798638342

查看各变量的95%置信区间

confint(fit.full)
Waiting for profiling to be done...

                  2.5 %       97.5 %
(Intercept) -2.12710018 -0.302055807
Age         -0.01003899  0.005664344
SexMale     -0.23101902  0.144069671
Obstruct1   -0.04766881  0.429623939
Differ2     -0.30483101  0.323993260
Differ3      0.03909403  0.789812640
Extent2     -0.18547118  1.433840932
Extent3      0.57195375  2.097973406
Extent4      0.95034348  2.725634614

查看各系数的OR值

exp(coefficients(fit.full))
(Intercept)         Age     SexMale   Obstruct1     Differ2     Differ3     Extent2     Extent3     Extent4
  0.3077554   0.9978201   0.9574785   1.2098598   1.0089677   1.5120406   1.7870850   3.6156703   6.0414155

查看系数OR值的95%置信区间

exp(confint(fit.full))
Waiting for profiling to be done...

                2.5 %     97.5 %
(Intercept) 0.1191824  0.7392968
Age         0.9900112  1.0056804
SexMale     0.7937244  1.1549646
Obstruct1   0.9534495  1.5366795
Differ2     0.7372480  1.3826380
Differ3     1.0398683  2.2029836
Extent2     0.8307128  4.1947802
Extent3     1.7717252  8.1496372
Extent4     2.5865979 15.2660989

自动绘制logistics回归表格*
通过各种参数自动输出 logistics 回归的结果，从上面可以看到，我们求变量的OR值，及5%置信区间需要分几步去做，如果需要汇总在一块工作量也会较大，但我们可以一键输出结果，非常放便，这需要加载一个 R 包 epiDisplay，一行命令搞定所有，如下： **

install.packages("epiDisplay")
library(epiDisplay)
logistic.display(fit.full,crude.p.value = T,crude = T,decimal = T)
#####&#x8868;&#x683C;&#x5185;&#x5BB9;
Logistic regression predicting status

                    crude OR(95%CI)         crude P value adj. OR(95%CI)         P(Wald's test) P(LR-test)
Age (cont. var.)    0.9967 (0.9891,1.0044)  0.4           0.9978 (0.99,1.0057)   0.59           0.59

Sex: Male vs Female 1 (0.8,1.1)             0.61          1 (0.8,1.2)            0.65           0.65

Obstruct: 1 vs 0    1.3 (1,1.6)             0.04          1.2 (1,1.5)            0.12           0.12

Differ: ref.=1                                                                                  0.01
   2                1.1 (0.8,1.5)           0.64          1.009 (0.7371,1.3812)  0.96
   3                1.7 (1.1,2.4)           0.01          1.5 (1,2.2)            0.03

Extent: ref.=1                                                                                  < 0.001
   2                1.8 (0.8,3.9)           0.16          1.8 (0.8,4)            0.16
   3                3.7 (1.7,7.8)           < 0.001       3.6 (1.7,7.7)          < 0.001
   4                6.2 (2.6,14.7)          < 0.001       6 (2.5,14.6)           < 0.001

Log-likelihood = -1227.988
No. of observations = 1812
AIC value = 2473.976

*模型可视化

表格已经准备完成，下面我们就看下如何展示了，这里推荐一个 R 包 forestmodel 可以基于回归模型的结果绘制森林图，这个回归结果包括逻辑回归和Cox回归模型。

首先这个包支持ggplot2的主题，也就是theme_grey()、theme_bw()等;
可以通过panels参数调整图形中变量字体样式、粗细、各列宽度等;
上面的变量与每一个水平是没分开的，在同一线上，可以设置factor_separate_line参数来使其不在同一线上。

#install.packages("forestmodel") #&#x5B89;&#x88C5;&#x548C;&#x52A0;&#x8F7D;R&#x5305;
library(forestmodel)
forest_model(
  model,
  panels = default_forest_panels(model, factor_separate_line = factor_separate_line),
  covariates = NULL,
  exponentiate = NULL,
  funcs = NULL,
  factor_separate_line = FALSE,
  format_options = forest_model_format_options(),
  theme = theme_forest(),
  limits = NULL,
  breaks = NULL,
  return_data = FALSE,
  recalculate_width = TRUE,
  recalculate_height = TRUE,
  model_list = NULL,
  merge_models = FALSE,
  exclude_infinite_cis = TRUE
)

再来看我们构建模型的结果展示，如下：

forest_model(fit.full,
             theme = theme_forest(),
             factor_separate_line=TRUE
             )

Reference:

Hosmer, D. & Lemeshow, S. (2000). Applied Logistic Regression (Second Edition). New York: John Wiley & Sons, Inc.
Long, J. Scott (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks, CA: Sage Publications.

桓峰基因

生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你

25篇原创内容

公众号

Original: https://blog.csdn.net/weixin_41368414/article/details/122363341
Author: 桓峰基因
Title: Topic 4. 临床预测模型构建 Logistic 回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631112/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

经典卷积神经网络——resnet

resnet 前言一、resnet 二、resnet网络结构三、resnet18 * 1.导包 2.残差模块 2.通道数翻倍残差模块 3.rensnet18模块 4.数据测试 …

人工智能 2023年7月21日
0056
KNN、图像分类、曼哈顿距离、图片像素、python、opencv、最近邻图片分类

KNN、图像分类、曼哈顿距离、图片像素、python、opencv、最近邻图片分类自己实现使用曼哈顿距离计算图像之间的距离，采用最近邻算法对图片经行分类，没有使用sklearn里…

人工智能 2023年7月20日
0053
2021美赛C题M奖思路

2021美赛C题亚洲大黄蜂思路序言：第一题的模型就用种群繁衍，然后用python做地图的可视化，这就是数学公式啦，把地球近似成一个球体然后用角度和勾股定理模拟三代的繁衍（一开始…

人工智能 2023年5月31日
0083
【智能算法第一期】Elman神经网络基本原理

Elman神经网络概述根据神经网络运行过程中的信息流向，可将神经网络可分为前馈式和反馈式两种基本类型。前馈式网络通过引人隐藏层以及非线性转移函数可以实现复杂的非线性映射功能。但前…

人工智能 2023年7月12日
0091
设计模式学习（十九）：访问者模式

设计模式学习（十九）：访问者模式作者：Grey 原文地址：博客园：设计模式学习（十九）：访问者模式 CSDN：设计模式学习（十九）：访问者模式访问者模式访问者模式是一种行…

人工智能 2023年6月29日
0097
如何检测并修复模型中的过拟合

如何检测并修复模型中的过拟合问题过拟合是指机器学习模型在训练集上表现良好，但在测试集或实际应用中的表现较差的现象。过拟合通常是由于模型过于复杂而导致的，模型过于关注训练集中的“噪…

人工智能 2023年12月30日
0044
【神经网络学习】鸢尾花分类的实现

目录 1.问题 2.问题解决思路 3.神经网络理论准备 4.Tensor Flow编程基础 5. 鸢尾花分类神经网络实现 1.问题鸢尾花分为：狗尾草鸢尾、杂色鸢尾、弗吉尼亚鸢尾；…

人工智能 2023年7月2日
00181
谷歌研究员走火入魔事件曝光：认为AI已具备人格，被罚带薪休假，聊天记录让网友San值狂掉…

梦晨发自凹非寺量子位 | 公众号 QbitAI 谷歌研究员被AI说服，认为它产生了意识。他写了一篇长达21页的调查报告上交公司，试图让高层认可AI的人格。领导驳回了他的…

人工智能 2023年7月26日
0071
最新CUDA/cuDNN与Pytorch保姆级图文安装教程(速查字典版)

目录 1 什么是Pytorch？ 2 CUDA安装与配置 * 2.1 Windows – 2.1.1 查看显卡驱动版本 2.1.2 下载安装CUDA 2.1.3 下载安…

人工智能 2023年6月16日
0090
(二)元学习算法MAML简介及代码分析

欢迎访问个人网络日志🌹🌹知行空间🌹🌹 元学习算法MAML简介 * – 1.元学习(meta learning) – 2.模型无关元学习 – + …

人工智能 2023年6月23日
0091
机器学习学习记录3（2的补充和基于月亮数据集的决策树输出树状图，可视化分类效果及相关模型评估参数及输出）

一、上一节中的代码参考了老师的代码进行修改 from sklearn.datasets import fetch_openml from sklearn.linear_model …

人工智能 2023年7月2日
0085
GPU计算能力（Compute Capability）那些事儿

每日一歌，分享好心情：你莫走关于nvidia计算能力的一切，看完这篇文章足够用了… 一、常见gpu卡计算能力查询 https://developer.nvidia.c…

人工智能 2023年5月23日
00103
回归预测 | MATLAB实现BiLSTM(双向长短期记忆神经网络)多变量预测

回归预测 | MATLAB实现BiLSTM(双向长短期记忆神经网络)多变量需求预测目录 * – 回归预测 | MATLAB实现BiLSTM(双向长短期记忆神经网络)多…

人工智能 2023年6月17日
0081
python工作中、使用中必须会的使用方法

将一个字符串转换成字节类型 In [1]: s = "apple" In [2]: bytes(s,encoding=’utf-8′) Out[2]: b’ap…

人工智能 2023年6月29日
0064
动手学数据分析 01

课程现分为三个单元，大致可以分为：数据基础操作，数据清洗与重构，建模和评估。 1 第一章：数据载入及初步观察第一部分：我们获得一个要分析的数据，我要学会如何加载数据，查看数据，然…

人工智能 2023年7月8日
0084
数据挖掘（二）预测潜在贷款发放客户

注：参考多篇csdn及b站文章所得一、实验背景某机构想要预测哪些客户可能会产生贷款违约行为｡他们搜集了历史客户行为的部分数据以及目标客户的信息,希望通过历史数据对目标客户进行预…

人工智能 2023年6月23日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Topic 4. 临床预测模型构建 Logistic 回归

大家都在看