MASS | 广义线性模型（四）——负二项回归

2023年7月13日下午6:46 • 人工智能 • 阅读 86

本篇是”广义线性模型”系列推文的最后一篇，来介绍另外一种重要的广义线性模型：负二项回归。

同泊松回归一样，负二项回归也是计数模型。由于泊松回归的内在要求是因变量的数学期望和方差相等，而当数据序列出现”过度离散”（方差比理论值大）时，可有两种方式进行模型修正：

使用准泊松分布族；
改用负二项回归。

前者已经介绍过了，本篇来介绍后者——负二项回归。

模型形式

负二项回归的模型形式与泊松回归十分相似。

泊松回归：

负二项回归：

泊松分布与负二项分布有着内在的联系。当泊松分布的参数不再是一个确定的数值，而是服从伽马分布进行变化时，此时的分布形式称为 伽马-泊松混合分布，负二项分布是伽马-泊松混合分布的特例。

《Modern Applied Statistics with S-PLUS》[1]上有关于负二项分布与泊松分布关系的描述：

负二项分布的方差恒大于数学期望，并受参数的影响。从模型形式上看，负二项回归比泊松回归多了一个随机项：

为伽马分布的记号。

负二项分布

泊松分布的概率函数如下：

伽马分布的概率密度函数如下：

为形状参数，为逆尺度参数。数学期望，方差。

伽马-泊松混合分布的概率密度函数如下：

负二项分布的概率函数如下：

对比伽马-泊松混合分布和负二项分布的概率（密度）函数，令，，则二者相等。

负二项分布的意义：随机事件刚好第次发生（不发生）时所经历的不发生（发生）的次数。

模型的R代码

负二项回归虽然属于广义线性模型，但在 stats工具包中并没有定义负二项分布族函数。

MASS工具包的 glm.nb函数可以进行负二项回归，并自动确定参数的取值。

glm.nb(formula, data, weights,
       subset, na.action,
       start = NULL, etastart, mustart,
       control = glm.control(...),
       method = "glm.fit",
       model = TRUE, x = FALSE, y = TRUE,
       contrasts = NULL, ...,
       init.theta, link = log)

MASS工具包的名称即上面提到的《Modern Applied Statistics with S-PLUS》的首字母缩写；
glm.nb函数专门用于负二项回归，因此无需 family参数。

library(MASS)
model.nb |z|)    
## (Intercept)  2.89458    0.22842  12.672

MASS工具包还定义可以在 glm函数中使用的负二项分布族函数 negative.binomial：

negative.binomial(theta = stop("'theta' must be specified"),
                  link = "log")

使用 negative.binomial函数时需指定参数。根据《Modern Applied Statistics with S-PLUS》中的方法，可以使用 MASS工具包中的 logtrans函数大致确定的取值：

logtrans(Days ~ Eth + Sex + Age+ Lrn,
         data = quine)

根据上图，的最佳取值约等于2。

model.nb2 |t|)    
## (Intercept)  2.88658    0.22715  12.708

相关阅读：

[1]

Venables, W. N. and Ripley, B. D. (1999) Modern Applied Statistics with S-PLUS. Third Edition. Springer .

Original: https://blog.csdn.net/weixin_54000907/article/details/117915956
Author: R语言学堂
Title: MASS | 广义线性模型（四）——负二项回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690412/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

初学opencv学习——图像的 IO操作

初学opencv学习——图像的 IO操作（1）读取视频 <span><span>video </span></span> = &l…

人工智能 2023年7月20日
0077
深度学习中的随机种子torch.manual_seed(number)、torch.cuda.manual_seed(number)

训练模型过程中，会遇到很多的随机性设置，设置随机性并多次实验的结果更加有说服力。但是现在发论文越来越要求模型的可复现性，这时候不得不控制代码的随机性问题且每次随机的初始权重一样，有…

人工智能 2023年6月23日
00105
【化学信息学|机器学习】分子亲和力（Kd,Ki,IC50)

配体亲和力是衡量对接结果和药物筛选的重要指标，本文将从数学计算理论出发，讲述几者之间的换算关系。目录数值计算 Ki Kd 机器学习后续分析支持向量机 Keras神经网络模型…

人工智能 2023年6月11日
00105
【if 的高阶用法练习题】It‘s time / would rather

It’s time *接不定式与句子之间的改写，表达是时候 … 1.It’s time you stopped. 2.It’s ti…

人工智能 2023年6月27日
0073
2. Python函数式编程中的字符串，元组，函数的分类，高阶函数，一篇文章都介绍一遍

E:. │ 1.txt │ ├─千锋 Python_教程：第01章第一个 _Python_程序与数据存储及数据类型（9集） │ │ .DS_Store │ │ │ ├─code …

人工智能 2023年7月2日
00110
OpenCV：对图像的位操作bitwise_and（与），bitwise_or（或），bitwise_not（非），bitwise_xor（异或）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言 mask 像素按位操作函数 * 1. bitwise_and 2. bitwise_or 3. b…

人工智能 2023年5月26日
0093
到底什么是端到端（edge-to-edge）啊？

Andrew Ng对端到端的解释： End-to-end: there have been some data processing systems that require mu…

人工智能 2023年7月13日
0065
机器学习之KNN —— K最近邻分类算法

一、KNN简介 KNN（K- Nearest Neighbor）法即K最邻近法，最初由 Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之…

人工智能 2023年7月1日
0062
TypeError: only size-1 arrays can be converted to Python scalars 报错如何解决

今天早上看到群里有个同学询问matplotlib画图作业，需求如下：作为一个python的初学者，我就想根据ta作业的要求试着画画，参考了书籍之后，用我仅余的一点matplotli…

人工智能 2023年7月5日
0098
时间序列：概述【时间序列挖掘领域主要包括：降维表示、相似性度量、相似性检索、分类、聚类、异常检测、预测、可视化】

在各类大数据研究中，有一类数据是按照时间顺序排列、随时间迁移不断变化的，称为时间序列(Time Series)。时间序列广泛的存在于各行各业中，如医学医疗、金融财经、水文分析、电…

人工智能 2023年7月2日
00101
图像处理中常用的相似度评估指标

导读有时候我们想要计算两张图片是否相似，而用来衡量两张图片相似度的算法也有很多，例如： RMSE、 PSNR、 SSIM、 UQI、 SIFT以及 深&am…

人工智能 2023年6月17日
0093
论文-Knowledge-aware Graph Neural Networks with LabelSmoothness Regularization for Recommender System

Wang H , Zhang F , Zhang M , et al. Knowledge-aware Graph Neural Networks with Label Smoot…

人工智能 2023年6月10日
0065
自然语言处理文本分类实战—慕课学习笔记

自然语言处理文本分类实战 ; 第一章文本分类应用场景介绍一、文本分类任务描述：input—model—output 二、应用场景：评论数据 2.情感分析 3.意图识别 4.进…

人工智能 2023年5月28日
00137
使用CycleGAN训练自己制作的数据集，通俗教程，快速上手

总结了使用 CycleGAN训练自己制作的数据集，这里的教程例子主要就是官网给出的斑马变马，马变斑马，两个不同域之间的相互转换。教程中提供了官网给的源码包和我自己调试优化好的源码包…

人工智能 2023年7月28日
0070
CUDA11.4、CUDNN、Pytorch安装

显卡驱动查看桌面任意位置右击，选择 NVIDIA控制面板 点击3D设置中 &#x9…

人工智能 2023年7月6日
0078
机器学习（三）—python实现最小二乘法

机器学习（三）—python实现最小二乘法本节用python实现最小二乘法。 2.最小二乘法 2.1 线性回归主要是解决线性问题，无法解决非线性问题。线性回归过程主要解决的是如…

人工智能 2023年6月15日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

MASS | 广义线性模型（四）——负二项回归

模型形式

负二项分布

模型的R代码

大家都在看