单细胞数据分布 ZINB的理解

2023年6月11日下午8:26 • 人工智能 • 阅读 73

单细胞RNA测序(single-cell RNA-seq，scRNA-seq)数据是非常有特点的数据，具有很高的稀疏性(high sparsity)，具体表现为0非常多(zero inflation)。对于数据的分布给出合理的假设是非常关键的工作，是downstream analysis的基础。显然对于scRNA-seq的reads count数据，最常用的正态分布是不合理的。首先正态分布描述的是连续型数据，而reads count数据是离散的；其次reads count数据的取值只能为非负整数。经过不断的尝试， ZINB被证明是一种可以较好的描述scRNA-seq数据的模型，并且作为一些更advanced的模型的基础比如SAVER，scVI等。下面我们来看这个模型的细节。

1 Poisson Distribution
基于reads count数据的取值均为非负整数的特点，一个直观的想法就是用泊松分布来拟合scRNA-seq数据。泊松分布的定义如下：

这里X即为gene在细胞内的表达水平(reads count的数值)。但是用泊松分布来描述scRNA-seq数据面临了一个新的问题。我们都知道，泊松分布的期望和方差是相等的，即：

但是对于实际的数据来说，随着gene的平均表达水平越高，其样本方差与样本均值的差越大，也即scRNA-seq数据的另一个特点——over-dispersion。我们用一张图来举例说明

如图所示，直线(y = x)为基于泊松分布的假设下，基因表达的理论均值与方差的关系，可以看到对于每一种基因，其理论均值与方差相同。而直线之上的部分体现了实际数据中，基因表达的样本均值与样本方差的关系，我们看到，随着基因表达样本均值的增大，基因表达的样本方差与均值的差越来越大，不符合泊松分布的性质。

; 2 Gamma Distribution

对于泊松分布来说，是固定不变的，如果我们给一个prior呢。我们关于prior的选择是Gamma分布。而选择Gamma分布作为的prior在生物学含义上似乎没有比较直观的解释（其实是我自己没搞懂hhh），但是从统计观点看，Gamma分布是泊松分布的共轭先验(conjugate prior)，会使得计算posterior非常方便。

Gamma分布的定义如下：

3 Negative Binomial Distribution

上述问题现在汇总为：

证明X服从负二项分布：

根据上述证明，X服从负二项分布。但是新的问题接着产生，在产生数据的过程中，由于一些technical noises(比如某段RNA没有能够被逆转录)和intrinsic biological variability会导致数据中0的比例非常高，这也就是所谓的zero inflation。于是人们在NB的基础上，进一步发展出了ZINB。

; 4 Zero-inflated Negative Binomial

5 Zero-inflated (UMI based or read based).

已经有很多工作证明了对于UMI based sequencing来说， NB其实可以很好的刻画scRNA-seq data(可以参考Nancy Zhang的SAVER)。所以到底用ZINB还是NB还是要取决于测序的技术。不过目前大部分测序都是UMI-based了，所以NB可能会成为更general的选择

Original: https://blog.csdn.net/weixin_46376651/article/details/124638212
Author: Maria254
Title: 单细胞数据分布 ZINB的理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/601552/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MXNet对分布式推理（Inference）有何支持

MXNet对分布式推理的支持 MXNet是一个高性能深度学习框架，支持在分布式环境下进行模型训练和推理。分布式推理（Inference）是指将模型应用于实际数据并生成预测结果的过程…

人工智能 2024年1月1日
0058
多视图聚类（+incomplete multi view cluster)

1.A study of graph-based system for multi-view clustering 2.Consistency Meets Inconsistenc…

人工智能 2023年5月31日
00120
CPU组成和运行

CPU是什么 CPU的全称是 Central Processing Unit（中央处理器），CPU与计算机的关系就相当于大脑和人的关系。它是一种小型的计算机芯片，它嵌入在台式机、笔…

人工智能 2023年6月29日
0076
从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑

从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑大家好，好久不见，接下来一段时间我会系统性地写一套关于 Compose Desktop 的文章，带大家从…

人工智能 2023年7月30日
0098
架构师之路4. 浪潮LG – 面试

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
0057
【机器学习笔记1】一元线性回归模型及预测

目录什么是线性回归模型？一元线性回归模型问题引入：问题解析：代价函数（损失函数）：代价函数的图像为什么不是最小而是极小值？梯度下降算法梯度下降算法公式（对于一元线…

人工智能 2023年6月15日
0092
2021中国大学MOOC 机器学习(温州大学) 最新中国大学MOOC满分章节测试答案

引言引言课后测试1、问题:哪一个是机器学习的合理定义？选项：A:机器学习从标记的数据中学习B:机器学习能使计算机能够在没有明确编程的情况下学习C:机器学习是计算机编程的科学D:…

人工智能 2023年6月30日
0073
【Django框架】——23 Django视图 05 HttpResponse对象

目录 * – + 1. HttpResponse + 2. HttpResponse⼦类 + 3. JsonResponse + 4. redirect重定向视图在接…

人工智能 2023年7月4日
0080
常见正则化方法及对比分析

一、正则化的概念我们使用机器学习方法训练一个模型，其最终目的是得到一个能够最大程度概括整体空间内的数据特征。然而由于训练数据往往是整体空间数据一个样本，因此在使用训练样本训练模型…

人工智能 2023年7月14日
0068
100天精通Python（数据分析篇）——第55天：Pandas之DataFrame对象大总结

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月7日
0061
OLS回归模型-斯皮尔曼相关系数-数值模拟-多目标规划-养老服务床位需求预测与运营模式研究-之数学建模

数学建模-OLS回归模型斯皮尔曼相关系数数值模拟多目标规划-养老服务床位需求预测与运营模式研究养老服务床位需求预测与运营模式研究摘要随着时间的推移，我国人口老龄化逐渐增…

人工智能 2023年6月17日
00132
SML实现图像标注/分类

本文分享《信息搜索与人工智能》大作业的实现。题目的实现过程全在PPT，下面结合进行说明。题目描述：任选某类图像为训练样本，编程实现其基于 SML 算法的类模型。要求图像的 GMM…

人工智能 2023年7月2日
0073
基于深度神经网络的遮挡人脸识别算法的研究（小白初学）

基于深度神经网络的遮挡人脸识别算法的研究（小白初学）研究背景在自然条件下人脸面部的光照变化、角度变化、表情变化以及存在遮挡物，使得采集到的人脸图像存在人脸特征的损失。因此研究遮…

人工智能 2023年7月13日
0093
【图像处理】图像离散小波变换（Discrete Wavelet Transform）及python代码实现

Motivation 看到有论文用到了图像的Haar Discrete Wavelet Transform（HDWT），前面也听老师提到过用小波变换做去噪、超分的文章，于是借着这个…

人工智能 2023年6月16日
0077
基于Anaconda的pandas学习

基于Anaconda的pandas学习 * – Pandas安装 – 创建对象 – + 创建Series对象 + 创建DataFrame对象 +…

人工智能 2023年7月7日
0063
图神经网络基础与前沿,神经系统知识网络图

知识图谱怎样入门知识图谱作为一门学问，绝不是用个图数据库写几条查询，或者用规则写一个表格的提取，就可以称为成功的运用的。和所有的学科一样，都需要长期的艰苦的努力，在充分了解前人成…

人工智能 2023年6月1日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

单细胞数据分布 ZINB的理解

; 2 Gamma Distribution

3 Negative Binomial Distribution

; 4 Zero-inflated Negative Binomial

5 Zero-inflated (UMI based or read based).

大家都在看