Monte-Carlo Dropout（蒙特卡罗 dropout），Aleatoric Uncertainty，Epistemic Uncertainty

2023年6月15日下午8:59 • 人工智能 • 阅读 97

偶然不确定性

偶然不确定性(Aleatoric Uncertainty，AU)又称为数据不确定性，是由于观测数据本身的噪声产生的（人脸不清楚，标注框边缘不准确······），偶然不确定性是无法通过获取更多的观测数据来降低的。

认知不确定性

认知不确定性(Epistemic Uncertainty，EU)又称为模型不确定性，是由于模型参数的不确定性、模型结构的不确定性产生的，即模型训练的不是很好，所以模型得出来的结果不是结果存在不确定性。

Monte-Carlo Dropout（蒙特卡罗 dropout）

Monte-Carlo Dropout( 蒙特卡罗 dropout )，简称 MC dropout , 想要深入了解理论推导可以看原论文：
Dropout as a Bayesian Approximation:Representing Model Uncertainty in Deep Learning
这里只做简单介绍：

对于一个模型的输出结果，我们想得到这个结果的方差来计算模型不确定性（认知不确定性）。而模型的参数是固定的，一个单独输出值是得不到方差的。如果说—— 我们能够用同一个模型，对同一个样本进行T次预测，而且这T次的预测值各不相同，就能够计算方差。

问题是同一个模型同一个样本，怎么得到不同的输出呢？我们可以让学到的模型参数不是确定的值，而是服从一个分布，那么模型参数就可以从这个分布中采样得到，每一次采样，得到的模型参数都是不同的，这样模型产生的结果也是不同的，我们的目的就达到了。

但是如何让模型的参数不是确定的而是服从一个分布呢？现成的 dropout就是,使用dropout来训练模型时，模型的参数可以看成是服从一个伯努利分布（比如dropout radio =0.5，一种说法是：这层神经元中有一半会被dropout，换种说法就是—— 这层的每个神经元都有0.5的概率被dropout， 这就是伯努利分布）。但是我们估计模型不确定度肯定是在训练好的模型上，也就是测试模型时估计的。所以我们只需要在预测的时候，仍然将dropout打开，预测 T T T 次，取预测的平均值就是最终的预测值。并且通过平均值就可以得到方差，这样就得到深度学习的不确定度了。这种方法也被称为 MC Dropout贝叶斯神经网络。

估计不确定性

我们估计不确定性的目的是： 估计模型对输出结果的不确定性。
同时，因为我们模型在对样本计算的时候，偶然不确定性已经存在于样本数据中，已经影响到了我们模型的输出结果，所以实际上我们对模型的输出结果进行不确定性估计的时候就是同时将偶然不确定性和认知不确定性同时估计了。
估计的方法，我们可以采用MC dropout。

对于 回归问题，不确定性可以用输出值的方差来表示： 1 T ∑ t = 1 T ( f W ^ t ( x ) − E ( y ) ) 2 \displaystyle \large \frac 1T \sum_{t=1}^T (f^{\hat W_t}(x)-E(y))^2 T 1 t =1 ∑T (f W ^t (x )−E (y ))2

其中，E ( y ) = 1 T ∑ t = 1 T f W ^ t ( x ) \large E(y) = \frac 1T \sum_{t=1}^Tf^{\hat W_t}(x)E (y )=T 1 ∑t =1 T f W ^t (x )表示输出的平均值。

对于 分类问题， T T T 次预测的概率为：

Monte-Carlo Dropout（蒙特卡罗 dropout），Aleatoric Uncertainty，Epistemic Uncertainty

不确定性可以用熵来衡量：H ( p ) = − ∑ c = 1 C p c log ⁡ p c \displaystyle\large H(p) =-\sum_{c=1}^C p_c\log p_c H (p )=−c =1 ∑C p c lo g p c

; 利用不确定性训练模型

回归任务

为了将两种不确定性结合到同一个模型中，我们需要两组输出：一组是最终的预测结果 y ^ \hat y y ^，另一组是样本的偶然不确定性 σ ^ \hat \sigma σ^ 。即:

通过最小化以下的损失函数来训练模型：

其中 D D D 表示样本数量， i i i 为像素的索引。上面的损失包含了两部分：一部分是回归模型的残差，用于捕获模型参数的认知不确定性；另一部分是像素点的偶然不确定性，充当正则化项。注意到，在学习偶然不确定性时，其实是不需要为方差 σ ^ i \hat \sigma_i σ^i 额外标注标签的。
因为如果当一个样本 i i i 很难预测对，为了最小化整个损失， σ ^ i \hat \sigma_i σ^i 会相应地变大，而 1 2 log ⁡ σ i ^ 2 \frac12\log\hat {\sigma_i}^2 2 1 lo g σi ^2 又会防止 σ ^ i \hat \sigma_i σ^i 变得无穷大。
所以并不需要 σ ^ \hat \sigma σ^ 的真实标签。

注：损失函数公式的并不是随便给出的，而是可以由数学推导得到的，上面的文字只是对公式做了解释。

实际训练中， σ ^ i − 2 \hat \sigma_i^{-2}σ^i −2 其实相当于一项自适应的权重，对于难以预测的样本，数据中存在较多的固有噪声，这项权重比较小；而对于容易预测的样本，数据中存在的固有噪声比较少，这项权重会比较大。这会让模型在训练过程中区别地对待不同的样本。

; 分类任务

在分类任务中，对于一个样本 i i i，模型会输出一个预测向量 \largex i _i i ，然后再通过softmax操作得到一组概率 p i p_i p i 。假定预测向量服从高斯分布：

训练模型的损失函数可以写为:

简单推导：
假定一共有C个类别，样本 i i i 属于类别 c c c，y i , c ′ ∈ y_{i,c’}\in y i ,c ′∈ {0,1}，那么样本的交叉熵损失为:

因为要执行T次预测，因此损失也要取T次的平均，最后取对数就得到了上面的损失函数公式。

至于方差σ i W \sigma{^W_i}σi W 的学习和x ^ i , t \large\hat x_{i,t}x ^i ,t 的采样，其实就是运用 reparemerization 的技巧，详情可以参考VAE的内容。
变分自编码器（Variational Auto-Encoder，VAE）

参考文章：
深度学习中的不确定性

论文：
What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? (NIPS 2017)

Original: https://blog.csdn.net/qq_49030008/article/details/120208994
Author: 拒绝省略号
Title: Monte-Carlo Dropout（蒙特卡罗 dropout），Aleatoric Uncertainty，Epistemic Uncertainty

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617464/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

动手学深度学习（五十）——多头注意力机制

文章目录 * – 1. 为什么用多头注意力机制 – 2. 什么是多头注意力机制 – 3. 多头注意力机制模型和理论计算 – 4. 动…

人工智能 2023年6月12日
0060
matlab建立ar时间序列模型_Matlab时间序列-AR-AR模型.doc

自回归(AR)模型理论模型自回归(AutoRegressive, AR)模型又称为时间序列模型，数学表达式为其中，e(t)为均值为0，方差为某值的白噪声信号。 Matlab …

人工智能 2023年6月18日
0094
基于ROS的SLAM建图、自动导航、避障（冰达机器人）

SLAM是Simultaneous localization and mapping缩写，意为”同步定位与建图”，主要用于解决机器人在未知环境运动时的定位与…

人工智能 2023年7月27日
0055
DataFrame 数据筛选

近期使用pandas比较频繁，在进行数据处理的时候经常要用到dataframe的数据筛选功能，这里做个小结。数据有以下的格式： columns = [“blockNu…

人工智能 2023年7月6日
0059
基于OpenCV的垃圾分类项目的C++代码详解——学习笔记（二）

基于OpenCV C++垃圾分类项目的代码详解（工训总结）——对传入图像进行DNN网络分类 Begin 今天给大家介绍一个现成的人工神经网络——基于caffe框架的DNN（深度神经…

人工智能 2023年7月3日
00114
边缘计算：基于tflite实现andriod边缘端回归预测推理实战

读了本文，你可以实现从云端利用DNN模型进行训练，模型保存.h5格式（基于keras）或是saved model格式（tf2.0版本），模型转化为tflite，利用android …

人工智能 2023年6月17日
0067
存一个栈的草稿

include int main(){//DblStack S;//InitStack1(S,4);Push0(S,1,4);//show(S,4);//char s[5];//s…

人工智能 2023年6月30日
0084
Pytorch 报错信息

imageio.imread可以代替 scipy.misc.imread用 pilmode代替 mode用 as_gray代替 flattenpilmode类型： ‘L…

人工智能 2023年7月23日
0042
通过R语言实现平稳时间序列的建模–基础（ARMA模型）

目录 1. 建模流程 2. 序列平稳性检验和纯随机性检验 2.1 图检验 2.2 单位根检验 3. 模型选择 4. 参数估计 5. 模型检验 5.1 模型显著性检验 5.2 参…

人工智能 2023年6月16日
0069
Linux conda中Tensorflow GPU安装配置全面梳理（包含cuda、cudnn）

CPU VS GPU CPU: 中央处理单元。由数百万个晶体管组成，可以有多个处理内核，执行计算机和操作系统所需的命令和流程。 GPU: 图形处理单元。由许多更小、更专业的内核组成…

人工智能 2023年5月25日
0065
HowNet介绍及相关API的使用方法

Introduction 知网(英文名称HowNet)，是一个以汉语和英语的词语所代表的的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。…

人工智能 2023年5月30日
0083
学习使用deepke

只是一个不会编程的人学着怎么用这个模型。。。不知到这个predict.py输出是什么东西。。到现在没跑通。 22-6-28更新555大家给我评论问的问题我没法解答因为我totall…

人工智能 2023年5月28日
0065
Pytorch实战__LSTM做文本分类

介绍首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是在原代码中加了一些讲解和注释，以及将繁体字改成了简体字。我们需要处理的问题是将Twitte…

人工智能 2023年6月17日
0078
python数据分析案例-利用生存分析Kaplan-Meier法与COX比例风险回归模型进行客户流失分析与剩余价值预测

目录 * – 1. 概述 – + 1.1 背景 + 1.2 目的 + 1.3 数据说明 – 2. 相关概念 – + 2.1 事件 +…

人工智能 2023年6月17日
00113
相机内参数和外参数

求解相机内参：相机标定求解相机外参：相机位姿估计相机内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；相机外参数是在世界坐标系中的参数，比如相机的位置、旋转方向等。…

人工智能 2023年5月28日
0075
Python Requests实现天气预报

Python Requests实现天气预报前提条件相关介绍实验环境天气预报 * 目标网址实现步骤代码实现输出结果前提条件熟悉Python 熟悉Requests 熟…

人工智能 2023年5月27日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Monte-Carlo Dropout（蒙特卡罗 dropout），Aleatoric Uncertainty，Epistemic Uncertainty

目录

偶然不确定性

认知不确定性

回归任务

; 分类任务

大家都在看