丢弃法(Dropout)——原理及代码实现

2023年6月15日上午9:37 • 人工智能 • 阅读 116

一、原理

1.1、动机

一个好的模型需要对输入数据的扰动具有鲁棒性

什么是一个”好”的预测模型？

我们期待”好”的预测模型能在未知的数据上有很好的表现：经典泛化理论认为，为了缩小训练和测试性能之间的差距，应该以简单的模型为目标。

简单性以较小维度的形式展现，简单性的另一个角度是平滑性，即函数不应该对其输入的微小变化敏感。
例如，当我们对图像进行分类时，我们预计向像素添加一些随机噪声应该是基本无影响的。

1995年，克里斯托弗·毕晓普证明了具有输入噪声的训练等价于Tikhonov正则化(正则是使权重w不要太大，避免一定程度的过拟合的方法)。
这项工作用数学证实了”要求函数光滑”和”要求函数对输入的随机噪声具有适应性”之间的联系。

在2014年，斯里瓦斯塔瓦等人就如何将毕晓普的想法应用于网络的内部层提出了一个想法：
在训练过程中，他们建议在计算后续层之前向网络的每一层注入噪声。因为当训练一个有多层的深层网络时，注入噪声只会在输入-输出映射上增强平滑性。

丢弃法(dropout)便由此而生

丢弃法在前向传播过程中，计算每一内部层的同时注入噪声，这已经成为训练神经网络的常用技术。这种方法之所以被称为丢弃法，因为我们从表面上看是在训练过程中丢弃（drop out）一些神经元。在整个训练过程的每一次迭代中，标准丢弃法包括在计算下一层之前将当前层中的一些节点置零。即 在层之间加入噪音。

丢弃法(Dropout)是深度学习中一种常用的抑制 过拟合的方法，其做法是在神经网络学习过程中，随机删除一部分神经元。训练时，随机选出一部分神经元，将其输出设置为0，这些神经元将不对外传递信号。

1.2、无偏差的加入噪音

对 x 加入噪音得到 x’，我们希望:

E(x’) = x

注: E(x’) 即对 x’ 求期望

丢弃法做一个很简单的事情，它对每个元素进行如下扰动:

以概率 p 将原始数据元素变为 0，即丢弃数据；以概率 1-p 将原始数据元素变大

可以看到现在的期望就变成了 E(x’) = 0p + (1-p)x’ / (1-p) = x’，并没有变化

1.3、使用丢弃法

通常将丢弃法作用在 隐藏全连接层的输出上

说明:
h 为隐藏层
sigma 为激活函数
o 为输出
将 o经过 softmax 层得到分类结果

上图中左边为带有1个隐藏层和5个隐藏单元的多层感知机。当我们将 丢弃法应用到隐藏层，以 p 的概率将隐藏单元置为零时，结果可以看作是一个只包含原始神经元子集的网络。

比如在上图右边中，删除了 h2 和 h5，因此输出的计算不再依赖于 h2 或 h5，并且它们各自的梯度在执行反向传播时也会消失。这样，输出层的计算不能过度依赖于 h1, … , h5 的任何一个元素。

1.4、推理中的丢弃法(predict)

正则项只在训练中使用: 它们影响模型参数的更新

在推理过程中，丢弃法直接返回输入:

h = dropout(h)

这样能保证确定性的输出

二、代码实现

2.1、从零开始实现

这里实现 dropout_layer 函数，该函数以 dropout 的概率丢弃张量输入 X 中的元素，将剩余部分除以 1.0 – dropout
其中概率 0

import torch
from torch import nn
from d2l import torch as d2l

def dropout_layer(X, dropout):
    assert 0  dropout).float()
    return mask * X / (1.0 - dropout)

这里定义模型参数
使用 Fashion-MNIST 数据集。我们定义具有两个隐藏层的多层感知机，每个隐藏层包含 256 个单元。
num_inputs 为输入维度，数据集中的图片为 28 * 28 = 784，我们将每个图片转换为 784 * 1 的张量。
num_outputs 为输出维度，Fashion-MNIST 数据集中的图片具有 10 个类别。
num_hiddens1, num_hiddens2 为每个隐藏层中的隐藏单元数，这里均为 256 个隐藏单元。

num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

这里我们定义模型
我们可以将 dropout 应用于每个隐藏层的输出（在激活函数之后），并且可以为每一层分别设置丢弃概率: 常见的技巧是在靠近输入层的地方设置较低的丢弃概率。
下面的模型将第一个和第二个隐藏层的丢弃概率分别设置为 0.2 和 0.5，并且丢弃法只在训练期间有效(is_training = True)。

dropout1, dropout2 = 0.2, 0.5

class Net(nn.Module):
    def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2,
                 is_training = True):
        super(Net, self).__init__()
        self.num_inputs = num_inputs
        self.training = is_training
        self.lin1 = nn.Linear(num_inputs, num_hiddens1)
        self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
        self.lin3 = nn.Linear(num_hiddens2, num_outputs)
        self.relu = nn.ReLU()

    def forward(self, X):
        H1 = self.relu(self.lin1(X.reshape((-1, self.num_inputs))))
        # 只有在训练模型时才使用dropout
        if self.training == True:
            # 在第一个全连接层之后添加一个dropout层
            H1 = dropout_layer(H1, dropout1)
        H2 = self.relu(self.lin2(H1))
        if self.training == True:
            # 在第二个全连接层之后添加一个dropout层
            H2 = dropout_layer(H2, dropout2)
        out = self.lin3(H2)
        return out

net = Net(num_inputs, num_outputs, num_hiddens1, num_hiddens2)

这里我们进行训练和测试，这类似于多层感知机训练和测试。
其中:
num_epochs 为迭代次数
lr 为学习率
batch_size 为批量大小，每次随机从数据集中取 batch_size 大小的数据，直到取完

num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss(reduction='none')
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

结果:

2.2、简洁实现

这里我们进行简洁实现
对于深度学习框架的高级API，我们只需在每个全连接层之后添加一个 Dropout 层，将丢弃概率作为唯一的参数传递给它的构造函数。在训练时，Dropout 层将根据指定的丢弃概率随机丢弃上一层的输出（相当于下一层的输入）。在测试时，Dropout 层仅传递数据。

net = nn.Sequential(nn.Flatten(),
        nn.Linear(784, 256),
        nn.ReLU(),
        # 在第一个全连接层之后添加一个dropout层
        nn.Dropout(dropout1),
        nn.Linear(256, 256),
        nn.ReLU(),
        # 在第二个全连接层之后添加一个dropout层
        nn.Dropout(dropout2),
        nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

接下来，我们对模型进行训练和测试。

trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

结果:

三、总结

丢弃法将一些输出项随机置 0 来控制模型复杂度;

丢弃法常作用在多层感知机的隐藏层输出上;

丢弃概率是控制模型复杂度的超参数，人为设置。

Original: https://blog.csdn.net/weixin_44042453/article/details/126215890
Author: HS_zhangjiong
Title: 丢弃法(Dropout)——原理及代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614350/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

洛必达法则

若满足0 0 , ∞ ∞ \dfrac 00,\dfrac \infty\infty 0 0 ,∞∞型，则lim ⁡ f ( x ) g ( x ) = lim ⁡ f ′ (…

人工智能 2023年6月26日
0073
pytorch：深入理解 reshape(), view(), transpose(), permute() 函数

文章目录 * – 前言 – 1. reshape() – 2. view() – + ① 1 阶变高阶 + * 1 阶变 2 阶 *…

人工智能 2023年6月23日
0078
Tensorflow手写数字识别

Tensorflow手写数字识别前言一、关于mnist数据集二、搭建过程 * 1.导入数据集 2.数据集预处理 3.构建全连接层模型 4.梯度下降求最小Loss 5.测试集查…

人工智能 2023年5月25日
0088
ubuntu系统基于pycharm的TensorFlow环境配置｜CSDN创作打卡

环境：ubuntu 20.10 Core™ i7-8750H GeForce GTX 1060 Mobile 最近因为学习，需要在电脑中使用TensorFlow，我选择在自己的ub…

人工智能 2023年5月24日
0087
小爱同学app安卓版_小爱同学3.0版本下载-小爱同学3.0安装包下载v5.0.62 安卓最新版-2265安卓网…

小米官方版小爱同学app最新版3.0是一款全新的小爱同学，全面升级和修复某些功能，增加了男声模式、机器人小冰，说召唤小冰就可以听到哦，还能自己录制语音唤醒、连续对话、轻松语音点外卖…

人工智能 2023年5月27日
00143
关于回归分析分类

目的：当需要用一个数学表达式（模型）表示多个因素（原因）与另外一个因素（因素）之间关系时，可选用回归分析法。应用：1）分析哪些自变量对因变量存在显著影响作用，R方值可以不要求大于…

人工智能 2023年7月2日
0060
论文阅读：Video Visual Relation Detection via Iterative Inference

Video Visual Relation Detection via Iterative Inference 基于迭代推理的视频视觉关系检测。论文地址：https://dl.ac…

人工智能 2023年6月1日
0081
论文阅读——Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa

Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa Abs…

人工智能 2023年5月28日
0082
pandas数据类型之Series

pandas数据类型之Series Series类型 * Series的三种创建方式 – 通过数组创建Series 创建指定索引列的Series 使用字典创建标量创建…

人工智能 2023年7月6日
0054
【Linux】关于进程的理解、状态、优先级和进程切换

文章目录 * – 📝一、操作系统进程 – + 1.运行队列 + 2.运行状态 – 📝二、Linux进程状态 – 📝三、两个特殊进程 …

人工智能 2023年6月27日
0052
一文速学-最小二乘法曲线拟合算法详解+项目代码

[ _最小二乘法_非线性曲线参数拟合- _最小二乘法_原理及其MATLAB实现.pdf （初学者–我）最近正在研究matlab _最小二乘法_非线性拟合问题，昨天在论坛…

人工智能 2023年7月4日
0062
R语言中三线表是什么？使用table1包绘制（生成）三线表实战

R语言中三线表是什么？使用table1包绘制（生成）三线表实战目录 R语言中三线表是什么？使用table1包绘制（生成）三线表实战 Original: https://blog….

人工智能 2023年6月19日
0074
深度学习——VGG16模型详解

1、网络结构 VGG16模型很好的适用于分类和定位任务，其名称来自牛津大学几何组（Visual Geometry Group）的缩写。根据卷积核的大小核卷积层数，VGG共有6种配…

人工智能 2023年6月26日
0079
YOLO Air一款面向科研小白的YOLO项目 | 包含大量改进方式教程

YOLO Air一款面向科研小白的YOLO项目|包含大量改进方式教程|适用YOLOv5,YOLOv7,YOLOX,YOLOv4,YOLOR,YOLOv3,transformer等算…

人工智能 2023年7月29日
0088
python下的spectral模块(高光谱图像处理)

Spectral Python (SPy)是一个用于处理高光谱图像数据的纯Python模块。它具有读取、显示、操作和分类高光谱图像的功能。之所以用它是因为这个对多波段图像的支持更好…

人工智能 2023年6月18日
00115
基于GCN和句法依存分析的情感分析

内容速递（1）论文实验分析可以画出混淆矩阵：困惑矩阵能够帮助我们迅速可视化各种类别误分为其它类别的比重，这样能够帮我们调整后续模型，比如一些类别设置权重衰减！在一些论文的实验…

人工智能 2023年5月28日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31