Dropout与学习率衰减

2023年7月14日上午11:35 • 人工智能 • 阅读 70

模型出现过拟合，可采取 Dropout的方式进行效率解决（仅针对神经网络模型的正则化方法）。该方法主要是在训练模型的过程中，随机抛弃一些神经元，使其不参与正向和反向传播过程。神经网络在训练过程中，权重对于某些特征的依赖关系较强，每次训练都随机抛下一些特征（对于非输入层则是神经元），将会强迫每一个神经元和随机挑选出来的其他神经元共同工作，据此网络模型对于神经元的特定权重不那么敏感，由此提高了模型整体泛化能力。

from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dropout
from keras.layers import Dense
from tensorflow.keras.optimizers import SGD
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

&#x5BFC;&#x5165;&#x6570;&#x636E;
dataset = datasets.load_iris()

x = dataset.data
Y = dataset.target

&#x8BBE;&#x5B9A;&#x968F;&#x673A;&#x79CD;&#x5B50;
seed = 7
np.random.seed(seed)

可在输入层后加入一层Dropout，或是在隐藏层间加入。

&#x6784;&#x5EFA;&#x6A21;&#x578B;&#x51FD;&#x6570;
def create_model(init='glorot_uniform'):
    # &#x6784;&#x5EFA;&#x6A21;&#x578B;
    model = Sequential()

    '''
    # &#x5728;&#x8F93;&#x5165;&#x5C42;&#x540E;&#x52A0;&#x5165;&#x4E00;&#x5C42;Dropout&#x5C42;&#xFF0C;&#x5176;&#x901F;&#x7387;0.2&#x8868;&#x793A;&#x6BCF;&#x4E00;&#x4E2A;&#x66F4;&#x65B0;&#x5468;&#x671F;&#x5C06;&#x4F1A;&#x6709;20%&#x7684;&#x7279;&#x5F81;&#x88AB;&#x968F;&#x5373;&#x6392;&#x9664;
    model.add(Dropout(rate=0.2, input_shape=(4,)))
    model.add(Dense(units=4, activation='relu', kernel_initializer=init))
    model.add(Dense(units=6, activation='relu', kernel_initializer=init))
    model.add(Dense(units=3, activation='softmax', kernel_initializer=init))
    '''

    # &#x5728;&#x9690;&#x85CF;&#x5C42;&#x52A0;&#x5165;Dropout&#x5C42;,&#x5E76;&#x4E14;&#x5BF9;&#x6743;&#x91CD;&#x7EA6;&#x675F;&#xFF0C;&#x662F;&#x5176;&#x6700;&#x5927;&#x9650;&#x5EA6;&#x4E0D;&#x8D85;&#x8FC7;3
    model.add(Dense(units=4,activation='relu',input_dim=4, kernel_initializer=init, kernel_constraint=maxnorm(3)))
    # &#x5728;&#x7B2C;&#x4E00;&#x9690;&#x85CF;&#x5C42;&#x5230;&#x7B2C;&#x4E8C;&#x9690;&#x85CF;&#x5C42;&#x95F4;&#x589E;&#x52A0;
    model.add(Dropout(rate=0.2))
    model.add(Dense(units=6,activation='relu', kernel_initializer=init,kernel_constraint=maxnorm(3)))
    # &#x5728;&#x7B2C;&#x4E8C;&#x9690;&#x85CF;&#x5C42;&#x81F3;&#x8F93;&#x51FA;&#x5C42;&#x95F4;&#x589E;&#x52A0;
    model.add(Dropout(rate=0.2))
    model.add(Dense(units=3,activation='softmax', kernel_initializer=init))

    # &#x5B9A;&#x4E49;optimizer
    sgd = SGD(lr=0.01, momentum=0.8, decay=0.0, nesterov=False)

    # &#x7F16;&#x8BD1;&#x6A21;&#x578B;&#xFF0C;&#x635F;&#x5931;&#x51FD;&#x6570;&#x7528;&#x4EA4;&#x53C9;&#x71B5;
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

    return model

model = KerasClassifier(build_fn=create_model, epochs=200, batch_size=5, verbose=0)
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)
results = cross_val_score(model, x, Y, cv=kfold)
print('Accuracy: %.2f%% (%.2f)' % (results.mean()*100, results.std()))

此外，此外梯度下降也非常耗费时间，可用 学习率衰减来解决。学习率指参数移动到最优值的速度，如果学习率过大，很可能直接越过最优值，如果学习率过小，优化效率过低，使得算法长时间无法收敛。使用学习率衰减的基本原理是：学习率随着训练的进行逐渐衰减。目前有两种学习率衰减方法： 线性衰减（根据epoch逐步降低学习率）和 指数衰减（在特定epoch使用分数快速减低学习率）

基于时间的学习率线性衰减，使用SGD类中的随机梯度下降优化算法实现，主要是调节decay衰减率参数。

from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from tensorflow.keras.optimizers import SGD

&#x5BFC;&#x5165;&#x6570;&#x636E;
dataset = datasets.load_iris()

x = dataset.data
Y = dataset.target

&#x8BBE;&#x5B9A;&#x968F;&#x673A;&#x79CD;&#x5B50;
seed = 7
np.random.seed(seed)

&#x521B;&#x5EFA;&#x6A21;&#x578B;&#x51FD;&#x6570;
def creat_model(init='glorot_uniform'):
    # &#x6784;&#x5EFA;&#x6A21;&#x578B;
    model = Sequential()
    model.add(Dense(units= 4, activation='relu',input_dim=4,kernel_initializer=init))
    model.add(Dense(units= 6, activation='relu',kernel_initializer=init))
    model.add(Dense(units= 3, activation='softmax',kernel_initializer=init))

    # &#x6A21;&#x578B;&#x4F18;&#x5316;
    learningRate = 0.1 # &#x521D;&#x59CB;&#x5B66;&#x4E60;&#x7387;
    momentum = 0.9 #&#x52A8;&#x91CF;&#x503C;
    decay_rate = 0.005 # &#x5B66;&#x4E60;&#x7387;&#x7EBF;&#x6027;&#x8870;&#x51CF;&#x503C;
    # &#x5B9A;&#x4E49;&#x4F18;&#x5316;&#x5668;
    sgd = SGD(lr=learningRate, momentum=momentum, decay=decay_rate, nesterov=False)

    # &#x7F16;&#x8BD1;&#x6A21;&#x578B;
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

    return model

epochs=200
model = KerasClassifier(build_fn=create_model,epochs=epochs,batch_size=10,verbose=1)
model.fit(x,Y)

学习率指数衰减，通过在固定的epoch周期将学习速率降低50%实现。例如初始学习速率（initial learningrate）为0.1，设定每10个epochs（epoch drop）降低50%（drop rate），则前10个epochs的学习速率为0.1，后10个epochs的学习速率为0.05。使用LearningR ateScheduler回调实现。

from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from tensorflow.keras.optimizers import SGD
from keras.callbacks import LearningRateScheduler
from math import pow, floor

&#x5BFC;&#x5165;&#x6570;&#x636E;
dataset = datasets.load_iris()

x = dataset.data
Y = dataset.target

&#x8BBE;&#x5B9A;&#x968F;&#x673A;&#x79CD;&#x5B50;
seed = 7
np.random.seed(seed)

&#x8BA1;&#x7B97;&#x5B66;&#x4E60;&#x7387;
def step_decay(epoch):
    init_lrate=0.1 #&#x521D;&#x59CB;&#x5B66;&#x4E60;&#x7387;
    drop = 0.5 #&#x8870;&#x51CF;&#x901F;&#x7387;
    epochs_drop = 10 #&#x8870;&#x51CF;&#x901F;&#x7387;&#x66F4;&#x65B0;&#x5468;&#x671F;
    lrate = init_lrate * pow(drop, floor(1+epoch)/epochs_drop)
    return lrate

&#x521B;&#x5EFA;&#x6A21;&#x578B;&#x51FD;&#x6570;
def creat_model(init='glorot_uniform'):
    # &#x6784;&#x5EFA;&#x6A21;&#x578B;
    model = Sequential()
    model.add(Dense(units= 4, activation='relu',input_dim=4,kernel_initializer=init))
    model.add(Dense(units= 6, activation='relu',kernel_initializer=init))
    model.add(Dense(units= 3, activation='softmax',kernel_initializer=init))

    # &#x6A21;&#x578B;&#x4F18;&#x5316;
    learningRate = 0.1 # &#x521D;&#x59CB;&#x5B66;&#x4E60;&#x7387;
    momentum = 0.9 #&#x52A8;&#x91CF;&#x503C;
    decay_rate = 0.0 # &#x5B66;&#x4E60;&#x7387;&#x7EBF;&#x6027;&#x8870;&#x51CF;&#x503C;
    # &#x5B9A;&#x4E49;&#x4F18;&#x5316;&#x5668;
    sgd = SGD(lr=learningRate, momentum=momentum, decay=decay_rate, nesterov=False)

    # &#x7F16;&#x8BD1;&#x6A21;&#x578B;
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

    return model

&#x5B66;&#x4E60;&#x7387;&#x6307;&#x6570;&#x8870;&#x51CF;&#x56DE;&#x8C03;
lrate = LearningRateScheduler(step_decay)
epochs = 200
model = KerasClassifier(build_fn=create_model,epochs=epochs,batch_size=5,verbose=1,callbacks=[lrate])
model.fit(x,Y)

需要注意：

神经网络一般使用 20%-50%的Dropout率，且使用 较高学习率、配合 学习率衰减和巨大的动量值(momenum=0.8)。并且需要 限制网络权重的大小（Dense中的kernel_constrin=maxnorm(x))。

该文代码源自魏贞原《深度学习：基于Keras的Python实践》

Original: https://blog.csdn.net/weixin_42196948/article/details/123542744
Author: 叽叽贝贝
Title: Dropout与学习率衰减

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691970/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VOLTE简介基础篇（一）

什么是VoLTE？ VoLTE 全称叫 Voice over LTE，是一项基于 IMS 的语音业务，是一种 IP 数据传输技术，无需 2G/3G 网，全部业务承载于 4G 网络上…

人工智能 2023年5月25日
0083
太强了，用Excel玩机器学习

最近发现了一个好玩的Python库，它可以将训练好的机器学习模型转换为Java、C、JavaScript、Go、Ruby，VBA 本地代码，可以让连Python和机器学习一无所知的…

人工智能 2023年6月4日
00100
Matlab数字图像处理 02 灰度变化（图像直方图、直方图均衡化、直方图匹配）

第二章灰度变化 2.1 图像的亮度、对比度和动态范围 * 2.1.1 亮度 2.1.2 对比度 2.1.3 动态范围 2.2 线性灰度变换 * 2.2.1 具有饱和处理的线性灰度…

人工智能 2023年6月18日
0098
什么是残差连接（Residua

什么是残差连接（Residual Connections）在深度学习中，残差连接（Residual Connections）是一种用于解决神经网络训练过程中的梯度消失和模型退化问…

人工智能 2024年1月1日
0067
目标检测2020-2021

【前言】近几年目标检测的落地越发成熟，新的sota网络同样层出不穷，不断刷新着coco的记录。本文盘点截止2019-2021年，在coco test-dev上霸榜，且知名度较广的…

人工智能 2023年7月11日
0085
Skimage.measure 的compare_psnr和compare_ssim的改动

最近看一个代码里面计算psnr和ssim使用的是老版本的用法，代码跑不起来。 from skimage.measure import compare_psnr,compare_ss…

人工智能 2023年7月5日
0086
自动驾驶之多传感器融合实践（1）——激光雷达点云数据处理

Lidar Obstacle Detection一、最终效果代码地址：Github: https://github.com/williamhyin/SFND_Lidar_Obsta…

人工智能 2023年6月24日
00115
pandas之链式索引问题（chained indexing）

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame….

人工智能 2023年7月6日
0085
yoloV5（二）目标检测中常见指标

目录前言混淆矩阵查准率和查全率 P–R曲线 * 为什么PR曲线面积越大模型就会越好呢（排除过拟合的情况）？ IOU（交并比） MAP（Mean Average p…

人工智能 2023年7月9日
00108
R语言实战应用精讲50篇（三十）-R语言ggplot2绘制精美高级地图

本文主要特点使用 sf packacke 并通过 geom_sf() 函数将其集成到 ggplot2 中，现在可以更轻松地快速创建专题地图。这篇文章不仅展示了如何生成一个简单的…

人工智能 2023年6月19日
0086
视觉SLAM十四讲学习笔记-第五讲-图像和实践

专栏系列文章如下：视觉SLAM十四讲学习笔记-第一讲_goldqiu的博客-CSDN博客视觉SLAM十四讲学习笔记-第二讲-初识SLAM_goldqiu的博客-CSDN博客视…

人工智能 2023年6月21日
00108
VoNR

尽管不断增长的数据业务需求是移动通信网络向5G演进的主要推动力，但语音业务作为基本业务仍然是不可或缺的一部分。为此，标准组织3GPP确定了5G沿用4G的语音架构仍基于IMS来提供语…

人工智能 2023年5月27日
0094
NCCL基本介绍

前言调研一下NCCL，所以在这里记录一下。参考： NCCL DOCUMENTATIONNCCL Slide浅谈GPU通信和PCIe P2P DMA 简介 NCCL是NVIDIA…

人工智能 2023年7月23日
00221
Golang学习之路5-结构体/类封装等使用

文章目录前言一、结构体 * 1.声明结构体 2.匿名结构体二、类 * 1.封装及绑定 2.继承 3.多态及接口 4.类访问权限总结前言 go语言支持类的操作，但是没有cl…

人工智能 2023年6月27日
0090
深度学习复习作业题目及面试常见问题

1.普通卷积神经网络具体结构？各层作用输入层全连接层卷积层池化层输出层输入层：与传统神经网络/机器学习一样，模型需要输入的进行预处理操作卷积层：进行特征提取，对于图片…

人工智能 2023年7月14日
0092
【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月13日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Dropout与学习率衰减

大家都在看