正则化之L1和L2已经dropout的一些理解和pytorch代码实现与效果证明

2023年6月29日下午6:44 • 人工智能 • 阅读 84

文章目录

前言
L1正则化
L2正则化
dropout
参考

前言

正则化主要解决模型过拟合问题，主要是通过减小w的值，即模型的权重来缓解过拟合的。

正则化之L1和L2已经dropout的一些理解和pytorch代码实现与效果证明

可以看这么一张图，需要一条曲线去拟合图上x的点。
可以看到粉色的线将噪声点都考虑进去了，属于过拟合。
绿色的线能够比较好的拟合点，是我们期望的模型。
蓝色的线是一条直线，没学到什么大小，属于欠拟合

我们使用手写数据集的数据：
链接：https://pan.baidu.com/s/1nxISO_v-MhEyqin7qYqWZw?pwd=1111
提取码：1111

baseline为无正则化：

import pandas as pd
import numpy as np
import torch as th
import torch.nn as nn
import torch.utils.data.dataloader as dataloader
from torch.utils.data import TensorDataset
from tqdm import tqdm
from sklearn.metrics import accuracy_score

def get_dataloader(batch_size, file_name):
    filedata = pd.read_csv(file_name, header=None)
    label = filedata.values[:, 0]
    data = filedata.values[:, 1:]
    data = th.from_numpy(data).to(th.float32)
    label = th.from_numpy(label).to(th.long)
    dataset = TensorDataset(data, label)
    data_loader = dataloader.DataLoader(dataset=dataset, shuffle=True, batch_size=batch_size)
    return data_loader

batch_size = 256
input_size = 784
hidden_size = 20
output_size = 10
learning_rate = 0.001
epoch = 5
test_loader = get_dataloader(batch_size=batch_size, file_name = "mnist_test.csv")
train_loader = get_dataloader(batch_size=batch_size, file_name = "mnist_train.csv")

class network(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.w1 = nn.Linear(input_size, hidden_size, bias=False)
        self.w2 = nn.Linear(hidden_size, output_size, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        i2h = self.w1(x)
        i2h = self.sigmoid(i2h)
        h2o = self.w2(i2h)
        h2o = self.sigmoid(h2o)
        return h2o

def evaluate_model(model, iterator, criterion):
    all_pred = []
    all_y = []
    losses = []
    for i, batch in tqdm(enumerate(iterator)):
        if th.cuda.is_available():
            input = batch[0].cuda()
            label = batch[1].type(th.cuda.LongTensor)
        else:
            input = batch[0]
            label = batch[1]

        y_pred = model(input)
        loss = criterion(y_pred, label)
        losses.append(loss.cpu().detach().numpy())

        predicted = th.max(y_pred.cpu().data, 1)[1]
        all_pred.extend(predicted.numpy())
        all_y.extend(label.cpu().detach().numpy())
    score = accuracy_score(all_y, np.array(all_pred).flatten())
    return score, np.mean(losses)

model = network(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

optimizer = th.optim.Adam(model.parameters(), lr=learning_rate, weight_decay=0.001)
loss_func = nn.CrossEntropyLoss()

train_scores = []
test_scores = []
train_losses = []
test_losses = []
for epoch in range(epoch):
    model.train()
    for step, (x, label) in enumerate(train_loader):
        regularization_loss = 0
        pred = model(x)
        loss = loss_func(pred, label)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    model.eval()
    train_score, train_loss = evaluate_model(model, train_loader, loss_func)
    test_score, test_loss = evaluate_model(model, test_loader, loss_func)
    train_losses.append(train_loss)
    test_losses.append(test_loss)
    train_scores.append(train_score)
    test_scores.append(test_score)
    print('#' * 20)
    print('train_acc:{:.4f}'.format(train_score))
    print('test_acc:{:.4f}'.format(test_score))

输出的训练准确率曲线：

for param in model.parameters():
    print(param)

我们可以打印一下模型的参数：
这里重点看最后一组权重，因为数量故意设置的比较少，方便肉眼查看比较：

可以发现模型的参数在[-1, 1]之间

L1正则化

L1正则化是通过增加L1范式来约束权重的。
损失函数表达式如下：
loss(w，b，λ) = loss(w，b) + λ * (|w1| + w2| + … + |wn|)

L1正则化容易使得一些权重为0，因此会起到稀疏化的作用，能够用于特征选择。

在baseline的基础上，我们加上L1正则化
核心代码如下：


model = network(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

optimizer = th.optim.Adam(model.parameters(), lr=learning_rate)
loss_func = nn.CrossEntropyLoss()

train_scores = []
test_scores = []
train_losses = []
test_losses = []
for epoch in range(epoch):
    model.train()
    for step, (x, label) in enumerate(train_loader):
        regularization_loss = 0
        pred = model(x)
        loss = loss_func(pred, label)
        for param in model.parameters():
            regularization_loss += th.sum(th.abs(param))
        loss += 0.001 * regularization_loss
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    model.eval()
    train_score, train_loss = evaluate_model(model, train_loader, loss_func)
    test_score, test_loss = evaluate_model(model, test_loader, loss_func)
    train_losses.append(train_loss)
    test_losses.append(test_loss)
    train_scores.append(train_score)
    test_scores.append(test_score)
    print('#' * 20)
    print('train_acc:{:.4f}'.format(train_score))
    print('test_acc:{:.4f}'.format(test_score))

训练曲线如下：

然后我们可以类似的打印出模型的参数：

我们可以直观看到模型参数小了很多，并且可以发现几个权重是10-4或者10-5说明这个权重已经很小了，约等于0了，L1的稀疏性也有所体现。

根据训练图像也可以发现，加上L1正则化和，模型的测试集准确率一直好于训练集，的确有助于缓解过拟合现象。

L2正则化

L2正则化就是通过增加L2范式来约束权重。
损失函数表达式如下：
loss(w，b，λ) = loss(w，b) + λ * (w12 + w22 + … + wn2)

在pytorch中L2正则化已经帮我们实现好了
优化器中的weight_decay就是调整L2正则化参数的，默认为0

optimizer = th.optim.Adam(model.parameters(), lr=learning_rate, weight_decay=0.001)

这样就是使用了L2正则化了
核心代码如下：


model = network(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

optimizer = th.optim.Adam(model.parameters(), lr=learning_rate, weight_decay=0.02)
loss_func = nn.CrossEntropyLoss()

train_scores = []
test_scores = []
train_losses = []
test_losses = []
for epoch in range(epoch):
    model.train()
    for step, (x, label) in enumerate(train_loader):
        regularization_loss = 0
        pred = model(x)
        loss = loss_func(pred, label)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    model.eval()
    train_score, train_loss = evaluate_model(model, train_loader, loss_func)
    test_score, test_loss = evaluate_model(model, test_loader, loss_func)
    train_losses.append(train_loss)
    test_losses.append(test_loss)
    train_scores.append(train_score)
    test_scores.append(test_score)
    print('#' * 20)
    print('train_acc:{:.4f}'.format(train_score))
    print('test_acc:{:.4f}'.format(test_score))

输出准确率曲线：

查看模型参数：

从参数大小上来看，使用了L2正则化，发现最后一组权重都变小了许多，基本上都在0.1-0.4左右，和baseline还是有明显区别的，并且不像L1那样有几个权重特别小。

dropout

dropout是通过随机使一些神经元失效来进行正则化的。
首先dropout能够使一些神经元失效，从而使得模型复杂度降低，从而能够缓解过拟合，
其次，因为dropout随机使得一些神经元失效，那么说明每个神经元并不是时刻有效的，那么就不会被赋予较大的权重，从而达到缓解过拟合的效果。

我们可以看看torch中dropout的效果：

data = th.tensor([1,2,3,5.0])
fc = nn.Linear(4, 10)
dp = nn.Dropout(p=0.5)
res = fc(data)
res_dp = dp(res)
print(res)
print(res_dp)

可以看到，pytorch的dropout就是会随机使一些神经元权重失效（令其=0）然后剩余的神经元扩大，计算公式就为：
剩余原值/(1-p)

核心代码如下：
模型里加个dropout层就行了。

import pandas as pd
import numpy as np
import torch as th
import torch.nn as nn
import torch.utils.data.dataloader as dataloader
from torch.utils.data import TensorDataset
from tqdm import tqdm
from sklearn.metrics import accuracy_score

def get_dataloader(batch_size, file_name):
    filedata = pd.read_csv(file_name, header=None)
    label = filedata.values[:, 0]
    data = filedata.values[:, 1:]
    data = th.from_numpy(data).to(th.float32)
    label = th.from_numpy(label).to(th.long)
    dataset = TensorDataset(data, label)
    data_loader = dataloader.DataLoader(dataset=dataset, shuffle=True, batch_size=batch_size)
    return data_loader

batch_size = 256
input_size = 784
hidden_size = 20
output_size = 10
learning_rate = 0.001
dropout = 0.3
epoch = 5
test_loader = get_dataloader(batch_size=batch_size, file_name = "mnist_test.csv")
train_loader = get_dataloader(batch_size=batch_size, file_name = "mnist_train.csv")

class network(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, dropout):
        super().__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.w1 = nn.Linear(input_size, hidden_size, bias=False)
        self.dropout = nn.Dropout(dropout)
        self.w2 = nn.Linear(hidden_size, output_size, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        i2h = self.w1(x)
        i2h = self.sigmoid(i2h)
        i2h = self.dropout(i2h)
        h2o = self.w2(i2h)
        h2o = self.sigmoid(h2o)
        return h2o

def evaluate_model(model, iterator, criterion):
    all_pred = []
    all_y = []
    losses = []
    for i, batch in tqdm(enumerate(iterator)):
        if th.cuda.is_available():
            input = batch[0].cuda()
            label = batch[1].type(th.cuda.LongTensor)
        else:
            input = batch[0]
            label = batch[1]

        y_pred = model(input)
        loss = criterion(y_pred, label)
        losses.append(loss.cpu().detach().numpy())

        predicted = th.max(y_pred.cpu().data, 1)[1]
        all_pred.extend(predicted.numpy())
        all_y.extend(label.cpu().detach().numpy())
    score = accuracy_score(all_y, np.array(all_pred).flatten())
    return score, np.mean(losses)
model = network(input_size=input_size, hidden_size=hidden_size, output_size=output_size, dropout=dropout)

准确率曲线：

打印最后一层参数：

从训练曲线的角度看，确实有所缓解过拟合现象，因为测试集准确率一直高于训练集，模型的泛化能力较强。
从参数大小方面，就没那么明显了，因为训练次数较少，只有5个epoch而且神经元个数也少，dropout作用其实并不是很大。但是仍然发挥着一定作用。

参考

如何解决过拟合问题？L1、L2正则化及Dropout正则化讲解
 什么是 L1 L2 正规化正则化 Regularization (深度学习 deep learning)

Original: https://blog.csdn.net/qq_52785473/article/details/127586097
Author: Icy Hunter
Title: 正则化之L1和L2已经dropout的一些理解和pytorch代码实现与效果证明

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/659741/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[附源码]计算机毕业设计JAVAjsp疫情期间物资分派管理系统

[附源码]计算机毕业设计JAVAjsp疫情期间物资分派管理系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstor…

人工智能 2023年6月27日
0097
图神经网络的直推式(Transductive)学习与归纳(Inductive)学习

一般的定义如何理解 inductive learning 与 transductive learning? – 王晋东不在家的回答 – 知乎 https:…

人工智能 2023年6月26日
00112
R 计算时间序列自相关性教程

本文介绍时间序列自相关性，并通过示例介绍R计算过程。时间序列自相关性自相关性是时间序列与其自身滞后一定连续时间周期的相关性程度。它也被称为”序列相关”或…

人工智能 2023年7月17日
0096
【算法】LeetCode：栈与队列篇

一、理论基础 1.1 栈先进后出适合做对称匹配类的题目 ; 1.2 队列先近先出二、LeetCode题序总结栈 20 (简单)有效的括号 1047 (简单)删除字符串中…

人工智能 2023年6月27日
0088
64位系统树莓派部署yolo-fatestv2—超多坑

最近在研究yolo-fastest，开始面对作者大大的一堆部署的指令在pycharm的终端里面一顿操作，然后一路报错，后来才发现原来都是linux的指令…后来在虚拟机上…

人工智能 2023年5月28日
00107
CUDA11.7无法安装pytorch的GPU版本

环境： CUDA 11.7 + python 3.6 情况描述我的CUDA是11.7的，在pytorch官方（https://pytorch.org/）找对应的pytorch，由…

人工智能 2023年7月24日
0074
PaddleDetection使用详解(包括常见报错及修复方法)

一、PaddleDetection的安装前言：PaddleDetection依赖paddlepaddle，需要先安装paddlepaddle1.从github/gitee获取Pad…

人工智能 2023年5月26日
0070
带图讲解，深度学习YOLO里面的anchors的进阶理解

如果有了解过yolo网络，那肯定也听说过anchors，当然anchors这个概念布置在YOLO里面才有，在其他的目标检测中也存在anchors这个概念。对于anchors计算的一…

人工智能 2023年5月26日
0085
图像处理（九）-图片和数组的转换

✨✨✨感谢优秀的你打开了小白的文章“希望在看文章的你今天又进步了一点点，离美好生活更近一步！”🌈 🚀往期回顾图像的基本处理（一）(1条消息) 图像基本处理…

人工智能 2023年5月26日
0094
yolov5 训练模型预测没有框？mAP为零？

2022-04-08前几天（4月8号左右），下了个 yolov5 ，想做个目标检测。从安装依赖，下载权重到进行预测都很顺利，到训练自己的数据集，却出了点问题，发现预测结果都没有框。…

人工智能 2023年7月21日
0062
局部加权回归是一种回归算法，它根据数据点的邻域距离来赋予不同的权重，以便在建模时更关注邻近的数据点。它可以用来拟合非线性的数据

介绍局部加权回归（Locally Weighted Regression）是一种回归算法，用于拟合非线性数据。与其他回归算法不同的是，局部加权回归根据每个数据点的邻域距离赋予不同…

人工智能 2023年12月31日
0070
NLP文本预处理的三大流程

文本预处理的流程先去除文本中的无关元素将文本行拆分为单词或字符词元 ※※制作字典，给每个token加上indices 整个nlp其实就是把文本中的字词符号等看作是带有时序的变量…

人工智能 2023年5月30日
00120
企业如何高效实现文档管理？

编者按：文档难以共享？缺乏高效便捷的团队协作工具？文档放到在线云平台担心安全？这时候，你可能就需要企业知识管理系统了。本文从企业文档管理常见问题说起，介绍了天翎KMS平台是如何帮助…

人工智能 2023年6月10日
0073
化合物分子 ogb、dgl生成图网络及GNN模型训练

参考：https://towardsdatascience.com/learn-to-smell-molecules-with-graph-convolutional-neural…

人工智能 2023年6月28日
00114
【云原生 • Kubernetes】认识 k8s、k8s 架构、核心概念点介绍

目录一、Kubernetes 简介二、Kubernetes 架构三、Kunbernetes 有哪些核心概念？ 1. 集群 Cluster 2. 容器 Container 3….

人工智能 2023年7月29日
0057
numpy.linalg.lstsq()详解以及用法示例

详解将最小二乘解返回到线性矩阵方程。计算近似求解方程的向量x。该方程可能未确定、良好或过度确定（即，线性独立行数可以小于、等于或大于其线性独立列数）。如果a是平方且为全秩，则x…

人工智能 2023年7月6日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

正则化之L1和L2已经dropout的一些理解和pytorch代码实现与效果证明

文章目录

大家都在看