LSTM在多分类中出现的loss不下降问题（pytorch实现）

2023年7月21日下午5:50 • 人工智能 • 阅读 51

最近在使用LSTM做基于THUCNews数据集的文本分类。之前用LSTM模型做10种新闻种类的分类时可以正常收敛，说明应该不是写错代码的原因，但是当我把新闻种类扩大到14种类别时，却出现了loss不下降的情况：

因为不知道是什么原因，所以希望能探究一下。

; 一、改变权重初始化方案

之前是让LSTM默认初始化，现在采用RNN常用的正交初始化，据说可以缓解梯度消失和梯度爆炸问题。

方法：

在初始化代码中加入：

        nn.init.orthogonal_(self.lstm.weight_ih_l0)
        nn.init.orthogonal_(self.lstm.weight_hh_l0)

结果

没有改善。

二、改变输入文本的最大长度

输入文本的长度直接影响到模型参数的多少，模型参数越多越难训练，可能会导致loss不下降的情况。

方法

之前分词后的文本截断到了500个词，此次把文本的长度截断到了50个。

结果

loss正常下降，且收敛速度很快，七个epoch之后在验证集上的准确率达到最高，为94.71%。
如果是用于短文本分类，减少文本的最大长度能够很好的改善loss不下降的问题，而且训练速度能够大大加快。
但是我最终要用LSTM去做长文本的分类，因此还需要找到其他的方法。

三、学习率的调整

一般来讲，学习率的调整是操作起来最简单，但是也可能是最麻烦的一件事情。我之前有过调了调学习率就让模型从不收敛到收敛的经历，但是这次并没有什么效果。

方法

调整学习率，在[0.0003,1]中不断尝试。学习率过大会直接导致loss飙升到200以上，在一定区间上调小学习率能降低loss，但是继续调小学习率loss无法继续下降了。折腾了半天，发现最佳的初始学习率是默认的0.001左右，但之后无论怎么调整都无法使loss按照正常状况下降了。

结果

没有改善。

四、文本长度的降维

我大概知道是因为模型的参数过多所以难以训练了，这样我们或许能通过对文本的长度进行降维来改善这种状况。降维我最先想到的是通过池化的方式，但是直接进行池化会丢失掉很多的信息，所以我在宽度为10的最大池化前面又加入了一层宽度为3的卷积层，这样增强了模型对局部特征的提取能力。

模型代码如下

class MergeNet2(nn.Module):
    def __init__(self,vocab_size,pkernel_size,embedding_dim,kernel_size,hidden_dim,layer_dim,output_dim):
"""
        :param vocab_size: 词典长度
        :param pkernel_size: 池化层kernel宽度
        :param embedding_dim: 词向量维度
        :param kernel_size: 卷积池kernel宽度
        :param hidden_dim: LSTM神经元的个数
        :param layer_dim: LSTM层数
        :param output_dim: 隐藏层的输出维度（分类的数量）
"""
        super(MergeNet2,self).__init__()

        self.embedding = nn.Embedding(vocab_size,embedding_dim)

        self.conv = nn.Sequential(
                nn.Conv1d(in_channels=embedding_dim,
                          out_channels=embedding_dim,
                          kernel_size=kernel_size),
                nn.BatchNorm1d(embedding_dim),
                nn.ReLU(inplace=True),
                nn.MaxPool1d(kernel_size=(pkernel_size))
        )

        self.lstm = nn.LSTM(embedding_dim,hidden_dim,layer_dim,batch_first=True)
        self.fc1 = nn.Linear(hidden_dim,output_dim)

    def forward(self,x):
        embeds = self.embedding(x)

        embeds = embeds.permute(0, 2, 1)

        conved = self.conv(embeds)

        conved = conved.permute(0, 2, 1)

        r_out,(h_n,h_c) = self.lstm(conved,None)

        out = self.fc1(r_out[:,-1,:])
        return out

结果

loss正常下降，九个epoch之后在验证集上的准确率达到最高，为94.95%。

总结

改进后模型显然已经不是一个纯粹的LSTM模型了，而是一个卷积和LSTM相结合的模型。对于长文本的输入，无论有多么长（我最多试过3000个词，这个时候的池化层宽度为20），只要合理调整池化层和卷积层的参数都能够使loss正常下降。比起单一的LSTM模型，改进后的模型对文本长度的限制更小，从而能更全面地提取长文本的特征，理论上比单一LSTM模型具有更好的准确率。
当然，本文的初衷并不是做模型的融合来提高准确率，或许在LSTM之前采用多层卷积并联或串联的方式能够得到更好的模型，但也要小心过拟合的问题。

Original: https://blog.csdn.net/qq_50700819/article/details/124525170
Author: 树影蛙
Title: LSTM在多分类中出现的loss不下降问题（pytorch实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/707548/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

iOS：使用 Core ML 进行机器学习初探

1.什么是机器学习？从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然…

人工智能 2023年6月25日
0054
为什么很多新型编程语言都抛弃了 C 语言风格的 for 语句？

因为C风格的for循环有太多不确定的地方，这些东西都非常的不直观：典型的C风格的for循环像这样： for( initialize; condition; increment )…

人工智能 2023年6月20日
0087
机器学习笔记（三）

机器学习笔记（三）文章目录 * – 机器学习笔记（三） – + 线性模型简介 + 线性回归 + 线性几率回归线性模型简介线性模型最简单的案例是最小二乘…

人工智能 2023年6月15日
0071
【Python爬虫】爬取2022软科全国大学排行榜

目录 1.任务要求 2.网络爬虫实现原理 3.系统设计与代码实现 3.1 第一题 3.1.1 最初设计方案：采用request+BeautifulSoup 方式 3.1.2 更改后…

人工智能 2023年7月6日
0086
Keras学习之：全网最详细，一文包你会！使用 Keras 自带的模型实现迁移学习

文章目录迁移学习是什么，为什么要用迁移学习 * 场景一场景二破局之法：迁移学习 – 迁移学习主要的三种手段 Keras 可以使用哪些已经训练好的模型模型选择：I…

人工智能 2023年7月13日
0070
在MATPool矩池云完成Pytorch训练MNIST数据集

本文为矩池云入门手册的补充：Pytorch训练MNIST数据集代码运行过程。案例代码和对应数据集，以及在矩池云上的详细操作可以在矩池云入门手册中查看，本文基于矩池云入门手册，默认…

人工智能 2023年6月4日
0089
anaconda安装配置教程

Anaconda是一个开源的Python发行版本，包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等。其中Conda是一个开源的包、环境管理器，…

人工智能 2023年6月17日
0063
【烂活】斯坦福句法解析库使用小结+最新四月新番下载（以辉夜与阿尼亚为例）

序言前排提示本文是挂羊头卖狗肉，正文在第二部分，第一部分纯属为了过审凑字数。文章目录序言 * 1 斯坦福句法解析库（句法树、依存关系图）使用概述 2 烂活（可能对追番的朋友有…

人工智能 2023年5月30日
0085
基于Matlab的SLIC超像素分割算法分析

SLIC超像素分割算法分析1：导入原始照片，初始化聚类中心，按照设定的超像素个数，在图像内均匀的分配聚类中心。假设图片总共有 N 个像素点，预分割为 s 个相同尺寸的超像素，那么每…

人工智能 2023年5月31日
0076
离线Kaldi安装教程

目录 1. 下载Kaldi并解压缩。 2. 依赖库下载和安装 3. 可选项安装 4. kaldi安装 5. 测试这里的离线安装是指需要编译的环境都已经安装好了，即运行下面这条指令…

人工智能 2023年5月25日
0079
mysql创建索引导致死锁，数据库崩溃，mysql的表级锁之【元数据锁（meta data lock，MDL)】全解

文章目录问题提出什么是元数据锁（meta data lock，MDL) 什么情况下会添加元数据锁元数据锁工作原理创建索引导致数据库崩溃 * 复现 DDL导致锁表的原因 My…

人工智能 2023年6月26日
0075
【Python】全网最详细的Python入门基础教程（非常详细，整理而来）

在 Python 中，所有标识符可以包括英文（区分大小写的）、数字以及下划线(_)，但不能以数字开头。以单下划线开头 _foo 的代表不能直接访问的类属性，需通过类提供的接…

人工智能 2023年7月3日
0066
【学习强化学习】九、Actor-Critic算法原理及实现

文章目录参考资料 1. Actor-Critic框架原理 * 1.1 基本介绍 1.2 原理分析 1.3 Advantage Actor-Critic – 1. A2…

人工智能 2023年6月16日
00116
（最新）基于python（tensorflow）（OpenCV）卷积神经网络人脸识别

（最新）基于python（tensorflow）（OpenCV）卷积神经网络人脸识别对于深度学习有了一些了解，想着自己做一些项目，对个人脸识别就特别感兴趣，话不多说，首先我是在An…

人工智能 2023年5月26日
0065
可解释机器学习- LIME模型讲解｜interpretable machine learning-LIME

Contents 原理计算流程优势劣势 Reference 原理 LIME生成了一个新的数据集，数据集由扰动的样本（permuted samples）和黑箱模型对应的预…

人工智能 2023年7月28日
0052
【youcans 的 OpenCV 学习课】10. 图像复原与重建

专栏地址：『youcans 的图像处理学习课』文章目录：『youcans 的图像处理学习课 – 总目录』【youcans 的图像处理学习课】10. 图像复原与重建 *…

人工智能 2023年6月22日
0049

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30