【多标签文本分类】代码详解Seq2Seq模型

2023年5月28日上午12:56 • 人工智能 • 阅读 66

·阅读摘要：
本文提出经典的Seq2Seq模型，应用于机器翻译领域。但是Seq2Seq适用于很多领域，比如多标签文本分类。
·参考文献：
[1] Sequence to Sequence Learning with Neural Networks

【注一】：本论文提出的Seq2Seq模型，引发一系列基于Seq2Seq模型的文章问世。地位类似于2014年Kim发表的TextCNN，2017年Google发表的Transformer。

【注二】：论文的内容比较简单，重点都是在讲解Seq2Seq的原理。本篇博客将从pytorch实现Seq2Seq的角度讲解用代码逻辑理解Seq2Seq。

[1] Seq2Seq模型图

如下图，左边是编码器（Encoder），主要是把一个序列经过多层LSTM后转化为一个固定大小的隐藏层向量H H H。右边是解码器（Decoder），也是深层LSTM，它的输入是每次产生的词y i y_i y i 与编码器的输出H H H，解码器每次产生一个词，直到产生的词是 <eos></eos>为止。

; [2] 编码器（Encoder）

代码如下：

代码中，参数 src是源序列，参数 trg是目标序列

class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        self.embedding = nn.Embedding(input_dim, emb_dim)
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout = dropout)
        self.dropout = nn.Dropout(dropout)

    def forward(self, src):

        embedded = self.dropout(self.embedding(src))

        outputs, (hidden, cell) = self.rnn(embedded)

        return hidden, cell

编码器（Encoder）就是一个普通的双向LSTM模型，比较简单。

正常情况下，我们使用的是最后一层，每个时间步的输出 outputs。

这里，编码器（Encoder）返回的是每一层每个时间步的输出 hidden与中间参数 cell。 hidden与中间参数 cell会作为解码器（Decoder）的输入。

[3] 解码器（Decoder）

代码如下：

代码中，参数 src是源序列，参数 trg是目标序列

class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        self.output_dim = output_dim
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        self.embedding = nn.Embedding(output_dim, emb_dim)
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout = dropout)
        self.fc_out = nn.Linear(hid_dim, output_dim)
        self.dropout = nn.Dropout(dropout)

    def forward(self, input, hidden, cell):
        input = input.unsqueeze(0)

        embedded = self.dropout(self.embedding(input))

        output, (hidden, cell) = self.rnn(embedded, (hidden, cell))

        prediction = self.fc_out(output.squeeze(0))

        return prediction, hidden, cell

解码器（Decoder）依然是一个LSTM层，它的输入是上一次的输出 hidden与 cell和上一次生成的单词的词向量 input。

【注三】：在第一次运行Decoder的时候，用的是Encoder的输出 hidden与 cell和开始字符 <sos></sos>的词向量。

到这里， 其实还是有诸多疑问的，包括：

1、解码器（Decoder）是一个词一个词蹦出来的，对于Decoder可见性的要用循环来遍历一下，这个循环怎么写的问题；

2、词向量怎么转化成单词，由于转化的单词要立即送到Decoder里，所以这个转化操作要在模型内完成，不应该作为输出，放到外面转化。

3、模型要返回全连接层的输出，这是个向量，便于后续做 loss计算；

4、如果Decoder出的第一个单词就错误的话，那整个Decoder出来的句子就打错特错，如何防止这种情况。

[4] Seq2Seq

最终把Encoder和Decoder整合，才算成功，代码如下：

代码中，参数 src是源序列，参数 trg是目标序列

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super().__init__()

        self.encoder = encoder
        self.decoder = decoder
        self.device = device

        assert encoder.hid_dim == decoder.hid_dim, \
            "Hidden dimensions of encoder and decoder must be equal!"
        assert encoder.n_layers == decoder.n_layers, \
            "Encoder and decoder must have equal number of layers!"

    def forward(self, src, trg, teacher_forcing_ratio = 0.5):

        batch_size = trg.shape[1]
        trg_len = trg.shape[0]
        trg_vocab_size = self.decoder.output_dim

        outputs = torch.zeros(trg_len, batch_size, trg_vocab_size).to(self.device)

        hidden, cell = self.encoder(src)

        input = trg[0,:]
        for t in range(1, trg_len):

            output, hidden, cell = self.decoder(input, hidden, cell)

            outputs[t] = output

            teacher_force = random.random() < teacher_forcing_ratio

            top1 = output.argmax(1)

            input = trg[t] if teacher_force else top1
        return outputs

看到以上模型，可以解决在步骤[3]中残留的问题。首先用编码器得到输出，然后以一个for循环逐次执行解码器。

【注四】： self.decoder的输出 output是经过全连接层的，它的含义是概率，接下来执行 output.argmax(1)就是找出其中最大概率对应的序号，这样去词典/标签集中一找就能对应得上了。

【注五】： teacher_force是一种非常好的机制，防止解码器一错再错，随机填入目标序列中的词作为输入，用以纠正。再训练阶段我们可以使用 teacher_force机制，但是在验证、测试时使用 teacher_force机制是不对的，我们需要设置模型的形参 teacher_forcing_ratio=0。

【注六】：模型最终 return的 outputs是经过全连接层的！它的含义是概率！它要作为损失函数的输入计算loss的。

⭐【注七】：这样写还是有点问题，在验证、测试的时候，还是这样的话，即使 teacher_forcing_ratio=0，但已经默认了生成序列的长度，这是不对的。

⭐【注八】：在验证、测试的时候，我们应该以出现终止符 <eos></eos>为结束。对于机器翻译任务可行，但是对于多标签文本分类，应该没有效果。因为文本的最后一个单词是具有结束语义信息的，标签不具有。还要继续看论文深造。。。

[5] 结尾

其实有时候看代码比看论文更容易理解，只是好的代码不好找。
完整代码参考：https://github.com/bentrevett/pytorch-seq2seq/blob/master/1%20-%20Sequence%20to%20Sequence%20Learning%20with%20Neural%20Networks.ipynb

Original: https://blog.csdn.net/qq_43592352/article/details/123088043
Author: 征途黯然.
Title: 【多标签文本分类】代码详解Seq2Seq模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528399/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习经典和最新模型

1.深度学习基础-线性神经网络，多层感知器 2.卷积神经网络-lenet，alexnet，vgg，inception，resnet 3.循环神经网络-RNN，GRU，LSTM,se…

人工智能 2023年6月19日
0077
Neo4j使用心得

1、软件环境 Neo4j桌面端管理软件版本：1.2.4安装的数据库版本是Neo4j3.5.17 2、数据库的交换在项目中创建出数据库名称及数据库版本，会生成对应的数据库文件dat…

人工智能 2023年6月1日
0055
Recognition算法中常用的评估指标是什么

评估Recognition算法的常用指标 Recognition算法的评估指标是用来衡量算法的性能和准确性的重要参数。常用的评估指标包括准确率、召回率、F1分数等。本文将详细介绍这…

人工智能 2024年1月3日
0032
HDFS_06_HDFS服务器节点的分类

HDFS_06_HDFS服务器节点的分类持续更新 大数据 文章… 1. HDFS服务器节点的分类 ⭐…

人工智能 2023年7月2日
0049
keras.layers.Conv2D默认参数详解

keras.layers.Conv2D(filters, kernel_size, strides=(1, 1), padding=’valid’, dat…

人工智能 2023年6月4日
00112
vs2019上opencv项目的搭建与运行、找不到dll文件的解决方案

目录 1.安装opencv 2.项目搭建 3.环境配置 4.配置系统环境变量 1.安装opencv 直接搜索官网进行下载：Releases – OpenCV。点击ex…

人工智能 2023年6月19日
0087
anaconda使用虚拟环境安装pytorch1.13+cuda11.7版（2022.11月测试有效）

要点：修改conda的源，用清华源，具体修改方法详见主要是要创建一个.condarc文件，内容改为下面这样的国内源。 ssl_verify: true channels: – …

人工智能 2023年6月30日
0076
是否可以使用特征选择算法来减少过拟合

问题介绍过拟合是机器学习中一个常见的问题，指的是在训练模型时过度拟合训练集，导致模型在未见过的测试数据上表现不佳。为了解决过拟合问题，可以采用特征选择算法来减少模型的复杂度，从而…

人工智能 2023年12月30日
0048
torch.topk() 函数详解

作用：返回列表中最大的n个值例子1：m=torch.arange(0,10)print(m.topk(3)) torch.return_types.topk( values=…

人工智能 2023年7月5日
0074
模型实践｜ CLIP 模型

实验｜Aircloud 算力支持｜幻方萤火二号 CLIP(Contrastive Language-Image Pre-Training，以下简称 CLIP) 模型是 OpenAI…

人工智能 2023年7月28日
0057
MRF马尔科夫链在图像去噪中的应用（python+matlab）

思路： 1转换为二进制图像并覆盖。 2生成名为的翻转图像。 3使用 ICM 对翻转的图像进行降噪。代码：结果：注意知识点： 1原图： quzao3.jpg 我试着用其他图做了…

人工智能 2023年6月21日
0068
【音视频】实操YUV与RGB互转（planar模式 YUV420、YUV422、YUV444与RGB888）

前言 提示：书写目的&am…

人工智能 2023年6月18日
0070
Yolov5中使用Resnet18作为主干网络

Yolov5中使用Resnet18作为主干网络预备知识采用Resnet-18作为主干网络，首先第一件事情就要了解Resnet的网络结构以及resnet-18中的残差层是做什么的…

人工智能 2023年6月16日
0068
【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN：基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月22日
0063
2022年JAVA短信加语音组合方案API

在一些重要信息通知的场景，需要用户能收到且关注到信息，采用短信+语音通知同步推送的方式，能很好的解决这个问题。场景一：相同内容的短信通知+语音通知同步发送在推送短信的同时，同步…

人工智能 2023年5月23日
0073
统计思维：程序员数学之概率统计（第2版）PDF

内容简介 · · · · · · 现实工作中，人们常常需要用数据说话。可是，数据自己不会说话，需要人对它进行分析和挖掘才能找到有价值的信息。概率统计是数据分析的通用语言，是大数据时…

人工智能 2023年7月15日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【多标签文本分类】代码详解Seq2Seq模型

大家都在看