PyTorch深度学习实践概论笔记13-循环神经网络高级篇-分类

2023年7月2日下午5:54 • 人工智能 • 阅读 68

在PyTorch深度学习实践概论笔记12-循环神经网络基础篇中简单介绍了RNN，接下来13讲，我们介绍一个关于神经网络的应用：实现一个循环神经网络的分类器。

1 RNN Classifier – Name Classification

用RNN做一个分类器。

先看看这个问题。现在有一个数据集，数据集里有人名和对应的国家，我们需要训练一个模型，输入一个新的名字，模型能预测出这个名字是基于哪种语言的（18种不同的语言，18分类）。

2 Revision

回顾上一讲。

在自然语言处理中，通常的方式：①先把词或字变成一个one-hot向量，one-hot向量维度高，而且过于稀疏，所以一般来说先通过嵌入层（Embed）把one-hot向量转化成低维的稠密向量，②然后经过RNN，隐层的输出不一定和最终要求的目标一致，所以要用一个 线性层把输出映射成和我们的要求一致。

3 Our Model

我们的需求是输出名字所属的语言分类，我们对O1-O5这些输出是没有要求的，即不需要对所有的隐层输出做线性变换，为了解决这个问题，我们可以把网络简化，如下图所示。

输入向量经过嵌入层之后，输入到RNN，输出最终的隐层状态，最终的隐层状态经过一个线性层，我们分成18个类别，就可以实现名字分类的任务了。

这一讲使用的模型如下：

看一下数据，只有两列：Name和Country。注意输入的每一个名字都是一个序列（x1,x2,…xN），而且序列的长短不一样。

4 Implementation

首先看一下主要的循环是怎么写的。

4.1 Implementation – Main Cycle

代码如下：

if __name__ == '__main__':
    #N_CHARS：字符数量（输入的是英文字母，每一个字符都要转变成one-hot向量，这是自己设置的字母表的大小）
    #HIDDEN_SIZE：隐层数量（GRU输出的隐层的维度）
    #N_COUNTRY：一共有多少个分类
    #N_LAYER：设置用几层的GRU
    #实例化分类模型

    classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER)

    #判断是否使用GPU训练模型
    if USE_GPU:

        device = torch.device("cuda:0")

        classifier.to(device)

    #构造损失函数和优化器
    criterion = torch.nn.CrossEntropyLoss()

    optimizer = torch.optim.Adam(classifier.parameters(), lr=0.001)

    start = time.time()  #计算一下时间
    print("Training for %d epochs..." % N_EPOCHS)
    acc_list = []
    #每一次epoch做一次训练和测试
    for epoch in range(1, N_EPOCHS + 1):
        # Train cycle
        trainModel()
        acc = testModel()
        #测试结果添加到acc_list列表，可以绘图等
        acc_list.append(acc)

计算运行时间的函数time_since()的代码如下：

def time_since(since):
    s = time.time() - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

记录测试的准确率，代码如下：

import matplotlib.pyplot as plt
import numpy as np

epoch = np.arange(1, len(acc_list) + 1, 1)

acc_list = np.array(acc_list)

plt.plot(epoch, acc_list)

plt.xlabel('Epoch')

plt.ylabel('Accuracy')

plt.grid()

plt.show()

回忆训练的基本过程（四步）：

准备数据–定义模型–构造损失函数和优化器–训练过程

4.2 Implementation – Preparing Data

首先看一下数据上的准备。

4.2.1 Name的处理

①拿到的是字符串，先转变成序列，转成字符列表，列表里面的每一个数就是名字里面的每一个字符。

②接下来做词典，可以用 ASCII表，ASCII表是128个字符，我们把 字典长度设置成128，求每一个字符对应的ASCII值，拼成我们想要的序列。上图中的最右表中每一个数并不是一个数字，而是一个one-hot向量。例如77，就是一个128维的向量，第77个数的值为1，其他的值都是0。对于Embedding(嵌入层)来说，只要告诉嵌入层第几个维度是1就行了，所以只需要把ASCII值放在这就行了。

序列长短不一应该怎么解决？

③如上图左，每一行是一个序列，我们解决序列长短不一的方法是 padding（因为张量必须保证所有的数据都添满，不然就不是张量），如上图右侧，在做一个batch的时候，我们看这一个batch里面哪一个字符串的长度最长，然后把其他字符串填充成和它一样的长度，这样就能保证可以构成一个张量， 因为每个维度的数量不一样是没办法构成张量的。

4.2.2 Country的处理

我们需要把各个分类（国家）转成一个 分类索引（index），分类索引必须是0开始的整数，不能直接用字符串作为我们的分类标签。

整个数据集一共18个国家，做成一个词典。

代码如下：

import gzip
import csv

class NameDataset(Dataset):

    def __init__(self, is_train_set=True):
        #从gz当中读取数据
        filename = 'data/names_train.csv.gz' if is_train_set else 'data/names_test.csv.gz'

        with gzip.open(filename, 'rt') as f:
            reader = csv.reader(f) #每一行都是(name,country)的元组
            rows = list(reader)
        #将names和countries保存在list中
        self.names = [row[0] for row in rows]
        self.len = len(self.names)
        self.countries = [row[1] for row in rows]
        #将countries和它的index保存在list和dictionary中
        self.country_list = list(sorted(set(self.countries)))
        self.country_dict = self.getCountryDict()
        self.country_num = len(self.country_list)#国家的个数

    #提供索引访问
    def __getitem__(self, index):
        return self.names[index], self.country_dict[self.countries[index]]

   #返回dataset的长度
    def __len__(self):
        return self.len

    #将list转化成dictionary
    def getCountryDict(self):
        country_dict = dict()
        for idx, country_name in enumerate(self.country_list, 0):
            country_dict[country_name] = idx
        return country_dict

    #给定index返回country，方便展示
    def idx2country(self, index):
        return self.country_list[index]

    #返回country的数目
    def getCountriesNum(self):
        return self.country_num

#Prepare Dataset and DataLoader
Parameters
HIDDEN_SIZE = 100
BATCH_SIZE = 256
N_LAYER = 2
N_EPOCHS = 100
N_CHARS = 128
USE_GPU = False
#训练数据
trainset = NameDataset(is_train_set=True)
trainloader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True)
#测试数据
testset = NameDataset(is_train_set=False)
testloader = DataLoader(testset, batch_size=BATCH_SIZE, shuffle=False)
#N_COUNTRY is the output size of our model
N_COUNTRY = trainset.getCountriesNum()

注意上述代码读取数据集为什么不用Numpy？因为读取数据集有很多种方式，如果是pickle/HDFS/HD5类型的数据，要就要用相应的包。

根据人名找到他的国家对应的index：

4.3 Implementation – Model Design

4.3.1 Implementation – Model Design

先看看和GRU相关的参数：hidden_size和n_layers。

注意Embedding层的输入、输出维度：

还有GRU的输入、输出维度：

这里n_directions设置单向还是双向的：

代码如下：

class RNNClassifier(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size, n_layers=1, bidirectional=True):
        super(RNNClassifier, self).__init__()
        #parameters of GRU layer
        self.hidden_size = hidden_size
        self.n_layers = n_layers
        #What is the Bi-Direction RNN/LSTM/GRU?

        self.n_directions = 2 if bidirectional else 1

        #The input of Embedding Layer with shape:𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒
        #The output of Embedding Layer with shape:𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒
        self.embedding = torch.nn.Embedding(input_size, hidden_size)
        #The inputs of GRU Layer with shape:
        #𝑖𝑛𝑝𝑢𝑡: 𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒
        #ℎ𝑖𝑑𝑑𝑒𝑛: 𝑛𝐿𝑎𝑦𝑒𝑟𝑠 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒
        #The outputs of GRU Layer with shape:
        #𝑜𝑢𝑡𝑝𝑢𝑡: 𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠
        #ℎ𝑖𝑑𝑑𝑒𝑛: 𝑛𝐿𝑎𝑦𝑒𝑟𝑠 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒
        self.gru = torch.nn.GRU(hidden_size, hidden_size, n_layers,bidirectional=bidirectional)
        self.fc = torch.nn.Linear(hidden_size * self.n_directions, output_size)

    def _init_hidden(self, batch_size):
        hidden = torch.zeros(self.n_layers * self.n_directions,batch_size, self.hidden_size)
        return create_tensor(hidden)

下面具体看看什么是双向的神经网络吧。

4.3.2 Implementation – Bi-direction RNN/LSTM/GRU

序列的forward方向流程图（注意forward不是正向传播）：

上图的情况x_(N-1)只包含过去的信息，但是有时候在NLP中也需要考虑未来的信息。

序列的backward方向流程图（注意backward不是反向传播）：

接着

最后

这样的神经网络称双向的神经网络，backward最后得到h_N^b，输出是上面的h0、h1…hN。

最后输出的hidden只有两个，公式如下：

4.3.3 Implementation – Model Design

再接着看，这个地方就需要乘上n_directions：

然后再看一下forward过程。

首先我们做的是矩阵转置：input = input.t()。接着保存batch_size的值，之后用来构造h0。

然后嵌入层：embedding = self.embedding(input)，维度就变成下图的维度。

注意看下图，如果之后的都padding为0之后没有必要参与运算，pytorch提供了下面的功能来加快运算。

利用这行代码gru_input = pack_padded_sequence(embedding, seq_lengths)，输入输出如下：

源码：

如果还是不太清楚，接着往下看：

直接把左侧非0的列排到右侧，把填充的0去掉，GRU可以处理长短不一的数据序列（数据长度保存），但是不能使用打包函数，想要打包的话，必须按照长度降序排列。降序排列如下图：

排好之后，重新计算：

这样做之后工作效率更高了。

整体代码如下：

class RNNClassifier(torch.nn.Module):

    def __init__(self, input_size, hidden_size, output_size, n_layers=1, bidirectional=True):

        super(RNNClassifier, self).__init__()

        self.hidden_size = hidden_size

        self.n_layers = n_layers

        self.n_directions = 2 if bidirectional else 1

        self.embedding = torch.nn.Embedding(input_size, hidden_size)

        #The inputs of GRU Layer with shape:

        #𝑖𝑛𝑝𝑢𝑡: 𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒

        #ℎ𝑖𝑑𝑑𝑒𝑛: 𝑛𝐿𝑎𝑦𝑒𝑟𝑠 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒

        #The outputs of GRU Layer with shape:

        #𝑜𝑢𝑡𝑝𝑢𝑡: 𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠

        #ℎ𝑖𝑑𝑑𝑒𝑛: 𝑛𝐿𝑎𝑦𝑒𝑟𝑠 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒
        self.gru = torch.nn.GRU(hidden_size, hidden_size, n_layers,bidirectional=bidirectional)

        self.fc = torch.nn.Linear(hidden_size * self.n_directions, output_size)

    def _init_hidden(self, batch_size):

        hidden = torch.zeros(self.n_layers * self.n_directions,batch_size, self.hidden_size)

        return create_tensor(hidden)

    def forward(self, input, seq_lengths):

        # input shape : B x S -> S x B

        input = input.t()
        #Save batch-size for make initial hidden

        batch_size = input.size(1)

        #Initial hidden with shape:

        #(𝑛𝐿𝑎𝑦𝑒𝑟 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑠, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒)
        hidden = self._init_hidden(batch_size)
        #Result of embedding with shape:

        #(𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒)

        embedding = self.embedding(input)

        # pack them up
        #The first parameter with shape:

        #(𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒)

        #The second parameter is a tensor, which is a list of sequence length of each batch element.

        #Result of embedding with shape:(𝑠𝑒𝑞𝐿𝑒𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒)

        #It returns a PackedSquence object.

        gru_input = pack_padded_sequence(embedding, seq_lengths)

        #The output is a PackedSequence object, actually it is a tuple.

        #the shape of hidden, which we concerned, with shape:

        #(𝑛𝐿𝑎𝑦𝑒𝑟𝑠 ∗ 𝑛𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛, 𝑏𝑎𝑡𝑐ℎ𝑆𝑖𝑧𝑒, ℎ𝑖𝑑𝑑𝑒𝑛𝑆𝑖𝑧𝑒)
        output, hidden = self.gru(gru_input, hidden)

        if self.n_directions == 2:

            hidden_cat = torch.cat([hidden[-1], hidden[-2]], dim=1)

        else:

            hidden_cat = hidden[-1]

        fc_output = self.fc(hidden_cat)

        return fc_output

以上内容是模型相应的设定。

4.4 Implementation – Convert name to tensor

接下来看看name转化成tensor的过程。

转化过程如下：

①name转换成一个一个字符，转化成对应的ASCII值。

②填充：

③转置：

④降序排列：

看看make_tensors函数。

把每个字符变成列表。代码如下：

4.5 Implementation – One Epoch Training

训练：

代码如下：

def create_tensor(tensor):
    if USE_GPU:
        device = torch.device("cuda:0")
        tensor = tensor.to(device)
    return tensor

def trainModel():
    total_loss = 0
    for i, (names, countries) in enumerate(trainloader, 1):
        inputs, seq_lengths, target = make_tensors(names, countries)
        output = classifier(inputs, seq_lengths)
        loss = criterion(output, target)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
        if i % 10 == 0:
        print(f'[{time_since(start)}] Epoch {epoch} ', end='')
        print(f'[{i * len(inputs)}/{len(trainset)}] ', end='')
        print(f'loss={total_loss / (i * len(inputs))}')
    return total_loss

4.6 Implementation – Testing

测试代码如下：

def testModel():
    correct = 0
    total = len(testset)
    print("evaluating trained model ...")
    with torch.no_grad():
        for i, (names, countries) in enumerate(testloader, 1):
            inputs, seq_lengths, target = make_tensors(names, countries)
            output = classifier(inputs, seq_lengths)
            pred = output.max(dim=1, keepdim=True)[1]
            correct += pred.eq(target.view_as(pred)).sum().item()
        percent = '%.2f' % (100 * correct / total)
        print(f'Test set: Accuracy {correct}/{total} {percent}%')
    return correct / total

输出结果图如下：

5 Exercise 13-1 Sentiment Analysis on Movie Reviews

对电影影评做情感分析。

ref:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews/data

数据集如下：

练习之后会解答。

说明：记录学习笔记，如果错误欢迎指正！写文章不易，转载请联系我。

Original: https://blog.csdn.net/csdn_xmj/article/details/122396373
Author: 双木的木
Title: PyTorch深度学习实践概论笔记13-循环神经网络高级篇-分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665932/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2023年，前端开发未来可期

☆对于很多质疑，很多不解，本文将从△ 目前企业内前端开发职业的占比；△ 目前业内开发语言的受欢迎程度；△ 近期社区问答活跃度；等维度来说明目前前端这个职业的所处位置。 ☆还有强硬的…

人工智能 2023年6月16日
0072
C++ Reference: Standard C++ Library reference: C Library: cwctype: WEOF

C++官网参考链接：https://cplusplus.com/reference/cwctype/WEOF/ 常量 Original: https://blog.csdn.net…

人工智能 2023年6月29日
00109
python数据与挖掘实战学习：实战篇第九章基于水色图像的水质评价笔记

第九章基于水色图像的水质评价 9.1 背景与挖掘目标有经验的从事渔业生产的从业者可通过观察水色变化调控水质，以维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡…

人工智能 2023年6月11日
0065
OpenCV中常见的图片存储格式

1、BGR图我们平常生活中拍摄的图片一般都是GRB（R:红色 G：绿色 B：蓝色）格式的图片，而在OpenCV中我们常用的图片格式为BGR（蓝绿红），本质上二者没有任何区别，只是…

人工智能 2023年7月20日
0060
[3D检测系列-PointRCNN]复现PointRCNN代码，并实现PointRCNN3D目标检测可视化，包含预训练权重下载链接（从0开始以及各种报错的解决方法）

[3D检测系列-PointRCNN] 复现PointRCNN代码 1.下载代码 2.准备数据集 (1)使用官网提供的数据集格式 (2)使用软连接 3.检测结果 4.结果可视化 (1…

人工智能 2023年6月24日
0084
Cross结构【转载】

双塔式模型也称孪生网络、Representation-based，就是用一个编码器分别给两个文本编码出句向量，然后把两个向量融合过一个浅层的分类器；交互是也称Interaction…

人工智能 2023年6月4日
00106
语音合成（speech synthesis）方向十：GAN在声学模型干了什么？

声明：工作以来主要从事TTS工作，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表 http://yqli.tech/…

人工智能 2023年5月25日
0078
常用的优化器合集

目录一、优化器二、各优化器 1、梯度下降法 1.1梯度下降（GD） 1.2、随机梯度下降（SGD） 1.3、小批量梯度下降法（MBGD） 1.4传统梯度优化的不足(BGD,SG…

人工智能 2023年7月26日
00349
【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤

【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤 1. 来源 github:MsEdgeTTS 吾爱破解：微软语音助手免费版，支持多种功能，全网首发…

人工智能 2023年5月27日
00111
1.1关于机器学习和深度学习

目录一.前景二.机器学习三.分类与回归问题四.深度学习五.CNN神经网络搭建介绍（针对图像识别）已更新。一.前景人工智能是计算机科学的一个分支，它企图了解智能的实质…

人工智能 2023年6月16日
0071
RLS递归最小二乘法(Recursive Least Squares)

感谢B站Up 凩子白的讲解视频, 大多数的RLS算法介绍都是从各种专业领域角度讲解的(比如滤波器等角度), 对于缺…

人工智能 2023年6月24日
0053
kaggle竞赛-树叶图片分类项目

数据集：176种树叶，27152张图片，其中训练集18353张，测试集8799张。准备工作环境：Windows11+Pytorch 1.12.0+Jupyter noteboo…

人工智能 2023年7月1日
00105
OpenCv入门（六）——几何检测

目录 0x01 了解霍夫变换 0x02 线检测技术 0x03 LSD快速直线检测 0x04 圆检测技术 0x05 轮廓检测 0x01 了解霍夫变换霍夫变换是要从图像钟识别几何形状…

人工智能 2023年6月20日
0079
1. 云计算简介

1.2 云计算的定义和分类云计算的定义美国国家标准与技术研究院（NIST）定义：云计算是一种模型，它可以实现随时随地、便捷地、随需应变地从可配置计算资源共享池中获取所需的资…

人工智能 2023年6月26日
00105
BP神经网络matlab工具箱实现

训练工具箱中的神经网络在选项卡APP中找到Neural Net Fitting 点击next 点击导入样本数据集，训练神经网络，本例中选择导入body fat数据集导入后会在工…

人工智能 2023年7月12日
0054
裂缝检测专题（3）裂缝数据集dataset总结1-分类

裂缝检测技术-基于图像处理 * – 用于裂缝分类用于裂缝分类 Concrete Crack Images for Classification 像素值：227&#21…

人工智能 2023年5月26日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PyTorch深度学习实践概论笔记13-循环神经网络高级篇-分类

4.1 Implementation – Main Cycle

4.2 Implementation – Preparing Data

4.2.1 Name的处理

4.2.2 Country的处理

4.3 Implementation – Model Design

4.3.1 Implementation – Model Design

4.3.2 Implementation – Bi-direction RNN/LSTM/GRU

4.3.3 Implementation – Model Design

4.4 Implementation – Convert name to tensor

4.5 Implementation – One Epoch Training

4.6 Implementation – Testing

大家都在看