Pytorch实战__LSTM做文本分类

2023年7月21日下午9:28 • 人工智能 • 阅读 84

介绍

首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是在原代码中加了一些讲解和注释，以及将繁体字改成了简体字。
我们需要处理的问题是将Twitter上的文字评论分为正面和负面。具体的要求如下：

我们使用到的模型如下所示：

其中，word embedding是将词语转换为向量，以便于后续放入LSTM中进行训练。在下面的代码中，作者选用的是word2vec模型（Skip-gram、CBOW等）完成这个转换。具体的算法大家可以在CSDN或者B站搜索大佬们的文章来学习。

; 1. 下载数据

path_prefix = './'
!gdown --id '1lz0Wtwxsh5YCPdqQ3E3l_nbfJT1N13V8' --output data.zip
!unzip data.zip
!ls


import warnings
warnings.filterwarnings('ignore')

读入数据

因为数据的格式并不是一般的格式，所以需要写一个自己的读取函数

import torch
import numpy as np
import pandas as pd
import torch.optim as optim
import torch.nn.functional as F

def load_training_data(path='training_label.txt'):

    if 'training_label' in path:

        with open(path, 'r') as f:
            lines = f.readlines()
            lines = [line.strip('\n').split(' ') for line in lines]
        x = [line[2:] for line in lines]
        y = [line[0] for line in lines]
        return x, y
    else:
        with open(path, 'r') as f:
            lines = f.readlines()
            x = [line.strip('\n').split(' ') for line in lines]
        return x

def load_testing_data(path='testing_data'):

    with open(path, 'r') as f:
        lines = f.readlines()
        X = ["".join(line.strip('\n').split(",")[1:]).strip() for line in lines[1:]]
        X = [sen.split(' ') for sen in X]
    return X

def evaluation(outputs, labels):

    outputs[outputs>=0.5] = 1
    outputs[outputs<0.5] = 0
    correct = torch.sum(torch.eq(outputs, labels)).item()
    return correct

定义word2vec模型

word2vec模型可以将词语转换为向量，并且能很神奇地保留词语的相似度等性质。具体的算法流程可以在csdn、知乎或者B站上搜索大佬们的文章。我们在这里使用word2vec是为了后续将文字转换为向量，以便于输入相应的神经网络来学习。（神经网络只认数字不认英文的嘛）


import os
import numpy as np
import pandas as pd
import argparse
from gensim.models import word2vec

def train_word2vec(x):

    model = word2vec.Word2Vec(x, size=250, window=5, min_count=5, workers=12, iter=10, sg=1)
    return model

if __name__ == "__main__":
    print("loading training data ...")
    train_x, y = load_training_data('training_label.txt')
    train_x_no_label = load_training_data('training_nolabel.txt')

    print("loading testing data ...")
    test_x = load_testing_data('testing_data.txt')

    model = train_word2vec(train_x + train_x_no_label + test_x)

    print("saving model ...")

    model.save(os.path.join(path_prefix, 'w2v_all.model'))

定义数据预处理类

因为我们要面对的是文本数据，所以必须要进行数据预处理。为了后续的操作方便，作者在这里将其封装成了一个类。具体包括：

把之前训练好的word2vec模型读进来，保存训练好的embedding（这个embedding包含了训练word2vec模型时使用的各个参数）
把”PAD”或”UNK”加进embedding_matrix
制作embedding_matrix
将输入的句子的长度变成一致的，方便后续输入神经网络中
实现word2indx，把句子里面的字变成相对应的index
将label转为tensor格式

from torch import nn
from gensim.models import Word2Vec

class Preprocess():
    def __init__(self, sentences, sen_len, w2v_path="./w2v.model"):
        self.w2v_path = w2v_path
        self.sentences = sentences
        self.sen_len = sen_len
        self.idx2word = []
        self.word2idx = {}
        self.embedding_matrix = []
    def get_w2v_model(self):

        self.embedding = Word2Vec.load(self.w2v_path)
        self.embedding_dim = self.embedding.vector_size
    def add_embedding(self, word):

        vector = torch.empty(1, self.embedding_dim)
        torch.nn.init.uniform_(vector)
        self.word2idx[word] = len(self.word2idx)
        self.idx2word.append(word)
        self.embedding_matrix = torch.cat([self.embedding_matrix, vector], 0)
    def make_embedding(self, load=True):
        print("Get embedding ...")

        if load:
            print("loading word to vec model ...")
            self.get_w2v_model()
        else:
            raise NotImplementedError

        for i, word in enumerate(self.embedding.wv.vocab):
            print('get words #{}'.format(i+1), end='\r')

            self.word2idx[word] = len(self.word2idx)
            self.idx2word.append(word)
            self.embedding_matrix.append(self.embedding[word])
        print('')
        self.embedding_matrix = torch.tensor(self.embedding_matrix)

        self.add_embedding("")
        self.add_embedding("")
        print("total words: {}".format(len(self.embedding_matrix)))
        return self.embedding_matrix
    def pad_sequence(self, sentence):

        if len(sentence) > self.sen_len:
            sentence = sentence[:self.sen_len]
        else:
            pad_len = self.sen_len - len(sentence)
            for _ in range(pad_len):
                sentence.append(self.word2idx[""])
        assert len(sentence) == self.sen_len
        return sentence
    def sentence_word2idx(self):

        sentence_list = []
        for i, sen in enumerate(self.sentences):
            print('sentence count #{}'.format(i+1), end='\r')
            sentence_idx = []
            for word in sen:
                if (word in self.word2idx.keys()):
                    sentence_idx.append(self.word2idx[word])
                else:
                    sentence_idx.append(self.word2idx[""])

            sentence_idx = self.pad_sequence(sentence_idx)
            sentence_list.append(sentence_idx)
        return torch.LongTensor(sentence_list)
    def labels_to_tensor(self, y):

        y = [int(label) for label in y]
        return torch.LongTensor(y)

制作Dataset

这一步相对比较简单，只是做了Dataset类


import torch
from torch.utils import data

class TwitterDataset(data.Dataset):
"""
    Expected data shape like:(data_num, data_len)
    Data can be a list of numpy array or a list of lists
    input data shape : (data_num, seq_len, feature_dim)

    __len__ will return the number of data
"""
    def __init__(self, X, y):
        self.data = X
        self.label = y
    def __getitem__(self, idx):
        if self.label is None: return self.data[idx]
        return self.data[idx], self.label[idx]
    def __len__(self):
        return len(self.data)

建立模型

建立我们之后要使用的LSTM模型，主要包括三块：

embedding layer
LSTM
全连接神经网络

embedding layer可以理解为将我们的文字进行编码，以使得LSTM可以看得懂，具体用到的方法就是word2vec模型。

LSTM模型主要需要输入：

input_size: 输入特征维数，即每一行输入元素的个数
hidden_size: 隐藏层状态的维数，即隐藏层节点的个数，这个和单层感知器的结构是类似的。
num_layers: LSTM 堆叠的层数，默认值是1层，如果设置为2，第二个LSTM接收第一个LSTM的计算结果。
batch_first: 输入输出的第一维是否为 batch_size，默认值 False。因为 Torch 中，人们习惯使用Torch中带有的dataset，dataloader向神经网络模型连续输入数据，这里面就有一个 batch_size 的参数，表示一次输入多少个数据。在 LSTM 模型中，输入数据必须是一批数据，为了区分LSTM中的批量数据和dataloader中的批量数据是否相同意义，LSTM 模型就通过这个参数的设定来区分。
dropout: 默认值0。是否在除最后一个 RNN 层外的其他 RNN 层后面加 dropout 层。
bidirectional: 是否是双向 RNN，默认为：false，若为 true，则：num_directions=2，否则为1。

全连接神经网络主要是为了将LSTM的输出和最终的预测进行一下转换。

import torch
from torch import nn
class LSTM_Net(nn.Module):
    def __init__(self, embedding, embedding_dim, hidden_dim, num_layers, dropout=0.5, fix_embedding=True):
        super(LSTM_Net, self).__init__()

        self.embedding = torch.nn.Embedding(embedding.size(0),embedding.size(1))
        self.embedding.weight = torch.nn.Parameter(embedding)

        self.embedding.weight.requires_grad = False if fix_embedding else True
        self.embedding_dim = embedding.size(1)
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.dropout = dropout
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=num_layers, batch_first=True)
        self.classifier = nn.Sequential( nn.Dropout(dropout),
                                         nn.Linear(hidden_dim, 1),
                                         nn.Sigmoid() )
    def forward(self, inputs):
        inputs = self.embedding(inputs)
        x, _ = self.lstm(inputs, None)

        x = x[:, -1, :]
        x = self.classifier(x)
        return x

定义模型训练函数

这个训练的过程跟之间的训练较为相似。注释给的很详细，可以通过注释理解一下。

import torch
from torch import nn
import torch.optim as optim
import torch.nn.functional as F

def training(batch_size, n_epoch, lr, model_dir, train, valid, model, device):
    total = sum(p.numel() for p in model.parameters())
    trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
    print('\nstart training, parameter total:{}, trainable:{}\n'.format(total, trainable))
    model.train()
    criterion = nn.BCELoss()
    t_batch = len(train)
    v_batch = len(valid)
    optimizer = optim.Adam(model.parameters(), lr=lr)
    total_loss, total_acc, best_acc = 0, 0, 0
    for epoch in range(n_epoch):
        total_loss, total_acc = 0, 0

        for i, (inputs, labels) in enumerate(train):
            inputs = inputs.to(device, dtype=torch.long)
            labels = labels.to(device, dtype=torch.float)
            optimizer.zero_grad()
            outputs = model(inputs)
            outputs = outputs.squeeze()
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            correct = evaluation(outputs, labels)
            total_acc += (correct / batch_size)
            total_loss += loss.item()
            print('[ Epoch{}: {}/{} ] loss:{:.3f} acc:{:.3f} '.format(
                epoch+1, i+1, t_batch, loss.item(), correct*100/batch_size), end='\r')
        print('\nTrain | Loss:{:.5f} Acc: {:.3f}'.format(total_loss/t_batch, total_acc/t_batch*100))

        model.eval()
        with torch.no_grad():
            total_loss, total_acc = 0, 0
            for i, (inputs, labels) in enumerate(valid):
                inputs = inputs.to(device, dtype=torch.long)
                labels = labels.to(device, dtype=torch.float)
                outputs = model(inputs)
                outputs = outputs.squeeze()
                loss = criterion(outputs, labels)
                correct = evaluation(outputs, labels)
                total_acc += (correct / batch_size)
                total_loss += loss.item()

            print("Valid | Loss:{:.5f} Acc: {:.3f} ".format(total_loss/v_batch, total_acc/v_batch*100))
            if total_acc > best_acc:

                best_acc = total_acc

                torch.save(model, "{}/ckpt.model".format(model_dir))
                print('saving model with acc {:.3f}'.format(total_acc/v_batch*100))
        print('-----------------------------------------------')
        model.train()

8.定义模型测试函数

import torch
from torch import nn
import torch.optim as optim
import torch.nn.functional as F

def testing(batch_size, test_loader, model, device):
    model.eval()
    ret_output = []
    with torch.no_grad():
        for i, inputs in enumerate(test_loader):
            inputs = inputs.to(device, dtype=torch.long)
            outputs = model(inputs)
            outputs = outputs.squeeze()
            outputs[outputs>=0.5] = 1
            outputs[outputs<0.5] = 0
            ret_output += outputs.int().tolist()

    return ret_output

调用之前的各个函数开始训练
整理好各个data的路径
定义句子长度、要不要固定embedding、batch大小、要训练的轮数epoch、learning rate的值、model的资料保存路径
读入数据
input和labels做预处理
制作一个model的对象
把data分为training data和validation data(将一部分training data拿去当做validation data)
把data做成dataset供dataloader取用
把data 转成 batch of tensors
开始训练

import os
import torch
import argparse
import numpy as np
from torch import nn
from gensim.models import word2vec
from sklearn.model_selection import train_test_split

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

train_with_label = os.path.join(path_prefix, 'training_label.txt')
train_no_label = os.path.join(path_prefix, 'training_nolabel.txt')
testing_data = os.path.join(path_prefix, 'testing_data.txt')

w2v_path = os.path.join(path_prefix, 'w2v_all.model')

sen_len = 30
fix_embedding = True
batch_size = 128
epoch = 5
lr = 0.001

model_dir = path_prefix

print("loading data ...")
train_x, y = load_training_data(train_with_label)
train_x_no_label = load_training_data(train_no_label)

preprocess = Preprocess(train_x, sen_len, w2v_path=w2v_path)
embedding = preprocess.make_embedding(load=True)
train_x = preprocess.sentence_word2idx()
y = preprocess.labels_to_tensor(y)

model = LSTM_Net(embedding, embedding_dim=250, hidden_dim=250, num_layers=1, dropout=0.5, fix_embedding=fix_embedding)
model = model.to(device)

X_train, X_val, y_train, y_val = train_x[:190000], train_x[190000:], y[:190000], y[190000:]

train_dataset = TwitterDataset(X=X_train, y=y_train)
val_dataset = TwitterDataset(X=X_val, y=y_val)

train_loader = torch.utils.data.DataLoader(dataset = train_dataset,
                                            batch_size = batch_size,
                                            shuffle = True,
                                            num_workers = 8)

val_loader = torch.utils.data.DataLoader(dataset = val_dataset,
                                            batch_size = batch_size,
                                            shuffle = False,
                                            num_workers = 8)

training(batch_size, epoch, lr, model_dir, train_loader, val_loader, model, device)

训练结果如下：

进行预测并保存结果

print("loading testing data ...")
test_x = load_testing_data(testing_data)
preprocess = Preprocess(test_x, sen_len, w2v_path=w2v_path)
embedding = preprocess.make_embedding(load=True)
test_x = preprocess.sentence_word2idx()
test_dataset = TwitterDataset(X=test_x, y=None)
test_loader = torch.utils.data.DataLoader(dataset = test_dataset,
                                            batch_size = batch_size,
                                            shuffle = False,
                                            num_workers = 8)
print('\nload model ...')
model = torch.load(os.path.join(model_dir, 'ckpt.model'))
outputs = testing(batch_size, test_loader, model, device)

tmp = pd.DataFrame({"id":[str(i) for i in range(len(test_x))],"label":outputs})
print("save csv ...")
tmp.to_csv(os.path.join(path_prefix, 'predict.csv'), index=False)
print("Finish Predicting")

Original: https://blog.csdn.net/hello_JeremyWang/article/details/121071281
Author: hello_JeremyWang
Title: Pytorch实战__LSTM做文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/707809/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

gps做成门禁卡模样_一种可导航用临时门禁卡及其使用方法与流程

本发明涉及智能门禁卡领域，具体涉及一种临时导航门禁卡及其使用方法。 [En] The invention relates to the field of intelligent a…

人工智能 2023年5月27日
0082
机器学习之神经网络的公式推导与python代码（手写+pytorch）实现

文章目录前言神经网络公式推导 * 参数定义前向传播（forward）反向传播（backward） – 隐藏层和输出层的权重更新输入层和隐藏层的权重更新代码实…

人工智能 2023年7月23日
0046
Yolov5_DeepSort_Pytorch代码学习与修改记录

参考博客：多目标跟踪之数据关联算法——匈牙利算法 Yolov5_DeepSort_Pytorch仓库:https://github.com/mikel-brostrom/Yolov…

人工智能 2023年7月21日
0067
PPOCRv3模型转pytorch

序言前段时间PaddleOCRv3版本发布，更新了检测和识别模型，性能有很大提升，本着能嫖就嫖的原则，刚出来的第一天就开始嫖上了，虽然新模型的性能相较于之前有较大提升，但是乍一看…

人工智能 2023年7月23日
0081
2022-2028全球与中国DevOps云平台和付费软件工具市场现状及未来发展趋势

辰宇信息咨询市场调研公司最近发布-《2022-2028全球与中国DevOps云平台和付费软件工具市场调研报告》内容摘要本文重点分析在全球及中国有重要角色的企业，分析这些企业De…

人工智能 2023年6月11日
00128
无人驾驶-控制-阿克曼模型

阿克曼模型推导一、序论 1.1 研究目的运动学是从几何学的角度研究物体的运动规律，包括物体在空间的位置、速度等随时间而产生的变化，因此，车辆运动学模型应该能反映车辆位置、速度、…

人工智能 2023年7月29日
0097
机器学习实战（一）——员工离职预测

文章目录员工离职预测——逻辑回归的应用 * 1 读取文件 2 独热编码 3 划分数据集 4 归一化 5 逻辑回归预测 6 模型预测及评估员工离职预测——逻辑回归的应用开始这个…

人工智能 2023年6月16日
0091
【PYLTP】pyltp（SentenceSplitter、Segmentor、Postagger、NamedEntityRecognizer、Parserr）个人理解（含可执行代码）

此博客均为对下面这个文档的复现，非原创！！！！附录 — LTP4 4.1.4 文档 1.安装pyltp 首先激活你的虚拟环境，然后输入下面语句即可，如果出现问题的话可以更换为清华…

人工智能 2023年5月28日
0075
【层级多标签文本分类】融合标签层级结构的文本分类

融合标签层级结构的文本分类 1、背景 1、作者（第一作者和通讯作者）刘翰错，黄贤英2、单位重庆理工大学3、年份20214、来源山西大学学报（自然科学版） 2、四个问题 1、要解决什…

人工智能 2023年7月13日
0078
pandas科学计数法问题解决 + DataFrame转换成一维问题解决

原因 : 字段超出范围，一般都是超出 int 范围解决 : DataFrame类型后面加上 astype() 里面再加上要更改的类型例子 : 有一个二氧化碳温室气体排放的数据，…

人工智能 2023年7月8日
0047
opencv中自适应阈值（adaptiveThreshold()函数）介绍

自适应阈值简介自适应阈值（adaptiveThreshold()，用于二值化处理图像，对于对比大的图像有较好效果，相对于opencv中固定阈值化操作（threshold()），自…

人工智能 2023年7月18日
0045
2022年国产AI深度学习框架使用占比（MindSpore、Paddle Paddle、Tensorflow、Pytorch）

对 AI 框架来说，国外最知名社区是 Microsoft 收购的开源代码托管平台 Github，国内知名社区是由OSCHINA.NET 推出的代码托管平台 Gitee（码云） 1…

人工智能 2023年5月23日
00133
Self-Attention详解

文章目录 Sequence数据的处理 * Sequence Labeling（输入和输出的大小一样） Self-Attention内部机理 * 如何求解b？ Multi-head …

人工智能 2023年6月25日
0091
在回归模型中，如何处理缺失值和异常值

问题描述在回归模型中，我们经常会遇到缺失值和异常值的问题。缺失值是指数据集中某些变量的值缺失或未记录的情况，而异常值则是指数据集中与其他观测值明显不同的观测值。这两种情况会对回归…

人工智能 2024年1月6日
0061
Python数据处理及分析详解

一、Python环境搭建与配置 Python作为一门优秀的编程语言，受到很多程序员和编程爱好者的青睐。近年来，Python还在办公领域大展拳脚，许多白领纷纷加入了学习Python的…

人工智能 2023年7月30日
0060
线性杂双功能PEG试剂——Acrylate-PEG-Amine，AC-PEG-NH2

含有丙烯酸酯和胺的线性杂双功能PEG试剂——丙烯酸酯-聚乙二醇-氨基，英文名为Acrylate-PEG-Amine或AC-PEG-NH2，它所属分类为 Amine PEG Acry…

人工智能 2023年6月27日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch实战__LSTM做文本分类

大家都在看