pytorch框架实现BI-LSTM模型进行情感分类

2023年6月17日上午1:56 • 人工智能 • 阅读 67

总述

本文的目标是针对一个句子，给出其情感二分类，正向/负向。
代码存放地址：

https://github.com/stay-leave/BI-LSTM-sentiment-classify

输入数据集格式：
标签为1代表正向，0代表负向。
txt版本（即训练集、测试集不在一个文件内），这里我用的是百度千言数据集：

xls版本（即训练集、测试集在一个文件内）：

输出数据示例：
pytorch框架实现BI-LSTM模型进行情感分类

接下来对整个流程作梳理。

; 数据处理

目标：将原始数据转为tensor并加载到dataloader，以供后续使用。
思路是将文本从txt或xls中提取出来，进行分词，划分句子长度，将句子进行编码，最后将其加载到pytorch的dataloader类。

1.提取文件

txt文件的提取：

def txt_file(self,inpath):

        data = []
        fp = open(self.inpath,'r',encoding='utf-8')
        for line in fp:
            line=line.strip('\n')
            line=line.split('\t')
            data.append(line)
        data=data[1:]
        return data

xls文件的提取：

def xls_file(self,inpath):
        """提取一个文件为一个列表"""
        data = xlrd.open_workbook(self.inpath, encoding_override='utf-8')
        table = data.sheets()[0]
        nrows = table.nrows
        ncols = table.ncols
        numbers=[]
        for i in range(1, nrows):
            alldata = table.row_values(i)
            numbers.append(alldata)
        return numbers

结果如下：

2.对句子进行分词

上面的数据中同时包含句子和标签，因此需要将其分开进行处理。
这是txt文件的代码，若使用xls文件，需要注释掉splitt函数的label那一行，取消下一行的注释。

 def tokenlize(self,sentence):

        URL_REGEX = re.compile(r'(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:\'".,<>?<<>>""'']))',re.IGNORECASE)
        sentence= re.sub(URL_REGEX,'', sentence)
        sentence =jieba.cut(sentence.strip(),cut_all=False,use_paddle=10)
        out=[]
        for word in sentence:
            out.append(word)
        return out

    def splitt(self,data):

        sentence=[]
        label=[]
        for i in data:
            sentence.append(self.tokenlize(i[1]))
            label.append(int(i[0]))

        sentence=tuple(sentence)
        label=tuple(label)
        return sentence,label

结果如下：

3.建立字典，对句子进行编码

思路是统计词频，将句子转换为数字序列，同时根据自己设置的句子长度对句子进行截取和补全。
这里使用PAD:0作为补全和未登录词的表示。
首先是建立字典，(词：词频)：
txt与xls的转换同上

def count_s(self):

        sentence,label=self.splitt(self.txt_file(self.inpath))

        count_dict = dict()
        sentences=[]
        for i in sentence:
            sentences += i
        for item in sentences:
            if item in count_dict:
                count_dict[item] += 1
            else:
                count_dict[item] = 1

        count_dict_s = collections.OrderedDict(sorted(count_dict.items(),key=lambda t:t[1], reverse=True))

        vocab=list(count_dict_s.keys())
        vocab_index=[i for i in range(1,len(vocab)+1)]
        vocab_to_index = dict(zip(vocab, vocab_index))
        vocab_to_index["PAD"] = 0

        return vocab_to_index,sentence,label,sentences

结果如下：

有了字典就可以对一个句子进行编码，即转换为数字序列。
同样的，也可以将一个数字序列转换为句子。

def seq_to_array(self,seq,vocab_to_index):

            seq_index=[]
            for word in seq:
                if word in vocab_to_index:
                    seq_index.append(vocab_to_index[word])
                else:
                    seq_index.append(0)

            if len(seq_index) < self.seq_length:
                seq_index = [0] * (self.seq_length-len(seq_index)) + seq_index
            elif len(seq_index) > self.seq_length:
                seq_index = seq_index[:self.seq_length]
            else:
                seq_index=seq_index

            return seq_index

对于句子

‘你好！我是初学者！’

转换如下：

def array_to_seq(self,indices):

        vocab_to_index,sentence,label,sentences=self.count_s()
        seqs=[]
        for i in indices:
            seq=[]
            for j in i:
                for key, value in vocab_to_index.items():
                    if value==j:
                        seq.append(key)
            seqs.append(seq)
        return seqs

对于上面的数字序列

[[0, 0, 0, 0, 6322, 0, 4, 3, 724, 0]]

转换为句子如下：

对句子的编码完毕，接下来就可以加载到tensor了。

4.将数据加载到dataloader类

以训练集txt文件的加载为例，先是投入句子的编码列表，再转为数组，然后加载到dataloader中。

def data_for_train_txt(self,sentence,vocab_to_index,label):

        features=[self.seq_to_array(seq,vocab_to_index) for seq in sentence]

        random_order = list(range(len(features)))
        np.random.seed(2)
        np.random.shuffle(random_order)

        features_train = np.array([features[i] for i in random_order])
        label_train = np.array([label[i] for i in random_order])[:, np.newaxis]

        train_data = TensorDataset(torch.LongTensor(features_train),
                            torch.LongTensor(label_train))
        train_sampler = RandomSampler(train_data)
        train_loader = DataLoader(train_data, sampler=train_sampler, batch_size=self.batch_size, drop_last=True)

        return train_loader

数据处理完成！接下来进行模型构建。

BI-LSTM模型构建

关于该模型的原理这篇大神的博客讲得非常好

https://blog.csdn.net/weixin_42118657/article/details/120022112

实现代码如下，基本每一步都有注释：

class BI_lstm(nn.Module):
    def __init__(self, vocab_size,vocab_to_index,n_layers,hidden_dim,embed,output_size,dropout):
        super(BI_lstm, self).__init__()
        self.n_layers = n_layers
        self.hidden_dim = hidden_dim
        self.embedding_dim = embed
        self.dropout=dropout
        self.output_size=output_size

        self.embedding = nn.Embedding(vocab_size, self.embedding_dim,padding_idx=vocab_to_index['PAD'])

        self.lstm = nn.LSTM(self.embedding_dim,
                            hidden_dim,
                            n_layers,
                            dropout=self.dropout,
                            batch_first=True,
                            bidirectional = True
                           )

        self.fc = nn.Linear(self.hidden_dim*2, self.output_size
                            )
        self.sigmoid = nn.Sigmoid()
        self.tanh = torch.nn.Tanh()

        self.dropout = nn.Dropout(self.dropout)

    def forward(self, x, hidden):
"""
        x: 本次的输入，其size为(batch_size, 200)，200为句子长度
        hidden: 上一时刻的Hidden State和Cell State。类型为tuple: (h, c),
        其中h和c的size都为(n_layers, batch_size, hidden_dim)
"""

        batch_size = x.size(0)

        x = x.long()

        embeds = self.embedding(x)

        lstm_out, hidden = self.lstm(embeds, hidden)

        lstm_out = lstm_out.contiguous().view(-1, self.hidden_dim)

        out = self.dropout(lstm_out)

        out=torch.reshape(out,(-1,256))
        out=self.tanh(out)
        out = self.fc(out)

        out = self.sigmoid(out)

        out = out.view(batch_size, -1)

        out = out[:,-1]

        return out,hidden

    def init_hidden(self, batch_size):
"""
        初始化隐状态：第一次送给LSTM时，没有隐状态，所以要初始化一个
        这里的初始化策略是全部赋0。
        这里之所以是tuple，是因为LSTM需要接受两个隐状态hidden state和cell state
"""
        hidden = (torch.zeros(self.n_layers*2, batch_size, self.hidden_dim).to(device),
                  torch.zeros(self.n_layers*2, batch_size, self.hidden_dim).to(device)
                 )

        return hidden

结果如下：

模型的训练和评估

将数据投喂给模型，进行训练。

def train(config,model,train_loader):

    model.train()
    optimizer = torch.optim.Adam(model.parameters(), lr=config.lr)
    criterion = nn.BCELoss()
    y_loss=[]
    for e in range(config.epochs):

        h = model.init_hidden(config.batch_size)
        counter = 0
        train_losses=[]

        for inputs, labels in train_loader:
            counter += 1
            inputs, labels = inputs.cuda(), labels.cuda()
            h = tuple([each.data for each in h])

            output,h= model(inputs, h)
            output=output[:, np.newaxis]

            train_loss = criterion(output, labels.float())
            train_losses.append(train_loss.item())
            optimizer.zero_grad()
            train_loss.backward()
            optimizer.step()

            if counter % config.print_every == 0:
                print("Epoch: {}/{}, ".format(e+1, config.epochs),
                        "Step: {}, ".format(counter),
                        "Loss: {:.6f}, ".format(train_loss.item()),
                        "Val Loss: {:.6f}".format(np.mean(train_losses)))
            y_loss.append(train_loss.item())

    x = [i for i in range(len(y_loss))]
    fig = plt.figure()
    plt.plot(x, y_loss)
    plt.show()

    torch.save(model,config.save_model_path)

训练完对其进行测试评估，使用准确率：

def test(config, model, test_loader):

    criterion = nn.BCELoss()
    h = model.init_hidden(config.batch_size)
    with torch.no_grad():
        count = 0
        total = 0
        loss=0
        l=0
        for input_test, target_test in test_loader:
            h = tuple([each.data for each in h])
            input_test = input_test.type(torch.LongTensor)
            target_test = target_test.type(torch.LongTensor)
            target_test = target_test.squeeze(1)
            input_test = input_test.cuda()
            target_test = target_test.cuda()
            output_test,h = model(input_test,h)
            pred=output_test.cpu().numpy().tolist()
            target=target_test.cpu().numpy().tolist()
            for i,j in zip(pred,target):
                if round(i)==j:
                    count=count+1
            total += target_test.size(0)

            loss = criterion(output_test, target_test.float())
            loss+=loss
            l=l+1
        acc=100 * count/ total
        test_loss=loss/l
        print("test mean loss: {:.3f}".format(test_loss))
        print("test accuracy : {:.3f}".format(acc))

模型的使用

训练好的模型就可以直接用来对句子进行预测了。
预测代码：

def predict(config, model, pred_loader):

    pred_all=[]
    with torch.no_grad():

        h = model.init_hidden(config.batch_size_pred)
        for dat,id in pred_loader:
            h = tuple([each.data for each in h])

            dat=dat.cuda()

            output,h= model(dat, h)

            pred=output.cpu().numpy().tolist()
            pred_all=pred_all+pred

    return pred_all

保存预测结果：

def save_file(config, alls):
    """保存结果到excel
"""
    f = openpyxl.Workbook()
    sheet1 = f.create_sheet('sheet1')
    sheet1['A1'] = 'id'
    sheet1['B1'] = '评论内容'
    sheet1['C1'] = '情感值'
    sheet1['D1'] = '情感类别'

    i = 2
    for all in alls:

        for j in range(1, len(all) + 1):

            sheet1.cell(row=i, column=j, value=all[j - 1])
        i = i + 1
    f.save(config.save_pred_path)

总结

此次是基于pytorch框架简单地实现了bi-lstm模型进行文本分类，采用sigmoid函数的输出作为情感值是很不合理的，应该叫倾向值，或者不看该数据也是可以的，只关心正负向就行。
后续将继续学习使用预训练词向量进行训练。
自己也是个小白，还得继续学习。

参考博客：

https://blog.csdn.net/qq_52785473/article/details/122800625
https://blog.csdn.net/qq_40276310/article/details/109248949
https://blog.csdn.net/qq_40276310/article/details/109248949
http://t.csdn.cn/qjkST
https://blog.51cto.com/u_11466419/5184189

Original: https://blog.csdn.net/qq_43814415/article/details/125084797
Author: 灵海之森
Title: pytorch框架实现BI-LSTM模型进行情感分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627865/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

边缘计算 | 在移动设备上部署深度学习模型的思路与注意点

💡 作者：韩信子@ShowMeAI📘 深度学习◉技能提升系列：https://www.showmeai.tech/tutorials/35📘 深度学习实战系列：https://ww…

人工智能 2023年6月26日
00103
opencv读取图片通道以及显示

使用cv2读取的图像的通道到是BGR通道，所以测试模型之前需要做BGR转RGB的操作。 img=cv2.imread(‘515.jpg’) cv2.imshow("aa&…

人工智能 2023年7月19日
0060
前端如何制作关系图_如何使用字符表示图关系？

作者:等你归去来出处:https://www.cnblogs.com/yougewe/p/13865184.html 知识图谱听起来很高大上，而且也应用广泛。而图数据库，你可以到…

人工智能 2023年6月5日
0089
【论文阅读】RePaint: Inpainting using Denoising Diffusion Probabilistic Models（CVPR 2022）

RePaint: 基于去噪扩散概率模型进行修复图 1 本文将 Denoising Diffusion Probabilistic Models（DDPM）应用于图像修复工作。以 …

人工智能 2023年6月17日
0047
人人都能看得懂的数据分析书

如何在内卷时代脱颖而出？看书似乎都明白，一到实际工作中就不知道怎么办？为什么别人不大明白我的分析结果？零基础的人想学数据分析要看哪一本书？没学过Python适合于看哪一本书？如何培…

人工智能 2023年7月15日
0042
【毕业设计】深度学习人体跌倒检测 -yolo 机器视觉 opencv python

文章目录 0 前言 1.前言 2.实现效果 3.相关技术原理 * 3.1卷积神经网络 3.1YOLOV5简介 3.2 YOLOv5s 模型算法流程和原理 4.数据集处理 &#821…

人工智能 2023年6月16日
0072
基于OPENCV分水岭的球团分割

因为项目需求，需要对某铁矿厂的球团进行粒径检测。采集系统就不详细说了，主要是颗粒运动很快，粒径在8-12mm，范围1米左右，所以既要高像素的相机，又要曝光时间很短的相机，前期拍出来…

人工智能 2023年7月19日
0060
Hanlp的安装和使用

Hanlp的安装和使用目前开源界贡献了许多优秀的NLP工具,·教学常用的NLTK ( Natural Language Toolkit ) ·斯坦福大学开发的CoreNLP ·国…

人工智能 2023年5月31日
0083
Dataloader的使用

本文主要使用CIFAR10数据集来讲解Dataloader的使用方法，并写入tensorboard中，可以更好的去查看。在pytorch中如何读取数据主要有两个类，分别是Data…

人工智能 2023年6月17日
0081
知识小结——数据分析——Bonferroni correction（邦费罗尼校正）

系列文章目录 Cox比例风险回归模型（proportional hazards model）知识小结——数据分析——Fisher&#…

人工智能 2023年6月18日
0095
pandas取dataframe特定行/列

https://www.cnblogs.com/nxf-rabbit75/p/10105271.html 1.按列取、&#x…

人工智能 2023年6月2日
0060
李亚普洛夫稳定、一致稳定、一致渐近稳定、局部渐近稳定、全局渐近稳定区分

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言一、稳定、一致稳定、一致渐近稳定、局部渐近稳定、全局渐近稳定概念前言这里仅涉及非线性非自治（也即非线性时变…

人工智能 2023年6月1日
00111
（笔记）ROC & AUC 总结

Section 1：ROC曲线 ROC曲线也称为接受者操作特征曲线（Receiver Operating Characteristic）或感受性曲线，ROC曲线上的每个点反映着对同…

人工智能 2023年6月30日
0077
一个AI玩遍多个游戏

文章目录 1.Decision Transformers模型结构 2.不同模型规模下的表现 3.模型预训练与关注点前面我曾经介绍过很多在游戏圈比较出名的AI智能体。这些AI智能体…

人工智能 2023年5月31日
0075
通俗理解大数据及其应用价值

大数据概述在大数据这个概念兴起之前，信息系统存储数据的方法主要是我们熟知的关系型数据库，关系型数据库，关系型模型之父 Edgar F. Codd，在 1970 年 Communi…

人工智能 2023年7月17日
0068
TaxiBGC ——分类学指导下的生物合成基因簇鉴定流程

谷禾健康当前合成基因簇预测限制较大微生物基因组中的生物合成基因簇 (BGC) 编码具有生物活性的次级代谢物 (SM)，它可以在微生物-微生物和宿主-微生物相互作用中发挥…

人工智能 2023年7月30日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch框架实现BI-LSTM模型进行情感分类

1.提取文件

2.对句子进行分词

3.建立字典，对句子进行编码

4.将数据加载到dataloader类

模型的使用

大家都在看