情感分析bert家族 pytorch实现(ing

2023年5月27日下午11:16 • 人工智能 • 阅读 58

前言

由于被宿友问了很多问题，于是就果断在2021最后一天自己从头实现自定义dataset, 自定义模型，写了训练代码，预测输出代码。
准确率虽然不高，但这个过程让我清楚了中间处理的一些细节。另外本文对于如何使用huggingface的transformers模型去解决特定任务，具有一定的参考学习意义。

数据集: https://dl.fbaipublicfiles.com/glue/data/SST-2.zip

我一开始发现结果不是很好，以为是我模型参数，优化器之类的没调好…(后来发现错误见下文)

另外本文代码绝大部分都是凭我自己意思写出来的，可能规范性啥的还不算好，请路过的大佬不吝赐教。

2022.1.2补充: 对不起，是我缩进没注意, 按理是要每个step(因为每一个step就是一个batch)就要反向传播更新一次权重。

可以看到损失降下去了

这里只为演示，我的epoch_num设置为1轮，一般都是5～10, 不过也看具体任务。
至于只训练一个epoch为什么会这么好呢，主要是我模型中的主干网络distilBert加载了在SST2数据集上进行预训练的distilbert-base-uncased-finetuned-sst-2-english权重。可能从distilbert-base-uncased权重开始训练的话要多几个epoch才能接近这个效果。
不过无所谓，这里只是一个流程罢了，可以方便大家以后延续使用。大家也可以更具自己需要，更换模型，模型更换非常简单。只需要改一句话就够了(下文会说)。

2022.1.3补充: 对不起，上述结果是有问题的。是偏乐观的。因为加载了fine-tune的权重，虽然我没有泄露用来当测试集的数据，但我那从train.tsv分出来的15%的数据，实际上是被别人fine-tune过了，于是会使得结果更加乐观。有空我再更正，不过不是大问题，大家使用的时候，读入的数据注意一下就好。
另外值得一提的事，也可以把padding操作写成一个函数，然后放入dataloader的collate_fn参数中，这样就不用在内存存着全部数据的padding的部分了，而是只存当前batch的padding部分。

; 代码

需要装下transformers, NLPer应该不陌生了
bash下:

!pip install transformers

使用的数据集 bash下:

!wget https://dl.fbaipublicfiles.com/glue/data/SST-2.zip

解压一下:

!unzip SST-2.zip

引入库

import numpy as np
import pandas as pd
from sklearn.utils import shuffle
import torch
import transformers
import warnings
import pandas as pd
import torch.nn as nn
import torch.utils.data as Data
import torch.nn.functional as F
from sklearn import metrics
from transformers import AutoTokenizer, AutoModel

warnings.filterwarnings('ignore')

声明好跑的设备


device = 'cuda'

数据准备

读取数据文件

df = pd.read_csv('/content/SST-2/train.tsv', delimiter='\t', skiprows=[0], header=None)
df_len = len(df)
print(df)
print('df_len: ', df_len)

划分训练集和测试集


split_rate = 0.85
train_df = df[:int(df_len * split_rate)]
test_df = df[int(df_len * split_rate):]

设置一下参数


lr = 0.001
epoch_num = 5
train_batch_size = 64
test_batch_size = 64

加载一下分词器，并指定一下使用的模型名字(关于model_name_str设置为甚么具体大家看下面代码的注释)。


model_name_str = 'distilbert-base-uncased-finetuned-sst-2-english'

tokenizer = AutoTokenizer.from_pretrained(model_name_str)

也可以先下好权重文件和配置文件，然后model_name_str指定文件夹即可。

自定义dataset类

根据crossEntropyLoss的用法, labels不去onehot也是可以的, 详见 torch.nn.CrossEntropyLoss用法

class SentimentDataset(Data.Dataset):
    def __init__(self, rawdata_df):
        super(SentimentDataset, self).__init__()

        print(rawdata_df[1].value_counts())

        self.labels = torch.tensor(rawdata_df[1].values).long()

        tokenized = rawdata_df[0].apply((lambda x:tokenizer.encode(x, add_special_tokens = True)))

        max_len = 0
        for i in tokenized.values:
            if len(i) > max_len:
                max_len = len(i)
        padded = np.array([i + [0] * (max_len - len(i)) for i in tokenized.values])
        print('padded.shape:', padded.shape)

        attention_mask = np.where(padded != 0, 1, 0)
        print('attention_mask.shape: ', attention_mask.shape)

        self.data = torch.LongTensor(padded)
        self.attention_mask = torch.tensor(attention_mask)

        print('build dataset succeed!\n')

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        return self.data[idx].to(device), self.attention_mask[idx].to(device), self.labels[idx].to(device)

train_dataset = SentimentDataset(train_df)
test_dataset  = SentimentDataset(test_df)

train_loader = Data.DataLoader(train_dataset, train_batch_size, shuffle=True)
test_loader = Data.DataLoader(test_dataset, test_batch_size, shuffle=True)

自定义模型

注意下次想要加载之前保存过的模型文件之前，要先运行下面这个模型定义。如何保存下文会讲。
这里提一下SST2类的forward函数里的这两句。
按照transformers的bert类实现，返回的输出是个元组(如果return_dict参数为False情况下，该参数默认值为False)，那么x[0]就是输出的特征, x[1:]就是输出的一些列中间结果。
这里我们取x[0]即输出的特征
然后我们对每一个batch取第一个(第0个)token即【cls】特殊字符的词向量.

第一个 : 指的是取所有batch, 0是指取第0个token，第三个 : 是指取出词向量的所有值(bert默认为768)。


features = x[0][:, 0, :]
x = self.fc1(features)

class SST2(nn.Module):
    def __init__(self, class_num=2, no_grad=True):
        super(SST2, self).__init__()

        hidden_dim = 768

        self.backbone = AutoModel.from_pretrained(model_name_str)

        if no_grad:
            for layer in list(self.backbone.parameters()):
                layer.requires_grad = False

        self.fc1 = nn.Linear(hidden_dim, hidden_dim * 4)
        self.fc2 = nn.Linear(hidden_dim * 4, class_num)

        self.relu = nn.ReLU()
        self.sigmoid = nn.Sigmoid()

    def forward(self, x, attention_mask):
        x = self.backbone(x, attention_mask=attention_mask)

        features = x[0][:, 0, :]
        x = self.fc1(features)
        x = self.relu(x)
        x = self.fc2(x)
        x = self.sigmoid(x)
        return x

    def show_backbone(self):
        for name in self.backbone.state_dict():
            print("{:30s}: {}, require_grad={}".format(name, self.backbone.state_dict()[name].shape))

    def predict_label(self, x, attention_mask):
        with torch.no_grad():
            x = self.forward(x, attention_mask)
            predict_labels = torch.max(x, dim=1)[1]
            return predict_labels

    def predict_example(self, input_str_lt, return_proba=True):
        tokenized_input = []
        for input_str in input_str_lt:
          tokenized_input.append(tokenizer.encode(input_str, add_special_tokens = True))

        data = torch.tensor(tokenized_input).to(device)
        attention_mask = torch.ones_like(data).to(device)

        print('attention_mask.shape: ', attention_mask.shape)

        predicted = model(x=data, attention_mask=attention_mask)
        proba, labels = torch.max(predicted, dim=1)

        if return_proba:
          return labels, proba
        else:
          return labels

实例化模型


model = SST2(class_num = 2, no_grad=False).to(device)

假如你是6分类，那么是

model = SST2(class_num = 6,no_grad=False).to(device)

def get_parameter_number(model_analyse):

    total_num = sum(p.numel() for p in model_analyse.parameters())
    trainable_num = sum(p.numel() for p in model_analyse.parameters() if p.requires_grad)
    return 'Total parameters: {}, Trainable parameters: {}'.format(total_num, trainable_num)

查看一下模型总的参数量和可学习参数量

get_parameter_number(model)


for name, param in model.named_parameters():
    if param.requires_grad:
        print(name)

损失函数和优化器

criterion = nn.CrossEntropyLoss()

optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5, weight_decay=1e-4)

scheduler = transformers.get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=len(train_loader),
                                            num_training_steps=epoch_num*len(train_loader))

训练

for epoch in range(epoch_num):
    for step, (input_ids, att_mask, labels) in enumerate(train_loader):
        predicted = model(x=input_ids, attention_mask=att_mask).to(device)
        loss = criterion(predicted, labels)

        print('epoch {:3}, step {:3}, loss = {}'.format(epoch, step, loss))

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        scheduler.step()

可以看到一个epoch需要894个step

看一下训练集与ground truth对比:
注意: 请注意查看注释那一句 “如果你在dataset时没有对labels进行one_hot，请把这下面这一句取max下标注释掉!”

for step, (input_ids, att_mask, labels) in enumerate(train_loader):
        predicted_labels = model.predict_label(x=input_ids, attention_mask=att_mask)

        labels = torch.max(labels, dim=1)[1]

        if step < 4:
            print(predicted_labels)
            print(labels)
            print()

测试

看一下测试集与ground truth对比, 并放入列表中:
注意: 请注意查看注释那一句 “如果你在dataset时没有对labels进行one_hot，请把这下面这一句取max下标注释掉!”

total_predict_lt = []
total_label_lt = []

for step, (input_ids, att_mask, labels) in enumerate(test_loader):
        predicted_labels = model.predict_label(x=input_ids, attention_mask=att_mask)

        labels = torch.max(labels, dim=1)[1]

        total_predict_lt.extend(predicted_labels.tolist())
        total_label_lt.extend(labels.tolist())
        if step < 4:
            print(predicted_labels)
            print(labels)
            print()

看下acc

metrics.accuracy_score(total_label_lt, total_predict_lt)

保存与读取


torch.save(model, 'SST2.pt')

下次加载模型可以这样子(就不需要训练了，当然你也可以继续进行fine-tune)


model = torch.load('SST2.pt')

预测输出

test_lt = ['I love you', 'I hate you']
label_lt, proba_lt = model.predict_example(input_str_lt=test_lt, return_proba=True)

for i in range(len(test_lt)):
  print('{} 是否积极:{}, 置信度: {}'.format(test_lt[i], label_lt[i], proba_lt[i]))

Original: https://blog.csdn.net/weixin_43850253/article/details/122263916
Author: Andy Dennis
Title: 情感分析bert家族 pytorch实现(ing

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528058/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

YOLOv7出来也有一段时间了，在刚出来的时候我就抢先体验了一把，当时主要是就是尝尝鲜，没有实际项目落地，所以也就没有去用很多数据集，也没有对模型进行评估计算，在前面的系列博文里面…

人工智能 2023年6月24日
0068
【DeeplabV3+】DeeplabV3+网络结构详解

文章目录 1 常规卷积与空洞卷积的对比 * 1.1 空洞卷积简介 1.2 空洞卷积的优点 2 DeeplabV3+模型简介 3 DeeplabV3+网络代码 4 mobilenet…

人工智能 2023年7月5日
0070
【自然语言处理】hmm隐马尔可夫模型进行中文分词代码

本文摘要 · 理论来源：【统计自然语言处理】第七章自动分词；【统计学习方法】第十章隐马尔可夫模型· 代码目的：手写HMM进行中文分词作者：CSDN 征途黯然. 一、数据集数据…

人工智能 2023年5月30日
0088
Seq2Seq+Attention生成式文本摘要

任务描述: 自动摘要是指给出一段文本，我们从中提取出要点，然后再形成一个短的概括性的文本。自动的文本摘要是非常具有挑战性的，因为当我们作为人类总结一篇文章时，我们通常会完整地阅读它…

人工智能 2023年6月25日
0069
李航《统计学习方法》笔记之监督学习Supervised learning

监督学习Supervised learning 1.1 监督学习(supervised learning）指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系…

人工智能 2023年6月15日
0084
cv2的函数没有代码提示，最详细解决办法（重启项目版），修改-ini_.py没效果

pycharm cv2 Cannot find declaration to go to numpy可以查看源代码，但cv2不可以查看源代码 cv2没有代码提示 ctrl+左键无法…

人工智能 2023年6月18日
00101
R语言大作业

2022春期末总结报告题目：要求：1. 数据要求：自己任意选择一个数据集，数据量不少于4000条。（1.可在数据集网站中选择，如kaggle等。2.从网上爬取数据） 2. 数据…

人工智能 2023年6月19日
00104
大数据开发，如何发掘数据的关系？

数据之中蕴藏关系，数据量足够大，这种关系越逼近真实世界客观规律。网页之间链接关系蕴藏着网页重要性排序关系，购物车商品清单蕴藏着商品关联关系，通过对这些关系的挖掘，可帮助我们更清晰…

人工智能 2023年7月16日
0065
Camera ISP-知识大纲

随着工作时限的增长，与工作相关的知识点已经开始慢慢的从一个个孤立的点向着还尚未成型的网进化而去，虽然还未完全成型，但是基本的轮廓已然影影绰绰。为了对知识面进行一个总结归纳，也为了巩…

人工智能 2023年5月28日
0048
POL8901 LVDS转MIPI DSI 支持旋转图像处理芯片

### 回答1： LVDS_和 _MIPI_是两种不同类型的屏幕接口标准。 _LVDS（低压差分信号）是一种数据传输标准，广泛应用于消费电子产品中。它通过传输差分信号，在屏幕和处理…

人工智能 2023年6月22日
0060
物联网跟人的神经网络相似通过各种信息传感设备

什么叫物联网?物联网是干嘛用? 由检测，传输，数据处理控制来完成一系列的动作。就像人的神经网络接收了外在的感觉然后传输给脑袋来处理一样。物联网最初是想实现在艰苦环境下的数据收集，…

人工智能 2023年7月14日
0087
jdk线程池ThreadPoolExecutor工作原理解析（自己动手实现线程池）

线程池介绍在日常开发中经常会遇到需要使用其它线程将大量任务异步处理的场景（异步化以及提升系统的吞吐量），而在使用线程的过程中却存在着两个痛点。而线程池正是为解决上述痛点而生的，…

人工智能 2023年6月28日
0066
知识图谱构建（概念，工具，实例调研）

知识图谱构建（概念，工具，实例调研）一、知识图谱的概念知识图谱（Knowledge graph）知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱…

人工智能 2023年6月1日
0069
Neo4j入门实战之红楼梦知识图谱

参考这个视频：知识图谱实战：构建红楼梦知识图谱_哔哩哔哩_bilibili 项目概述:采用http://www.openkg.cn/home(开放的知识图谱)中的四大名著的人物关系…

人工智能 2023年6月1日
0072
Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert

借着ACL2022一篇知识增强Tutorial的东风，我们来聊聊如何在预训练模型中融入知识。Tutorial分别针对NLU和NLG方向对一些经典方案进行了分类汇总，感兴趣的可以去细…

人工智能 2023年6月4日
0087
Computational Protein Design with Deep Learning Neural Networks

本文使用深度神经网络完成计算蛋白质设计去预测20种氨基酸概率。 Introduction 针对特定结构和功能的蛋白质进行工程和设计，不仅加深了对蛋白质序列结构关系的理解，而且在化学…

人工智能 2023年6月4日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31