基于BERT实现简单的情感分类任务

2023年5月30日下午9:18 • 人工智能 • 阅读 47

基于BERT实现简单的情感分类任务

项目链接：

https://github.com/yyxx1997/pytorch/tree/master/bert-sst2

任务简介

情感分类是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型，是对文本作者倾向性和观点、态度的划分，因此有时也称倾向性分析（opinion analysis）。

本文通过简单的情感二分类任务作为样例，展示如何利用预训练模型 BERT进行简单的Finetune过程。

数据准备

此任务以演示BERT用法为主，数据集采用SST-2的子集，即在原本数据集基础上进行抽取得到的部分，总计10000条。

SST-2数据集

SST数据集：斯坦福大学发布的一个情感分析数据集，主要针对电影评论来做情感分类，因此SST属于单个句子的文本分类任务（其中SST-2是二分类，SST-5是五分类，SST-5的情感极性区分的更细致）

SST数据集地址：https://nlp.stanford.edu/sentiment/index.html

有关SST数据的处理部分不再赘述，这里给出抽取结果：sst2_shuffled.tsv

示例

0——positive
1——negative

sentiment polaritysentence1this is the case of a pregnant premise being wasted by a…0is office work really as alienating as ‘bartleby’ so effectively…0horns and halos benefits from serendipity but also reminds…1heavy-handed exercise in time-vaulting literary pretension.0easily one of the best and most exciting movies of the year.1you . . . get a sense of good intentions derailed by a failure…1johnson has , in his first film , set himself a task he is not nearly up to.

数据加载

在这里并不体现参数调优的过程，只设置训练集和测试集，没有验证集。

def load_sentence_polarity(data_path, train_ratio=0.8):

    all_data = []

    categories = set()
    with open(data_path, 'r', encoding="utf8") as file:
        for sample in file.readlines():

            polar, sent = sample.strip().split("\t")
            categories.add(polar)
            all_data.append((polar, sent))
    length = len(all_data)
    train_len = int(length * train_ratio)
    train_data = all_data[:train_len]
    test_data = all_data[train_len:]
    return train_data, test_data, categories

定义Dataset和Dataloader为后续模型提供数据：

class BertDataset(Dataset):
    def __init__(self, dataset):
        self.dataset = dataset
        self.data_size = len(dataset)

    def __len__(self):
        return self.data_size

    def __getitem__(self, index):

        return self.dataset[index]

def coffate_fn(examples):
    inputs, targets = [], []
    for polar, sent in examples:
        inputs.append(sent)
        targets.append(int(polar))
    inputs = tokenizer(inputs,
                       padding=True,
                       truncation=True,
                       return_tensors="pt",
                       max_length=512)
    targets = torch.tensor(targets)
    return inputs, targets

data_path = "sst2_shuffled.tsv"

train_data, test_data, categories = load_sentence_polarity(
    data_path=data_path, train_ratio=train_ratio)

train_dataset = BertDataset(train_data)
test_dataset = BertDataset(test_data)

train_dataloader = DataLoader(train_dataset,
                              batch_size=batch_size,
                              collate_fn=coffate_fn,
                              shuffle=True)
test_dataloader = DataLoader(test_dataset,
                             batch_size=1,
                             collate_fn=coffate_fn)

DataLoader主要有以下几个参数：
Args:

dataset (Dataset): dataset from which to load the data.
batch_size (int, optional): how many samples per batch to load(default: 1).
shuffle (bool, optional): set to True to have the data reshuffled at every epoch (default: False).
collate_fn : 传入一个处理数据的回调函数

DataLoader工作流程：

先从dataset中取出batch_size个数据
对每个batch，执行collate_fn传入的函数以改变成为适合模型的输入
下个epoch取数据前先对当前的数据集进行shuffle，以防模型学会数据的顺序而导致过拟合

有关Dataset和Dataloader具体可参考文章：Pytorch入门：DataLoader 和 Dataset

模型介绍

本文采用最简单的 BertModel，预训练模型加载的是 bert-base-uncased，在此基础上外加 Linear层进行线性映射达到二分类目的：

from transformers import BertModel

class BertSST2Model(nn.Module):

    def __init__(self, class_size, pretrained_name='bert-base-uncased'):
"""
        Args:
            class_size  :指定分类模型的最终类别数目，以确定线性分类器的映射维度
            pretrained_name :用以指定bert的预训练模型
"""
        super(BertSST2Model, self).__init__()

        self.bert = BertModel.from_pretrained(pretrained_name,
                                              return_dict=True)

        self.classifier = nn.Linear(768, class_size)

模型整体效果图如下（图片来源：网络）：

由图中可以看出，输入在经过12个层之后，利用【CLS】标记完成最终的分类任务。但这里需要注意的是：

BertModel对【CLS】标签所在位置最后会经过一个Pooler池化层，所以并不是直接拿最后隐层的对应值进行的线性映射。
Linear层以Pooler的输出作为输入，是一般BERT分类任务的通用做法

Pooler池化层具体可参考 transformers源码。

Finetune过程

参数设定

训练准备阶段，设置超参数和全局变量

batch_size = 16 # &#x540C;&#x65F6;&#x8BAD;&#x7EC3;&#x7684;&#x6570;&#x636E;&#x5927;&#x5C0F;
num_epoch = 10  # &#x8BAD;&#x7EC3;&#x8F6E;&#x6B21;
check_step = 2  # &#x7528;&#x4EE5;&#x8BAD;&#x7EC3;&#x4E2D;&#x9014;&#x5BF9;&#x6A21;&#x578B;&#x8FDB;&#x884C;&#x68C0;&#x9A8C;&#xFF1A;&#x6BCF;check_step&#x4E2A;epoch&#x8FDB;&#x884C;&#x4E00;&#x6B21;&#x6D4B;&#x8BD5;&#x548C;&#x4FDD;&#x5B58;&#x6A21;&#x578B;
data_path = "sst2_shuffled.tsv"  # &#x6570;&#x636E;&#x6240;&#x5728;&#x5730;&#x5740;
train_ratio = 0.8  # &#x8BAD;&#x7EC3;&#x96C6;&#x6BD4;&#x4F8B;
learning_rate = 1e-5  # &#x4F18;&#x5316;&#x5668;&#x7684;&#x5B66;&#x4E60;&#x7387;

优化器和损失函数

optimizer = Adam(model.parameters(), learning_rate)  #&#x4F7F;&#x7528;Adam&#x4F18;&#x5316;&#x5668;
CE_loss = nn.CrossEntropyLoss()  # &#x4F7F;&#x7528;crossentropy&#x4F5C;&#x4E3A;&#x4E8C;&#x5206;&#x7C7B;&#x4EFB;&#x52A1;&#x7684;&#x635F;&#x5931;&#x51FD;&#x6570;

训练

model.train()
for epoch in range(1, num_epoch + 1):

    total_loss = 0
    for batch in tqdm(train_dataloader, desc=f"Training Epoch {epoch}"):

        inputs, targets = [x.to(device) for x in batch]

        optimizer.zero_grad()

        bert_output = model(inputs)

        loss = CE_loss(bert_output, targets)

        loss.backward()

        optimizer.step()

        total_loss += loss.item()

测试


  acc = 0
   for batch in tqdm(test_dataloader, desc=f"Testing"):
       inputs, targets = [x.to(device) for x in batch]
       with torch.no_grad():
           bert_output = model(inputs)
"""
           .argmax()用于取出一个tensor向量中的最大值对应的下表序号，dim指定了维度
           假设 bert_output为3*2的tensor：
           tensor
           [
               [3.2,1.1],
               [0.4,0.6],
               [-0.1,0.2]
           ]
           则 bert_output.argmax(dim=1) 的结果为：tensor[0,1,1]
"""
           acc += (bert_output.argmax(dim=1) == targets).sum().item()

   print(f"Acc: {acc / len(test_dataloader):.2f}")

运行结果

模型在数据集上的准确率由50%以下上升到85%左右，有明显提升。

完整代码


import torch
import torch.nn as nn
from torch.optim import Adam
from torch.utils.data import Dataset, DataLoader
from transformers import BertModel
from tqdm import tqdm
import os
import time
from transformers import BertTokenizer
from transformers import logging

logging.set_verbosity_error()

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

class BertSST2Model(nn.Module):

    def __init__(self, class_size, pretrained_name='bert-base-chinese'):
"""
        Args:
            class_size  :指定分类模型的最终类别数目，以确定线性分类器的映射维度
            pretrained_name :用以指定bert的预训练模型
"""

        super(BertSST2Model, self).__init__()

        self.bert = BertModel.from_pretrained(pretrained_name,
                                              return_dict=True)

        self.classifier = nn.Linear(768, class_size)

    def forward(self, inputs):

        input_ids, input_tyi, input_attn_mask = inputs['input_ids'], inputs[
            'token_type_ids'], inputs['attention_mask']

        output = self.bert(input_ids, input_tyi, input_attn_mask)

        categories_numberic = self.classifier(output.pooler_output)
        return categories_numberic

def save_pretrained(model, path):

    os.makedirs(path, exist_ok=True)
    torch.save(model, os.path.join(path, 'model.pth'))

def load_sentence_polarity(data_path, train_ratio=0.8):

    all_data = []

    categories = set()
    with open(data_path, 'r', encoding="utf8") as file:
        for sample in file.readlines():

            polar, sent = sample.strip().split("\t")
            categories.add(polar)
            all_data.append((polar, sent))
    length = len(all_data)
    train_len = int(length * train_ratio)
    train_data = all_data[:train_len]
    test_data = all_data[train_len:]
    return train_data, test_data, categories

"""
torch提供了优秀的数据加载类Dataloader，可以自动加载数据。
1. 想要使用torch的DataLoader作为训练数据的自动加载模块，就必须使用torch提供的Dataset类
2. 一定要具有__len__和__getitem__的方法，不然DataLoader不知道如何如何加载数据
这里是固定写法，是官方要求，不懂可以不做深究，一般的任务这里都通用
"""

class BertDataset(Dataset):
    def __init__(self, dataset):
        self.dataset = dataset
        self.data_size = len(dataset)

    def __len__(self):
        return self.data_size

    def __getitem__(self, index):

        return self.dataset[index]

def coffate_fn(examples):
    inputs, targets = [], []
    for polar, sent in examples:
        inputs.append(sent)
        targets.append(int(polar))
    inputs = tokenizer(inputs,
                       padding=True,
                       truncation=True,
                       return_tensors="pt",
                       max_length=512)
    targets = torch.tensor(targets)
    return inputs, targets

batch_size = 32
num_epoch = 5
check_step = 1
data_path = "./sst2_shuffled.tsv"
train_ratio = 0.8
learning_rate = 1e-5

train_data, test_data, categories = load_sentence_polarity(
    data_path=data_path, train_ratio=train_ratio)

train_dataset = BertDataset(train_data)
test_dataset = BertDataset(test_data)
"""
DataLoader主要有以下几个参数：
Args:
    dataset (Dataset): dataset from which to load the data.

    batch_size (int, optional): how many samples per batch to load(default: 1).

    shuffle (bool, optional): set to  to have the data reshuffled at every epoch (default: ).

    collate_fn : 传入一个处理数据的回调函数
DataLoader工作流程：
1. 先从dataset中取出batch_size个数据
2. 对每个batch，执行collate_fn传入的函数以改变成为适合模型的输入
3. 下个epoch取数据前先对当前的数据集进行shuffle，以防模型学会数据的顺序而导致过拟合
"""
train_dataloader = DataLoader(train_dataset,
                              batch_size=batch_size,
                              collate_fn=coffate_fn,
                              shuffle=True)
test_dataloader = DataLoader(test_dataset,
                             batch_size=1,
                             collate_fn=coffate_fn)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

pretrained_model_name = 'bert-base-uncased'

model = BertSST2Model(len(categories), pretrained_model_name)

model.to(device)

tokenizer = BertTokenizer.from_pretrained(pretrained_model_name)

optimizer = Adam(model.parameters(), learning_rate)
CE_loss = nn.CrossEntropyLoss()

timestamp = time.strftime("%m_%d_%H_%M", time.localtime())

model.train()
for epoch in range(1, num_epoch + 1):

    total_loss = 0

    for batch in tqdm(train_dataloader, desc=f"Training Epoch {epoch}"):

        inputs, targets = [x.to(device) for x in batch]

        optimizer.zero_grad()

        bert_output = model(inputs)

        loss = CE_loss(bert_output, targets)

        loss.backward()

        optimizer.step()

        total_loss += loss.item()

    acc = 0
    for batch in tqdm(test_dataloader, desc=f"Testing"):
        inputs, targets = [x.to(device) for x in batch]

        with torch.no_grad():
            bert_output = model(inputs)
"""
            .argmax()用于取出一个tensor向量中的最大值对应的下表序号，dim指定了维度
            假设 bert_output为3*2的tensor：
            tensor
            [
                [3.2,1.1],
                [0.4,0.6],
                [-0.1,0.2]
            ]
            则 bert_output.argmax(dim=1) 的结果为：tensor[0,1,1]
"""
            acc += (bert_output.argmax(dim=1) == targets).sum().item()

    print(f"Acc: {acc / len(test_dataloader):.2f}")

    if epoch % check_step == 0:

        checkpoints_dirname = "bert_sst2_" + timestamp
        os.makedirs(checkpoints_dirname, exist_ok=True)
        save_pretrained(model,
                        checkpoints_dirname + '/checkpoints-{}/'.format(epoch))

Original: https://blog.csdn.net/weixin_45101959/article/details/122971674
Author: 墨菲是一只喵
Title: 基于BERT实现简单的情感分类任务

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545179/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ubuntu 20.04下安装cartographer，解决rosdep update等问题踏坑心得

文章目录前言一、ROS安装步骤中的sudo rosdep init和rosdep update问题？ * 1.初始化ROS中sudo rosdep init 可能出现的问题及…

人工智能 2023年6月10日
00113
LSTM股票价格预测

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年9月2日
00229
TensorFlow、PyTorch和PaddlePaddle之间有何不同

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2023年4月5日
00113
Loss损失函数

本博客记录一下遇到的各种损失，如想了解各种损失及其代码，也可查看mmdet项目的loss部分交叉熵适用于多分类任务，交叉熵属于分类损失中常见的一种损失，-ylogP取平均，概率…

人工智能 2023年7月2日
0069
MATLAB标定工业相机及应用于PNP测距的注意事项

一、前言因为项目采用PNP测距，需要知道工业相机的内参矩阵和畸变矩阵，所以采用MATLAB自带的标定应用CameraCalibrator进行标定工业相机（以迈德威视相机为例）。 …

人工智能 2023年7月19日
0054
Filterin

Filterin问题介绍 Filterin问题是指通过一定的算法、公式推导和计算步骤，对数据集中的噪声或无用数据进行过滤或筛选的问题。在数据处理和分析的过程中，Filterin技术…

人工智能 2024年1月2日
0021
Keras自定义损失函数出现：ValueError: Unknown loss function: focal_loss

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年9月2日
00429
java计算机毕业设计高校开放式实验室管理系统源码+mysql数据库+系统+lw文档+部署

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年11月26日
00124
李宏毅2021ML-hw1 新冠预测

系列文章目录李宏毅ML-2022hw2 文章目录系列文章目录简介实验部分 * Simple Baseline Medium Baseline Strong Baseline…

人工智能 2023年7月23日
0069
如何让电脑永不息屏？Python：这事我熟，只需5行代码…

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年12月1日
00132
PyTorch数据归一化处理：transforms.Normalize及计算图像数据集的均值和方差

PyTorch数据归一化处理：transforms.Normalize及计算图像数据集的均值和方差 1.数据归一化处理：transforms.Normalize * 1.1 理解t…

人工智能 2023年7月6日
0044
决策树之CART 算法（回归树，分类树）

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年11月19日
00190
pandas plot绘图详解：一文教会你各种绘图

pandas.DataFrame.plot绘图详解一、介绍 * 1.1 参数介绍 1.2 其他常用说明二、举例说明 * 2.1 折线图 line 2.2 条型图 bar 2.3…

人工智能 2023年7月14日
0054
机器学习入门：用线性回归实现一个房价预测的模型（pytorch实现）

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年12月14日
00154
什么是矩阵的条件数

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2023年4月14日
0064
python dataframe与list，series，array，字典类型的相互转换

注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

人工智能 2022年12月3日
00163

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于BERT实现简单的情感分类任务

SST-2数据集

示例

数据加载

参数设定

优化器和损失函数

训练

测试

运行结果

大家都在看