使用BERT+BiGRU对京东手机评论进行情感分析

2023年7月22日下午2:31 • 人工智能 • 阅读 76

1. 设置参数，使模型结果具有可重现性（非必须）

确定性操作通常比非确定性操作慢，因此您的模型的单次运行性能可能会降低。但是，确定性可以通过促进实验、调试和回归测试来节省开发时间。

模型的可重现性是指，在相同的网络结构、超参数下，相同的数据输入模型具有相同的输出效果。

保证模型的可重现性可从两个方面进行，具体方式参见上面给出的官方文档；

import torch
import random
import numpy as np

SEED = 1234

random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

2. 导入 BertTokenizer

导入 BertTokenizer 的目的是为了方便后面使用 torchtext 构建Filed；

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

init_token_idx = tokenizer.cls_token_id
eos_token_idx = tokenizer.sep_token_id
pad_token_idx = tokenizer.pad_token_id
unk_token_idx = tokenizer.unk_token_id

max_input_length = tokenizer.max_model_input_sizes['bert-base-chinese']

bert-base-chinses 从 huggingface 官方下载， git clone [https://huggingface.co/bert-base-chinese](https://huggingface.co/bert-base-chinese) ；

3. 使用torchtext对数据预处理

使用 torchtext 构建Filed、Dataset 和 Iterator；

token化的函数，即分词函数；输入的真实 token 大小应该为 max_input_length – 2，因为要在输入的开始位置添加字符 <cls></cls> ，末尾位置添加字符 <sep></sep> ；

def tokenize_and_cut(sentence):
    tokens = tokenizer.tokenize(sentence)
    tokens = tokens[: max_input_length - 2]
    return tokens

因为关键字参数 preprocessing = tokenizer.convert_tokens_to_ids ，所以将 init_token 等特殊字符都设置为这些特殊字符在 vocabulary 中对应的 id；

from torchtext.legacy import data

TEXT = data.Field(batch_first=True,
                use_vocab=False,
                tokenize=tokenize_and_cut,
                preprocessing=tokenizer.convert_tokens_to_ids,
                init_token = init_token_idx,
                eos_token=eos_token_idx,
                pad_token=pad_token_idx,
                unk_token=unk_token_idx)

LABEL = data.LabelField()

将 Field 与csv文件中的字段对应，构建Dataset；

fields = [('label', LABEL), ('comment_processed', TEXT)]

train_Dataset, val_Dataset, test_Dataset = data.TabularDataset.splits(
    path='/workspace/vscode/works/研一上学期任务/data',
    format='csv',
    train='train_data.csv',
    validation='valid_data.csv',
    test='test_data.csv',
    skip_header=True,
    fields=fields)

LABEL.build_vocab(train_Dataset)
print(LABEL.vocab.stoi)

生成迭代器

batch_size = 64
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits((train_Dataset, val_Dataset, test_Dataset),
                                                                           batch_size=batch_size,
                                                                           sort=False,
                                                                           device=device)

4. 构建模型

import torch.nn as nn
from transformers import BertTokenizer, BertModel

bert = BertModel.from_pretrained('bert-base-chinese')

class BERTGRUSentiment(nn.Module):
    def __init__(self, bert, hidden_dim, nums_output, n_layers, bidirectional, dropout):
        super(BERTGRUSentiment, self).__init__()
        self.bert = bert
        embedding_dim = bert.config.to_dict()['hidden_size']
        self.rnn = nn.GRU(embedding_dim,
                            hidden_dim,
                            num_layers=n_layers,
                            bidirectional=bidirectional,
                            batch_first=True,
                            dropout = 0 if n_layers < 2 else dropout)
        self.dropout = nn.Dropout(dropout)
        self.output = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, nums_output)

    def forward(self, text):

        embeded = self.bert(text)[0]

        _, hidden = self.rnn(embeded)

        if self.rnn.bidirectional:
            hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1))
        else:
            hidden = self.dropout(hidden[-1,:,:])

        output = self.output(hidden)

        return output

5. 训练和评估

import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

def accuracy(pred, y):
    correct = (pred.argmax(dim=1) == y).float()
    return correct.sum() / len(correct)

def train(model, iterator, optimizer, criterion):
    epoch_loss = 0
    epoch_acc = 0

    model.train()

    for batch in iterator:
        optimizer.zero_grad()
        preds = model(batch.comment_processed).squeeze(1)
        loss = criterion(preds, batch.label)
        acc = accuracy(preds, batch.label)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
        epoch_acc += acc.item()

    return epoch_loss / len(iterator), epoch_acc / len(iterator)

def evaluate(model, iterator, criterion):
    epoch_loss = 0
    epoch_acc = 0

    model.eval()

    with torch.no_grad():
        for batch in iterator:
            preds = model(batch.comment_processed).squeeze(1)
            loss = criterion(preds, batch.label)
            acc = accuracy(preds, batch.label)
            epoch_loss += loss.item()
            epoch_acc += acc.item()

    return epoch_loss / len(iterator), epoch_acc / len(iterator)

NUM_EPOCHS = 5

best_valid_loss = float('inf')

for epoch in range(NUM_EPOCHS):
    start_time = time.time()

    train_loss, train_acc = train(model, train_iterator, optimizer, criterion)
    valid_loss, valid_acc = evaluate(model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), "bert-GRU-Reviews-Sentiment.pt")

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. Acc: {valid_acc*100:.2f}%')

model.load_state_dict(torch.load('bert-GRU-Reviews-Sentiment.pt'))

test_loss, test_acc = evaluate(model, test_iterator, criterion)

print(f'Test Loss: {test_loss:.3f} | Test Acc: {test_acc*100:.2f}%')

Original: https://blog.csdn.net/weixin_42655901/article/details/123830556
Author: coolhuhu~
Title: 使用BERT+BiGRU对京东手机评论进行情感分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709126/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Generalized Few-Shot Object Detection without Forgetting

参考Generalized Few-Shot Object Detection without Forgetting – 云+社区 – 腾讯云 1、摘要近…

人工智能 2023年7月12日
0092
synchronized的优化机制和一些多线程的常见类

1.1.我们现在知道常用的锁策略那synchronized基于这些策略有哪些特性呢? 1.2.synchronized 的一些锁优化机制(jdk 1.8) JVM 将 synch…

人工智能 2023年6月26日
0087
Python Pandas常用的描述性统计信息的函数

1.count() # 非空观测数量 2.sum() # 所有值之和 3.mean() # 所有值的平均值 4.median() # 所有值的中位数 5.mode() # 值的模值…

人工智能 2023年7月7日
0081
数据结构专题 | 先序非递归遍历二叉树

一、队列的类型定义二、顺序队列的表示和实现 2.1 初始化队列 2.2 入队 2.3 出队 2.4 判断循环队列是否为空三、链队的表示和实现 3.1 链队的初始化 3.2 判断…

人工智能 2023年6月27日
0076
ROS教程（五）：OpenCV调用USB摄像头并发布topic（详细图文）

目录前言一、创建包二、创建节点三、修改CMakeLists.txt及package.xml 四、编译运行总结（最重要的）前言 ros教程：OpenCV调…

人工智能 2023年7月20日
0074
计算机视觉环境配置（pycharm安装)(opencv引入)(anaconda安装)(pytorch安装)(YOLO V5安装和实验)(Harris和SIFT角点检测)

课程作业目录一、Pycharm安装、配置、使用二、Anaconda 安装、配置 * （1）Anaconda 下载安装三、Open CV 安装与使用 * （1）完成Open C…

人工智能 2023年7月23日
0081
中值滤波，均值滤波，高斯滤波，双边滤波，联合双边滤波介绍

看GAMES202相关课程发现闫老师讲的太好了，所以记录一下。当然文中涉及的PPT也来自闫老师的课程PPT，欢迎交流。首先这几种都是空域的滤波方式，用于抑制图像中的噪声。它们采用…

人工智能 2023年6月20日
0085
sklearn学习05——K-means

sklearn学习05——K-means 前言一、K-means算法思想二、代码实现 K-means算法 * 2.1、引入相关库 2.2、生成数据集 2.3、训练 + 预测 2…

人工智能 2023年6月2日
00109
OpenCV读取图片

OpenCV读取图片的两种方式第一种方式：直接通过Anaconda读取、显示 ①读取有色图片 import cv2 img = cv2.imread("images/1…

人工智能 2023年6月18日
0063
Python基础知识入门

Python基础知识入门（二） Python基础知识入门（三） Python基础知识入门（四） Python基础知识入门（五）一、发展历程 Python的创始人为荷兰人吉多·范罗…

人工智能 2023年7月18日
0057
BERT论文阅读笔记

介绍 1、双向预训练模型，使用MLM(masked language model): 2、预训练模型，降低模型复杂度 BERT是自监督学习（无监督学习），结构是 Transform…

人工智能 2023年5月28日
0060
单调队列算法 – 滑动窗口问题（常见模型：找出滑动窗口中的最大值/最小值）

欢迎观看我的博客，如有问题交流，欢迎评论区留言，一定尽快回复！（大家可以去看我的专栏，是所有文章的目录）文章字体风格：红色文字表示：重难点✔蓝色文字表示：思路以及想法✔ 如果大家觉…

人工智能 2023年7月29日
0062
图神经网络在反欺诈领域的应用

具体场景为图神经网络在恶意网址检测中的应用。恶意网址检测中存在的难点有两方面：一是借助短链接或跳转的方式到恶意网址，链接或跳转的前置页面特征不明显，可能是空白页面，对前置页面…

人工智能 2023年7月14日
0082
支持哪些编程语言

问题描述问题涉及的是关于支持哪些编程语言这个主题。具体而言，我们将讨论如何在Python中实现对编程语言的支持。详细介绍编程语言是计算机与人之间交流的桥梁，可以用于编写和运行…

人工智能 2023年12月31日
0045
python panda3d从入门_笔记：Python之Pandas的使用技巧

Pandas的使用技巧相关知识点总结 pandas的使用技巧相关知识点总结表.png 一、数学计算与统计基础 (1)基本参数axis和skipna 基本参数：axis、skipna…

人工智能 2023年7月7日
0066
哈工大2022机器学习实验一：曲线拟合

这个实验的要求写的还是挺清楚的（与上学期相比），本博客采用python实现，科学计算库采用 numpy，作图采用 matplotlib.pyplot，为了简便在文件开头import…

人工智能 2023年5月30日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31