使用Bert预训练模型进行中文文本分类（基于pytorch）

2023年6月30日下午5:16 • 人工智能 • 阅读 123

前言

最近在做一个关于图书系统的项目，需要先对图书进行分类，想到Bert模型是有中文文本分类功能的，于是打算使用Bert模型进行预训练和实现下游文本分类任务

数据预处理

2.1 输入介绍

在选择数据集时，我们首先要知道的是模型到底应该接受什么样的输入，只有让模型接收正确的输入，才能构建出正确的数据形式。Bert模型的输入如图：

图 1 BERT模型输入图

在Segment embeddings里面，中文模型的处理与原始BERT的处理有一些不一样，由于对于文本分类这个场景输入只有一个序列，所以不需要区分0或1，只需要构造全0的输入即可，其他地方与原始BERT模型无较大差别，只需要构造原始文本对应的token序列，并在首尾分别加上[CLS]和[SEP]符作为输入即可

; 2.2 语料介绍

这里我是用的语料是THUCNews中的20万条新闻标题，文本长度在20到30之间。一共10个类别，每类2万条。数据以字为单位输入模型。

类别：财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐

如果你想用不同的数据集来训练，可以参考本数据集的格式来格式化自己想要训练的数据集

我的数据集分配比例如下：

数据集数据量训练集18万验证集1万测试集1万

2.3 数据集构建流程

第1步：将原始的数据样本进行分字（tokenize）处理

体现在代码中是 utils.py的line 20

token = config.tokenizer.tokenize(content)

第2步：根据第1步tokenize后的结果构造一个字典，但是由于我们使用的BERT

预训练模型，所以这个字典不需要我们自己来构造，只需要引入谷歌开源的 vocab.txt文件构造字典即可，因为只有vocab.txt中每个字的索引顺序才与开源模型中每个字的Embedding向量一一对应。

体现在代码中是 utils.py的line 24

token_ids = config.tokenizer.convert_tokens_to_ids(token)

第3步：根据字典将tokenize后的文本序列转换为token 序列，同时在token序列的首尾分别加上[CLS]和[SEP]符号，并进行padding（填充）

体现在代码中是 utils.py的line 26-33

if pad_size:
    if len(token) < pad_size:
        mask = [1] * len(token_ids) + [0] * (pad_size - len(token))
        token_ids += ([0] * (pad_size - len(token)))
    else:
        mask = [1] * pad_size
        token_ids = token_ids[:pad_size]
        seq_len = pad_size

第4步则是根据第3步处理后的结果生成对应的Padding Mask向量。

最后在模型训练的时候，只需要将第3步和第4步处理后的结果一起喂给模型就行了。

代码

源码链接：https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch

python 版本：3.7

pytorch版本：1.1

run.py

import time
import torch
import numpy as np
from train_eval import train, init_network
from importlib import import_module
import argparse
from utils import build_dataset, build_iterator, get_time_dif

parser = argparse.ArgumentParser(description='Chinese Text Classification')
parser.add_argument('--model', type=str, required=True, help='choose a model: Bert, ERNIE')
args = parser.parse_args()

if __name__ == '__main__':
    dataset = 'THUCNews'

    model_name = args.model
    x = import_module('models.' + model_name)
    config = x.Config(dataset)
    np.random.seed(1)
    torch.manual_seed(1)
    torch.cuda.manual_seed_all(1)
    torch.backends.cudnn.deterministic = True

    start_time = time.time()
    print("Loading data...")
    train_data, dev_data, test_data = build_dataset(config)
    train_iter = build_iterator(train_data, config)
    dev_iter = build_iterator(dev_data, config)
    test_iter = build_iterator(test_data, config)
    time_dif = get_time_dif(start_time)
    print("Time usage:", time_dif)

    model = x.Model(config).to(config.device)
    train(config, model, train_iter, dev_iter, test_iter)

terminal训练bert命令：python run.py –model bert

训练其他模型将model name 替换一下即可

BERT模型运行结果如下：

图3 运行结果呈现1

图4 运行结果呈现2

这只是BERT模型的运行结果，目前还在做BERT结合CNN，RNN等结构进行对比…

Original: https://blog.csdn.net/qq_44532527/article/details/122950018
Author: 17不想当码农
Title: 使用Bert预训练模型进行中文文本分类（基于pytorch）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/661715/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【神经网络学习篇】tensorflow实现cifar10识别（RNN lstm）

1.Long Short Term Memory networks 简称 LSTMs，是一种特殊的RNN网络。 LSTM被明确地设计为避免长期依赖性问题。长时间记住信息实际上是它们…

人工智能 2023年5月25日
00106
循环神经网络RNN

RNN（Recurrent Neural Network）循环神经网络。类比血液在体内循环，从过去一直被更新到现在。 RNN具有环路。这个环路可以使数据不断循环。通过数据的循环，…

人工智能 2023年7月13日
0069
多目标跟踪（二）DeepSort——级联匹配Matching Cascade

多目标跟踪（二）DeepSort——级联匹配Matching Cascade 目录多目标跟踪（二）DeepSort——级联匹配Matching Cascade 前言一、Deep…

人工智能 2023年5月26日
00113
我在STM32单片机上跑神经网络算法—CUBE-AI

摘要：为什么可以在STM上面跑人工智能？简而言之就是通过X-Cube-AI扩展将当前比较热门的AI框架进行C代码的转化，以支持在嵌入式设备上使用，目前使用X-Cube-AI需要在S…

人工智能 2023年6月24日
0084
ML之shap：基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用RF随机森林+计算SHAP值单样本力图/依赖关系贡献图可视化实现可解释性之攻略

ML之shap：基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用RF随机森林+计算SHAP值单样本力图/依赖关系贡献图可视…

人工智能 2023年7月1日
00101
使用自定义RRT*全局规划器建图导航

一、实现效果 1、使用tianbot_mini开源模型，gmapping建图算法，自定义RRT*全局规划器作为move_base插件2、我是用真车建图，考虑到有伙伴没有真车，所以文…

人工智能 2023年6月2日
00102
pointnet2（pointnet++）源码复现

该项目的github原始地址：https://github.com/charlesq34/pointnet2 目录 1.环境配置 * 1.1 环境展示 1.2 环境配置 1.3 下…

人工智能 2023年5月26日
0097
opencv报错src.empty() in function cvtColor

error: (-215:Assertion failed) !ssize.empty() in function ‘resize’ 有报错：cv2.err…

人工智能 2023年7月18日
0076
【Python】数据分析——直方图、散点图、线性回归、多项式回归、拟合度

目录 * – 绘制直方图 – 绘制散点图 – 线性回归 – 多项式回归 – 拟合度数据分析就是在一大批杂乱无章的数据中…

人工智能 2023年6月19日
0078
通话质量好的蓝牙耳机有哪些？通话质量好的蓝牙耳机盘点

选择一副好的蓝牙耳机被认为是大多数耳机用户和喜欢听音乐的人都在考虑的问题。有些人可能已经找到了一些这样的方式，但许多人仍然不知道如何选择。以下是我推荐的几款蓝牙耳机。在我看来，它们…

人工智能 2023年5月25日
0097
论文解析:Matrix Capsule

Matrix network 《MATRIX CAPSULES WITH EM ROUTING》总体介绍 matrix network是对前一篇capsule network的改…

人工智能 2023年6月2日
0061
如何在Framework中进行模型的持久化和加载

如何在Framework中进行模型的持久化和加载在机器学习中，我们通常需要将训练好的模型保存起来，以便在之后的任务中使用。模型的持久化指的是将训练好的模型保存到磁盘上，而加载则是…

人工智能 2024年1月1日
0049
从Hadder看蛋白质分子中的加氢算法

技术背景 PDB（Protein Data Bank）是一种最常用于存储蛋白质结构的文件。而我们在研究蛋白质构象时，往往更多的是考虑其骨架，因此在很多pdb文件中直接去掉了氢原子。…

人工智能 2023年6月4日
0079
python3.6 的安装和numpy、opencv、pyrealsense2的安装

为了能够使用D435i相机的使用，进行准备工作，python3.6 的安装和numpy、opencv、pyrealsense2的安装。创建一个虚拟环境：为了方便管理，自己pyth…

人工智能 2023年7月20日
00165
线性神经网络–Fashion-MNIST数据集读取显示

读取和显示图像 import torch from d2l import torch as d2l from torch.utils import data import matp…

人工智能 2023年7月1日
0086
机器学习里的信息论

一.信息量信息论背后的原理是：从不太可能的事件中，能学到更多的信息，发生概率越小的事件信息量越大，独立事件包含额外的信息信息量又译为信息本体，由克劳德·香农提出，用来衡量单一事…

人工智能 2023年6月4日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用Bert预训练模型进行中文文本分类（基于pytorch）

前言

数据预处理

2.1 输入介绍

; 2.2 语料介绍

2.3 数据集构建流程

代码

大家都在看