NLP（五十）使用PyTorch训练多标签文本分类模型

2023年5月27日下午8:02 • 人工智能 • 阅读 93

已经很长时间没有更新了。最近，上海疫情严重，我的工作很忙。我只是发现，以前有时间和心情写文章是一种奢侈。

[En]

It has not been updated for a long time. Recently, the epidemic in Shanghai is serious, and I am busy with my work. I only found that it was such a luxury to have the time and mood to write articles before.

本文将介绍如何使用PyTorch训练多标签文本分类模型。
所谓多标签文本分类，是指文本可能属于多个类别，而不是单一类别。文本多分类和文本多分类的区别在于，文本多分类模型往往有多个类别，但文本属于其中之一，而多标签文本分类也有多个类别，但文本属于多个类别。

[En]

The so-called multi-tag text classification means that the text may belong to multiple categories rather than a single category. The difference between text multi-classification and text multi-classification is that text multi-classification models often have multiple categories, but text belongs to one of them, while multi-label text classification also has multiple categories, but text belongs to multiple categories.

数据集

本文演示的数据集为英语论文数据集，参考网址为：https://datahack.analyticsvidhya.com/contest/janatahack-independence-day-2020-ml-hackathon，数据下载需翻墙，读者也可参看后续给出的项目Github。该论文数据集实际上是比赛数据，供选手尝试模型。本文所采用的数据集为英语，至于中文，其原理是一致的，稍微做调整即可。
该数据集给出论文的标题（TITLE）和摘要（ABSTRACT），来预测论文属于哪个主题。该数据集共有20972个训练样本，有六个主题，分别为：Computer Science, Physics, Mathematics, Statistics, Quantitative Biology, Quantitative Finance。在此给出一个样例数据：

TITLE : Many-Body Localization: Stability and Instability
ABSTRACT: Rare regions with weak disorder (Griffiths regions) have the potential to spoil localization. We describe a non-perturbative construction of local integrals of motion (LIOMs) for a weakly interacting spin chain in one dimension, under a physically reasonable assumption on the statistics of eigenvalues. We discuss ideas about the situation in higher dimensions, where one can no longer ensure that interactions involving the Griffiths regions are much smaller than the typical energy-level spacing for such regions. We argue that ergodicity is restored in dimension d > 1, although equilibration should be extremely slow, similar to the dynamics of glasses.

TOPICS: Physics, Mathematics

模型结构

本文给出的多标签文本分类模型使用预训练模型（BERT），下游网络结构较为简单，算是比较中庸但简单好用的模型方案，模型结构图如下：

该模型使用PyTorch的transformers模块来实现，代码如下:


class BERTClass(torch.nn.Module):
    def __init__(self):
        super(BERTClass, self).__init__()
        self.l1 = transformers.BertModel.from_pretrained(MODEL_NAME_OR_PATH)
        self.l2 = torch.nn.Dropout(0.2)
        self.l3 = torch.nn.Linear(HIDDEN_LAYER_SIZE, 6)

    def forward(self, ids, mask, token_type_ids):
        _, output_1 = self.l1(ids, attention_mask=mask, token_type_ids=token_type_ids)
        output_2 = self.l2(output_1)
        output = self.l3(output_2)
        return output

使用损失函数为 torch.nn.BCEWithLogitsLoss，因而不需要在output层后加上sigmoid激活函数。
在模型训练过程中，将训练数据随机分为训练集和测试集，两部分的比例为8：2，模型参数设置如下：

[En]

In the process of model training, the training data are randomly divided into training set and test set, the proportion of the two parts is 8:2, and the model parameters are set as follows:


MAX_LEN = 128
TRAIN_BATCH_SIZE = 32
VALID_BATCH_SIZE = 32
EPOCHS = 10
LEARNING_RATE = 1e-05

MODEL_NAME_OR_PATH = './bert-base-uncased'
HIDDEN_LAYER_SIZE = 768

模型效果

笔者分别尝试使用 bert-base-uncased和 bert-large-uncased训练模型，并在测试数据上进行预测，在比赛官网上进行提交，结果如下表：

模型max lengthbatch sizeprivate scorerankbert-base-uncased128320.8320107bert-large-uncased128160.835579

看过一个rank为17的方案，其采用的是多个预训练模型训练后的集成，后接网络与笔者一致。

总结

本项目已经开源，其Github网址为:https://github.com/percent4/pytorch_english_mltc。后续将尝试该模型在中文多标签文本分类数据集上的效果，感谢大家阅读~

参考网址

https://jovian.ai/kyawkhaung/1-titles-only-for-medium
https://datahack.analyticsvidhya.com/contest/janatahack-independence-day-2020-ml-hackathon
Fine-tuned BERT Model for Multi-Label Tweets Classification: https://trec.nist.gov/pubs/trec28/papers/DICE_UPB.IS.pdf

Original: https://blog.csdn.net/jclian91/article/details/123563040
Author: 山阴少年
Title: NLP（五十）使用PyTorch训练多标签文本分类模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527521/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV实战之人脸美颜美型（一）——开发环境搭建

### 回答1：人脸_识别系统是一种利用计算机技术对 _人脸_进行识别和验证的系统。其中， _opencv 人脸_检测是一种基于 _opencv_库的 _人脸_检测算法，可以通过…

人工智能 2023年7月20日
0031
1048 Find Coins

Eva loves to collect coins from all over the universe, including some other planets like M…

人工智能 2023年6月30日
0061
手把手带你Yolov5 (v6.x)添加注意力机制(一)（并附上30多种顶会Attention原理图）(新增8种)

🌟想了解YOLO系列算法更多进阶教程欢迎订阅我的专栏🌟 基础不好的同学可以试试看一下我的《目标检测蓝皮书》🚀 ，里面包含超多目标检测实用知识，想速通目标检测，看这本就对了！想了解…

人工智能 2023年6月15日
00258
【仿真】CARLA可能遇到的相关问题总结

本部分主要收集各路网友在使用CARLA时遇到的一些问题和解决方案，欢迎进行补充 SUMO联合时由网友jl提出，主要是和SUMO进行联合时，使用SUMO进行生成场景npc，但是无法…

人工智能 2023年6月2日
0068
超详细的Python matplotlib 绘制柱状图

复习回顾 Python 为数据展示提供了大量优秀的功能包，其中 matplotlib 模块可以方便绘制制作折线图、柱状图、散点图等高质量的数据包。关于 matplotlib 模块…

人工智能 2023年7月4日
00146
动手做个 AI 机器人，帮我回消息

大家好，我是鱼皮，自从做了知识分享，我的微信就没消停过，平均每天会收到几百个消息，大部分都是学编程的朋友向我咨询编程问题。但毕竟我只有一个人，没法所有消息都一个个回复，所以也是很…

人工智能 2023年7月26日
0052
【语音识别】基于BP神经网络实现语音情感识别Matlab源码

1 模型语音是人类交流的重要手段，也是人类相互传递信息最方便、最基本、最直接的方式。语音信号不仅传递语义信息，还传递情感信息，情感在人们的交流中起着重要的作用。因此，随着人机交互…

人工智能 2023年5月27日
0093
PyTorch深度学习实践——处理多维特征的输入

处理多维特征的输入课程来源：PyTorch深度学习实践——河北工业大学《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibili 这一讲介绍输入为多维数据时的分类。一…

人工智能 2023年6月4日
00105
TensorFlow的protobuf版本兼容问题

主要解决方案是在版本不匹配时报告错误： [En] The main solution is to report an error when the version does not…

人工智能 2023年5月25日
0094
yolov5检测框显示中文标签

目录前言 1、有中文标签的数据集 2、yolov5代码修改为支持中文标签前言很多人在训练yolov5目标检测的时候，标签只能显示英文的。怎么样才可以训练一个可以检测物体并且显…

人工智能 2023年7月13日
0074
pytorch 13 训练过程中出现loss为nan、inf（梯度爆炸、梯度消失）的分析及解决方案

先上一波知乎大佬整理的关于产生nan的观点模型训练中出现NaN Loss的原因及解决方法 – 知乎从理论的角度上看，本质是梯度消失与梯度爆炸所导致的。梯度消失是…

人工智能 2023年7月23日
0044
TensorFlow的基本应用及课后习题

1. TensorFlow™是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machine learning）算法的编程实…

人工智能 2023年5月24日
00135
Python 实现朴素贝叶斯代码演示

朴素贝叶斯可以细分为三种方法：分别是伯努利朴素贝叶斯、高斯朴素贝叶斯和多项式朴素贝叶斯。下文就这三种方法进行详细讲解和演示。目录一、伯努利朴素贝叶斯方法 1.1 例子解答 1….

人工智能 2023年7月25日
0051
Anaconda创建环境及环境配置

Anaconda创建环境及环境配置 1-创建环境 2-激活环境 3-删除环境 4-退出环境 5-注 1-创建环境前情提要：默认你已经安装 _anaconda_的基础上。以下操…

人工智能 2023年6月16日
0075
深度神经网络

4. 深度神经网络文章目录 * – 4. 深度神经网络 – + 4.1 深度学习简介 + * 4.1.1 深度学习与机器学习的主要区别 + 4.2 常用的…

人工智能 2023年7月14日
00143
【广播机制】Numpy,Pytorch,Tensorflow

广播机制广播机制是为了解决两个不同尺寸之间的数组（张量）之间的计算问题而设计的一种算法机制，在numpy中就存在这种机制，而Pytorch和Tensorflow为了减少学习成本，…

人工智能 2023年5月24日
0096

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

NLP（五十）使用PyTorch训练多标签文本分类模型

数据集

模型结构

模型效果

总结

参考网址

大家都在看