【小白学习PyTorch教程】十六、在多标签分类任务上微调BERT模型

2023年7月2日下午6:38 • 人工智能 • 阅读 75

@Author：Runsen

BERT模型在NLP各项任务中大杀四方，那么我们如何使用这一利器来为我们日常的NLP任务来服务呢？首先介绍使用BERT做文本多标签分类任务。

文本多标签分类是常见的NLP任务，文本介绍了如何使用Bert模型完成文本多标签分类，并给出了各自的步骤。

参考官方教程：https://pytorch.org/tutorials/intermediate/dynamic_quantization_bert_tutorial.html

复旦大学邱锡鹏老师课题组的研究论文《How to Fine-Tune BERT for Text Classification?》。

论文: https://arxiv.org/pdf/1905.05583.pdf

这篇论文的主要目的在于在文本分类任务上探索不同的BERT微调方法并提供一种通用的BERT微调解决方法。这篇论文从三种路线进行了探索：

(1) BERT自身的微调策略，包括长文本处理、学习率、不同层的选择等方法；
(2) 目标任务内、领域内及跨领域的进一步预训练BERT；
(3) 多任务学习。微调后的BERT在七个英文数据集及搜狗中文数据集上取得了当前最优的结果。

作者的实现代码: https://github.com/xuyige/BERT4doc-Classification

数据集来源：https://www.kaggle.com/shivanandmn/multilabel-classification-dataset?select=train.csv

该数据集包含 6 个不同的标签（计算机科学、物理、数学、统计学、生物学、金融），以根据摘要和标题对研究论文进行分类。
标签列中的值 1 表示标签属于该标签。每个论文有多个标签为 1。

Bert模型加载

Transformer 为我们提供了一个基于 Transformer 的可以微调的预训练网络。

由于数据集是英文, 因此这里选择加载bert-base-uncased。

具体下载链接：https://huggingface.co/bert-base-uncased/tree/main

from transformers import BertTokenizerFast as BertTokenizer

BERT_MODEL_NAME = "model/bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(BERT_MODEL_NAME)

微调BERT模型

bert微调就是在预训练模型bert的基础上只需更新后面几层的参数，这相对于从头开始训练可以节省大量时间，甚至可以提高性能，通常情况下在模型的训练过程中，我们也会更新bert的参数，这样模型的性能会更好。

微调BERT模型主要在 D_out进行相关的改变，去除segment层，直接采用了字符输入，不再需要segment层。

下面是微调BERT的主要代码

class BertClassifier(nn.Module):
    def __init__(self, num_labels: int, BERT_MODEL_NAME, freeze_bert=False):
        super().__init__()
        self.num_labels = num_labels
        self.bert = BertModel.from_pretrained(BERT_MODEL_NAME)

        D_in, H, D_out = self.bert.config.hidden_size, 50, num_labels

        self.classifier = nn.Sequential(
            nn.Dropout(p=0.3),
            nn.Linear(D_in, H),
            nn.ReLU(),
            nn.Dropout(p=0.3),
            nn.Linear(H, D_out),
        )

        self.loss_func = nn.BCEWithLogitsLoss()

        if freeze_bert:
            print("freezing bert parameters")
            for param in self.bert.parameters():
                param.requires_grad = False

    def forward(self, input_ids, attention_mask, labels=None):
        outputs = self.bert(input_ids, attention_mask=attention_mask)

        last_hidden_state_cls = outputs[0][:, 0, :]

        logits = self.classifier(last_hidden_state_cls)

        if labels is not None:
            predictions = torch.sigmoid(logits)
            loss = self.loss_func(
                predictions.view(-1, self.num_labels), labels.view(-1, self.num_labels)
            )
            return loss
        else:
            return logits

其他

关于数据预处理，DataLoader等代码有点多，这里不一一列举，需要代码的在公众号回复：” bert” 。

最后的训练结果如下所示：

Original: https://blog.csdn.net/weixin_44510615/article/details/119815124
Author: 刘润森！
Title: 【小白学习PyTorch教程】十六、在多标签分类任务上微调BERT模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665999/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

知识图谱学习笔记-知识图谱价值和发展历程

一：知识图谱的价值： 1.辅助搜索传统搜索引擎依靠网页之间的超链接实现网页的搜索，而语义搜索是直接对事物进行搜索，如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、I…

人工智能 2023年6月10日
0071
lidar_align联合标定激光雷达和IMU外参

lidar_align联合标定激光雷达和IMU外参运行LIO-SAM之前需要联合标定激光雷达和IMU的外参，官方推荐的方案是浙大的开源联合标定方案：lidar_IMU_calib…

人工智能 2023年6月2日
00135
2022年必须要了解的20个开源NLP 库

大家好，我是对白。在本文中，我列出了当今最常用的 NLP 库，并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势，因此它们都可以作为专门从事 NLP 的优秀数据科学家备…

人工智能 2023年5月30日
00128
舱内视觉AI应用前装「同比增长近200%」，哪些供应商领跑中国市场

智能汽车行业正在进入舱内、舱外功能融合的关键周期。以智能驾驶为例，目前处于辅助驾驶到无人驾驶的长期演进阶段，人机交互（尤其是一系列AI定义的功能）正在发挥关键作用。比如，此前中国…

人工智能 2023年6月11日
0088
2.语音增强短时谱估计算法——幅度谱减法

谱减法基本思想是从带噪语音的频谱估值中减去噪声频谱估值，从而得到纯净语音频谱估计值 1、幅度谱减法使用基础需要对语音的短时幅度谱进行估计，这种方法没有使用参考噪声源，但他假设噪声…

人工智能 2023年5月25日
0082
【Selenium】Selenium获取Network数据（高级版）

前言为解决从Selenium中获取Network接口数据，潜心研究了一小会儿，遂有此文基本看这篇文章的，多多少少都跟 spider 沾亲带故。所以直接进入正题。只想要代码，文…

人工智能 2023年7月5日
0094
Divide and Conquer: A Deep CASA Approach toTalker-Independent Monaural Speaker Separation

; 0. Abstract 本文从深度学习和计算听觉场景分析(CASA)的角度解决与说话者无关的单通道语音分离问题。具体来说，本文将多说话人分离任务分解为同时分组（Simultan…

人工智能 2023年5月23日
0077
2022你不容错过的软件测试项目实战（web+app+h5+小程序）免费版

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月30日
0081
【WY】数据分析 — Pandas 阶段一：基础语法六 —— 统计基础

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、数据分组 * 1.1 df.groupby() – 1.1.1 分组：计算 1.1.2 分组：根据列…

人工智能 2023年7月7日
0065
[算法整理]可能是最全的无监督/自监督单目深度估计方法汇总 – Part2:双目图像篇

借着最近开题写开题报告的机会，比较细致地整理了一下之前看过的自监督单目深度估计相关的论文。合计了一下，感觉写篇综述有点太耗时耗力，干脆就在这里分享出来好了。论文列表持续更新中广告…

人工智能 2023年6月1日
00112
【声源定位】基于matlab单声源双麦克风房间冲激响应【含Matlab源码 547期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【声源定位】基于matlab单声源双麦克风房间冲激响应【含Matlab源码 547期】点击上面蓝色字体，直接付费下载，即…

人工智能 2023年5月25日
0095
手动绘制logistic回归预测模型校准曲线（Calibration curve）（1）

校准曲线图表示的是预测值和实际值的差距，作为预测模型的重要部分，目前很多函数能绘制校准曲线。一般分为两种，一种是通过Hosmer-Lemeshow检验，把P值分为10等分，求出每等…

人工智能 2023年6月16日
00117
2022年最新垃圾分类小程序，含图片识别和语音识别，视频播放，垃圾分类搜索，垃圾知识答题，积分排行，文章推荐，收藏文章等功能

注：如果百度用于语音和图片识别的免费资源已经用完，请转到文章末尾的第11章查看解决方案。 [En] Note: if Baidu’s free resources fo…

人工智能 2023年5月23日
00101
【OpenCV 例程200篇】209. HSV 颜色空间的彩色图像分割

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程300篇】209. HSV 颜色空间的彩色图像分割 5.1 HSV 颜色空间的彩色图像分割 HSV 模型…

人工智能 2023年5月28日
0093
2022年你应该知道的十大Python库

学习数据分析绝非易事，有无数种工具和资源可供使用。因此，有时会让我们很难弄清楚该学习什么技能，该使用哪种工具。在本文中，我们就来给大家介绍一下数据分析中最常用的10个Python…

人工智能 2023年7月18日
0087
红外目标检测数据集–入门到放弃

红外目标检测数据集： 1.SCUT FIR Pedestrain（Caltech格式）下载地址：http://www2.scut.edu.cn/cv/download/main….

人工智能 2023年6月17日
00181

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【小白学习PyTorch教程】十六、在多标签分类任务上 微调BERT模型

Bert模型加载

微调BERT模型

其他

大家都在看

【小白学习PyTorch教程】十六、在多标签分类任务上微调BERT模型