BERT微调之单句文本分类

2023年5月30日下午2:01 • 人工智能 • 阅读 55

单句文本分类是最常见的自然语言处理任务，需要将输入文本分成不同类别。例如：在情感分类任务SST-2中，需要将影评文本输入文本分类模型中，并将其分成褒义或贬义。

建模方法

应用BERT处理单句文本分类任务的模型由输入层、BERT编码层和分类输出层构成。处理过程如下图所示（图源李宏毅老师课件）：

首先在句子的开头加一个代表分类的符号[CLS]
然后将该位置的output输入到Linear Classifier，进行predict，输出一个分类。

注：整个过程中 Linear Classifier 的参数是需要从头开始学习的，而 BERT 中的参数微调就可以了。

为什么要用[CLS]来进行分类？

因为 BERT 内部是 Transformer，而 Transformer 内部又是 Self-Attention，所以 [CLS]的output肯定含有整句话的完整信息。但是Self-Attention计算的向量，自己本身和自己的值肯定是最相关的。现在假设使用w 1 w_1 w 1 的output做分类，这那么这个output实际上会更加看重w 1 w_1 w 1 ，而w 1 w_1 w 1 又是一个有实际含义的字或者词，这样难免会影响到最终的结果。但是 [CLS]是没有任何意义的占位符，所以就算 [CLS]的 output 中自己的值占大头也无所谓.

; 2. 代码实现

接下来结合实际代码，介绍BERT在单句文本分类任务中的训练方法。这里以英文情感二分类数据集SST-2为例介绍。

这里主要应用了由HuggingFace开发的transformers包和datasets库进行建模，可以极大地简化数据处理和模型建模过程。

导入包和加载训练数据、分词器、预训练模型和评价方法

import numpy as np
from datasets import load_dataset, load_metric
from transformers import BertTokenizerFast, BertForSequenceClassification,TrainingArguments,Trainer

dataset = load_dataset('glue', 'sst2')
tokenizer = BertTokenizerFast.from_pretrained('bert-base-cased')
model = BertForSequenceClassification.from_pretrained('bert-base-cased', return_dict = True)
metric = load_metric('glue', 'sst2')

对训练集分词

def tokenize(examples):
    return tokenizer(examples['sentence'], truncation=True, padding='max_length')

dataset = dataset.map(tokenize, batched=True)
encoded_dataset = dataset.map(lambda examples:{'labels':examples['label']}, batched=True)

将数据集转化为torch.Tensor类型以训练PyTorch模型

columns = ['input_ids', 'token_type_ids', 'attention_mask', 'labels']
encoded_dataset.set_format(type='torch', columns=columns)

定义评价指标

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    return metric.compute(predictions=np.argmax(predictions, axis=1), references=labels)

定义训练参数TrainingArguments，默认使用AdamW优化器

args = TrainingArguments(
    'ft-sst2',
    evaluation_strategy='epoch',
    learning_rate=2e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=2
)

定义Trainer，指定模型和训练参数，输入训练集、验证集、分词器和评价函数

trainer = Trainer(
    model,
    args,
    train_dataset =encoded_dataset["train"],
    eval_dataset = encoded_dataset["validation"],
    tokenizer = tokenizer,
    compute_metrics = compute_metrics

进行训练

trainer.train()

训练完毕后，开始测试

trainer.evaluate()

&#x7ED3;&#x679C;&#xFF1A;
{'eval_loss': 0.4584292471408844,
 'eval_accuracy': 0.9162844036697247,
 'eval_runtime': 25.5729,
 'eval_samples_per_second': 34.099,
 'epoch': 2.0,
 'eval_mem_cpu_alloc_delta': 215077,
 'eval_mem_gpu_alloc_delta': 0,
 'eval_mem_cpu_peaked_delta': 270242,
 'eval_mem_gpu_peaked_delta': 144781312}

参考资料

Original: https://blog.csdn.net/m0_50896529/article/details/121762937
Author: 郑不凡
Title: BERT微调之单句文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/542983/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ai实现FPS游戏自动瞄准 yolov5fps自瞄

大家好我是毕加锁 (锁!) 今天来分享一个Yolov5 FPS跟枪的源码解析和原理讲解。代码比较粗糙各位有什么优化的方式可以留言指出，可以一起交流学习。需要了解的东西和可能会…

人工智能 2023年6月22日
0098
python自然语言处理工具包“spaCy”安装教程

spaCy 简介 1、spaCy简单教程 spaCy 是一个Python 自然语言处理工具包，诞生于2014 年年中，号称”Industrial-Strength Na…

人工智能 2023年5月30日
0079
yolov7开源代码讲解–训练代码

以前看CNN训练代码的时候，往往代码比较易懂，基本很快就能知道各个模块功能，但到了后面很多出来的网络中，由于加入了大量的trick，导致很多人看不懂代码，代码下载以后无从下手。训练…

人工智能 2023年6月23日
0055
【机器学习】吴恩达作业6.0，python实现SVM支持向量机

6.0支持向量机使用支持向量机(SVM)处理各种两维的样本数据集，了解支持向量机如何工作，以及如何使用带高斯核函数的SVM。 SVM（鲁棒性，大间距分类器）支持向量机（suppor…

人工智能 2023年6月17日
0035
注意力机制详解

1.特性即插即用在特征提取效果显著微调模型的小技巧 2.核心思想本质上与人类视觉选择性注意力机制类似，从众多信息中选出对当前任务目标更为关键的信息。通过手段获取每张特征图…

人工智能 2023年7月5日
0056
pandas库的基本操作(一）

数据结构引入模块 import pandas as pd 序列Series：带标签(索引)的一维数组创建序列 d = {‘b’:1,’a’:0,’c’:3} # 参数为字典 s…

人工智能 2023年7月6日
0052
Gabor滤波器特征提取原理讲解及c++实现

文章目录 Gabor滤波器 * 复正弦载波高斯滤波参数解释 gabor滤波核实现效果： Gabor滤波器 1946年,Dennis Gabor于在”Theory …

人工智能 2023年6月20日
00112
【环形链表】

目录：前言一、相交链表 * （一）题目分析（二）题目代码二、环形链表 ① * （一）题目分析（二）题目代码三、环形链表 ② * （一）解法1 — 数学分析，…

人工智能 2023年6月26日
0076
YOLOv5解析 | 参数与性能指标

传参 conf_thres与 iou_thres均位于 detect.py文件当中 conf_thres：Confidence Threshold，置信度阈值，即以下图片上的值。 …

人工智能 2023年7月28日
0091
Image Super-Resolution via Iterative Refinement 论文解读和感想

随着20年DDPM的提出，近两年提出了大量基于Denoising Diffusion的图像处理模型，本文便是谷歌在21年 CVPR提出的基于Denoising Diffusion的…

人工智能 2023年6月25日
0096
解决CUDA error: no kernel image is available for execution on the device

1. 电脑配置 GPU 3080 算力8.6CUDA 11.1CUDNN 8.2.0conda 4.9.2python 3.8.5 2. 问题描述首先在pytroch官网根据电脑…

人工智能 2023年7月21日
0063
车流检测系统 tensorflow，车流统计系统源码

车流检测系统代码环境windows yolov3 deepsort tensorflow，车流统计系统源码，智能停车场，车流监控系统，智慧交通源码，该源码实现了统计双向车流计数的功…

人工智能 2023年5月24日
0056
pytorch 神经网络特征可视化

可参考博客 Pytorch可视化模型任意中间层的类激活热力图(Grad-CAM)_潜行隐耀的博客-CSDN博客_pytorch热力图 Pytorch输出网络中间层特征可视化_Jok…

人工智能 2023年7月12日
0057
思岚A1 上手教程

前言寒假在家闲着也是闲着，索性就向是实验室借了一个思岚 A1激光雷达，来进一步完成自己的实验室实习项目。经过一个月在Linux上和ROS上的摸爬滚打，我已经对机器人开发和SLAM…

人工智能 2023年6月10日
0065
一元线性回归决定系数_机器学习：模型训练和评估——回归模型评价

在使用statsmodels库建立回归模型时，使用summary()函数通常会输出下图的结果：图中包含模型的很多检验结果，这些结果就是用来对模型的好坏进行检验和评价的。下面我们…

人工智能 2023年6月18日
00113
数字图像处理第一次试验：图像的基本操作和基本统计指标计算

本书也是一本介绍图像_技术的教材，但它有不同的视点和方式。至少有两点值得指出：首先，作者完全采用了一种问答的形式来组织和介绍相关内容。全书从头到尾共设计了472个问题（很多是由…

人工智能 2023年6月20日
0089

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

BERT微调之单句文本分类

大家都在看