pytorch使用transformers库进行fine-tuning微调

2023年5月27日下午11:36 • 人工智能 • 阅读 89

说明

依照官网的使用文档，pytorch下使用transformers进行fine-tuning。

我基本全部都是按照文档来的。

注意:官网的例子基本是直接将模型或者数据集通过一行代码存到本地缓存中，但是需要翻墙。

我们也可以先把模型和数据集下载到本地，之后再从本地加载。我使用的是这种方式。

加载数据集

我们使用huggingface里自带的数据集，加载数据的多种方式可见教程。

教程里使用的是glue下的mrpc数据集，我们也使用该数据集。

手动下载数据集

但是在huggingface里带的数据集中找到的mrpc很小（感觉是个样例），我就自己从网上下载了mrpc数据集，下载地址。

下载完毕后，我使用了后缀是train和test的txt文件作为训练集和测试集，没分验证集。

手动加载数据集

加载数据集教程可见地址。

from datasets import load_dataset

raw_datasets = load_dataset('text', data_files={'train': 'MRPC/msr_paraphrase_train.txt',
                                                'test': 'MRPC/msr_paraphrase_test.txt'})

这样就把数据集加载完成了， MRPC/msr_paraphrase_train.txt这里写自己数据集的文件地址就行。

但是在加载时，报错：

ImportError: IProgress not found. Please update jupyter and ipywidgets.

See https://ipywidgets.readthedocs.io/en/stable/user_install.html

上网搜索，按照以下步骤解决：

conda install ipywidgets
jupyter nbextension enable --py widgetsnbextension

之后数据集成功加载完毕。数据集长这样：

DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 4077
    })
    test: Dataset({
        features: ['text'],
        num_rows: 1726
    })
})

但是，这数据集不是我们希望的样子。这里应该是需要写一些分割数据集之类的脚本，但是没时间搜了。

由于服务器连不上外网，我电脑能连。我就先用电脑下载下来正确的数据集，再传到服务器上。具体过程如下：

现在笔记本上下载下来正确的数据集，并保存在磁盘上。

from datasets import load_dataset

old_datasets = load_dataset("glue", "mrpc")
old_datasets.save_to_disk('data')

然后，把下载下来的文件夹传到服务器。
最后，在服务器上，加载数据集，这就和教程完全一样了。

import datasets
raw_datasets = datasets.DatasetDict()
raw_datasets = raw_datasets.load_from_disk('data')

查看数据集

可以看看数据集里的数据长啥样：

raw_train_dataset = raw_datasets["train"]
raw_train_dataset[0]

结果：

{'sentence1': 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .',
 'sentence2': 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .',
 'label': 1,
 'idx': 0}

可以看看数据集的特征：

print(raw_train_dataset.features)

结果：

{'sentence1': Value(dtype='string', id=None), 'sentence2': Value(dtype='string', id=None), 'label': ClassLabel(num_classes=2, names=['not_equivalent', 'equivalent'], names_file=None, id=None), 'idx': Value(dtype='int32', id=None)}

加载分词器tokenizer

下载模型并加载tokenizer

tokenizer和我们想要使用的模型需要一致，tokenizer可以理解为把我们的原始文本转换成数字，从而能够输入网络，这种转换有多种模式，理论部分可以查看教程。

我们使用的模型为 bert-base-uncased，还是手动下载并加载。

下载地址，可以使用git把整个库都下载下来，也可以只下载需要的。我下载了：

vacab.txt
tokenizer_config.json
tokenizer.json
config.json
pytorch_model.bin

下载的这些可能有部分文件用不到。下载之后将它们放入文件夹 bert-base-uncased中，并传给服务器。

通过以下代码加载tokenizer，py或者ipynb文件的同级目录下要有一个bert-base-uncased的文件夹，里面放着模型。

from transformers import BertTokenizer

model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)

可以试一下tokenizer的效果：

inputs = tokenizer("This is the first sentence.", "This is the second one.")
print(inputs)

{
    'input_ids': [101, 2023, 2003, 1996, 2034, 6251, 1012, 102, 2023, 2003, 1996, 2117, 2028, 1012, 102],
    'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1],
    'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}

tokenizer效果的具体讲解可见教程。

预处理数据集中的数据

由于数据集中也是两个句子和label，我们需要把两个句子也像上面一样预处理一下。

完整的预处理代码如下：

from transformers import DataCollatorWithPadding

def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

tokenized_datasets是预处理后的数据集，而 DataCollatorWithPadding是将数据集处理成批的工具（应该是，具体可见链接），并且会将数据整理成统一的长度（也就是该批最长的数据的长度）。与将数据整理成整个数据集最长数据的长度相比，整理成该批数据最长数据的长度显然更好。

训练

定义TrainingArguments、加载模型

首先定义一个TrainingArguments类，这里可以定义一些训练用的超参数。我们可以只定义模型的保存地址。具体参数可见文档。

from transformers import TrainingArguments

training_args = TrainingArguments("test-trainer")

接下来加载模型：

from transformers import BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)

这里还是从 本地文件里加载的模型。

加载Trainer

接下来就可以传递之前定义的很多参数，加载一个Trainer从而进行训练。

from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset = tokenized_datasets["train"],
    eval_dataset = tokenized_datasets["validation"],
    data_collator = data_collator,
    tokenizer = tokenizer,
)

之后就可以开始fine-tuning，也就是训练：

trainer.train()

引入评估

训练中只有loss的值，模型效果如何并不明显。因此我们需要为trainer引入能显示验证集准确率的东西。具体讲解可见文档，简单说就是定义一个计算验证集准确率的函数，并将其引入我们的trainer。

from datasets import load_metric

def compute_metrics(eval_preds):
    metric = load_metric("glue", "mrpc", mirror="tuna")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

metric = load_metric("glue", "mrpc", mirror="tuna")

这里还是需要翻墙，用了清华的镜像。或者还可以这样解决（我没试过）。

最后，开始训练：

trainer.train()

训练效果

Original: https://blog.csdn.net/qq_43219379/article/details/123156368
Author: eecspan
Title: pytorch使用transformers库进行fine-tuning微调

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528152/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

V2X方案之RSU介绍

目录 V2X方案之RSU RSU背景 RSU特点 RSU安全传输安全应用安全空口安全 OM 安全设备安全 RSU参数参考 RSU射频性能适配天线配件遵循标准 RSU功能…

人工智能 2023年6月10日
0098
解决YOLOV5出现全为nan和0的问题

yolov5训练时，出现系数为nan和0的问题。 cpu跑没有问题，gpu出现nan和0的问题。一般问题cuda问题和显卡的原因。显卡为GTX 16XX系列的在cuda使用较新版…

人工智能 2023年7月21日
0057
各种神经网络的应用领域,神经网络还有哪些应用

神经网络原理及应用神经网络原理及应用1.什么是神经网络？神经网络是一种模拟动物神经网络行为特征，进行分布式并行信息处理的算法。这种网络依靠系统的复杂程度，通过调整内部大量节点之…

人工智能 2023年7月13日
0063
到底什么是模型预测控制MPC（一）

为什么使用MPC控制在浏览文章的时候，很多文章都是基于MPC来做的。那么究竟什么是模型预测呢？模型预测也可以说是一种我们熟悉的反馈控制算法，其目的就是预测出未来的输出。以一个生…

人工智能 2023年6月1日
0082
无人机避障四种常见技术中，为何大疆首选双目视觉

已剪辑自: https://www.ednchina.com/news/20171211dji.html 近年来无人机市场飞速增长，避障技术作为增加无人机安全飞行的保障也随着技术的…

人工智能 2023年6月26日
0070
Python统计代码运行时间

Python统计代码运行时间前言方法1（推荐）：通过代码统计 * 说明步骤单位完整示例方法2：通过Pycharm编辑器前言 Python代码想统计运行时间有很多种方法…

人工智能 2023年7月4日
0073
【目标检测】Faster R-CNN

目录前言算法流程 * RPN(Region Proposal Network) anchor 训练数据采样 RPN Multi-task loss – 分类损失边…

人工智能 2023年7月10日
0082
【论文阅读】图神经网络应用在推荐系统中的挑战、方法、方向

文章目录文章信息推荐系统 * 工作流程 – pipeline Matching 召回阶段 Ranking 排序阶段 Re-ranking 再排序阶段场景 &#82…

人工智能 2023年7月14日
00116
论文《基于结构光和双目视觉的三维重建系统研究》摘要

《基于结构光和双目视觉的三维重建系统研究》-赵焕谦-哈工大一、引言 1、结构光的原理和优点结构光通过向待测物体表面投射光栅条纹图案来给物体增加特征信息，使得图像处理时，能够提取…

人工智能 2023年6月22日
0061
CASIA WebFace、WIDDER FACE、FDDB、AFLW、CelebA训练集详解

目录 CASIA-WebFace 简介优势缺点获取数据集 WIDDER FACE 简介优势缺点获取数据集 FFDB 简介优势缺点获取数据集 AFLW 简介优势 …

人工智能 2023年7月1日
0081
YOLOV5-断点训练/继续训练

YOLOV5-断点训练/继续训练情况：1.训练过程中中断了，继续训练2.训练完了，但是未收敛，在这个基础上，还想用这个权重、学习率等参数继续训练多一些批次 1. 训练过程中中断了…

人工智能 2023年6月23日
0069
图像插值算法：最近邻插值、双线性插值

插值算法：最近邻插值、双线性插值文章目录插值算法：最近邻插值、双线性插值 * 最近邻插值法（nearest_neighbor) 线性插值 – 单线性插值法双线性插…

人工智能 2023年6月26日
0084
Offboard 3D Object Detection From Point Cloud Sequences

声明原文链接摘要虽然当前的3D对象识别研究主要集中在实时车载场景中，但许多非车载感知用例在很大程度上没有得到充分的探索，例如使用机器自动生成高质量的3D标签。由于有限的输入和…

人工智能 2023年7月10日
0056
Matlab回归分析

线性回归：在实际中，对于情况较复杂的实际问题（因素不易化简，作用机理不详）可直接使用数据组建模，寻找简单的因果变量之间的数量关系，从而对未知的情形作预报。这样组建的模型为拟合模型…

人工智能 2023年6月16日
0075
【python】Django系列07-Django中的模板（第一讲）

🙋作者：爱编程的小贤⛳知识点:Django–模板🥇：每天学一点，早日成大佬文章目录 👊前言 🚀一、模板的定义 🚀二、配置模板引擎 * 1. 配置 2. 参数详解 – …

人工智能 2023年7月5日
0069
Linux 的CPU分析

CPU上下文切换，就是把前一个任务的CPU上下文（CPU寄存器和PC）保存起来，然后加载新任务的上下文到这些寄存器和程序计数器，最后再跳转到程序计数器所指的位置，运行新任务。其中，…

人工智能 2023年6月26日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31