运行paddlenlp入门示例：训练与演算

2023年5月27日下午8:53 • 人工智能 • 阅读 101

环境

win10 + NVIDIA GeForce GTX 1660 Ti 6GB
python3.9
cuda 10.2
cudnn 7.6.5
paddlepaddle 2.2.0（已经搭建好GPU版本）

安装PaddleNLP

python -m pip install –upgrade paddlenlp -i https://pypi.org/simple

运行脚本

2.1 创建文件E:\Workspaces\python\nlp\pynlp_10min.py，添加以下内容

import paddlenlp as ppnlp
from paddlenlp.datasets import load_dataset

train_ds, dev_ds, test_ds = load_dataset(
    "chnsenticorp", splits=["train", "dev", "test"])

print(train_ds.label_list)

for data in train_ds.data[:5]:
    print(data)

设置想要使用模型的名称
MODEL_NAME = "ernie-1.0"

tokenizer = ppnlp.transformers.ErnieTokenizer.from_pretrained(MODEL_NAME)
ernie_model = ppnlp.transformers.ErnieModel.from_pretrained(MODEL_NAME)

import paddle

将原始输入文本切分token，
tokens = tokenizer._tokenize("请输入测试样例")
print("Tokens: {}".format(tokens))

token映射为对应token id
tokens_ids = tokenizer.convert_tokens_to_ids(tokens)
print("Tokens id: {}".format(tokens_ids))

拼接上预训练模型对应的特殊token ，如[CLS]、[SEP]
tokens_ids = tokenizer.build_inputs_with_special_tokens(tokens_ids)

转化成paddle框架数据格式
tokens_pd = paddle.to_tensor([tokens_ids])
print("Tokens : {}".format(tokens_pd))

此时即可输入ERNIE模型中得到相应输出
sequence_output, pooled_output = ernie_model(tokens_pd)
print("Token wise output: {}, Pooled output: {}".format(sequence_output.shape, pooled_output.shape))

一行代码完成切分token，映射token ID以及拼接特殊token
encoded_text = tokenizer(text="请输入测试样例")
for key, value in encoded_text.items():
    print("{}:\n\t{}".format(key, value))

转化成paddle框架数据格式
input_ids = paddle.to_tensor([encoded_text['input_ids']])
print("input_ids : {}".format(input_ids))
segment_ids = paddle.to_tensor([encoded_text['token_type_ids']])
print("token_type_ids : {}".format(segment_ids))

此时即可输入ERNIE模型中得到相应输出
sequence_output, pooled_output = ernie_model(input_ids, segment_ids)
print("Token wise output: {}, Pooled output: {}".format(sequence_output.shape, pooled_output.shape))

单句输入
single_seg_input = tokenizer(text="请输入测试样例")
句对输入
multi_seg_input = tokenizer(text="请输入测试样例1", text_pair="请输入测试样例2")

print("单句输入token (str): {}".format(tokenizer.convert_ids_to_tokens(single_seg_input['input_ids'])))
print("单句输入token (int): {}".format(single_seg_input['input_ids']))
print("单句输入segment ids : {}".format(single_seg_input['token_type_ids']))

print()
print("句对输入token (str): {}".format(tokenizer.convert_ids_to_tokens(multi_seg_input['input_ids'])))
print("句对输入token (int): {}".format(multi_seg_input['input_ids']))
print("句对输入segment ids : {}".format(multi_seg_input['token_type_ids']))

Highlight: padding到统一长度
encoded_text = tokenizer(text="请输入测试样例",  max_seq_len=15)

for key, value in encoded_text.items():
    print("{}:\n\t{}".format(key, value))

---------------------------------------------------------------------------------------------------
数据读入

from functools import partial
from paddlenlp.data import Stack, Tuple, Pad
import numpy as np

def convert_example(example,
                    tokenizer,
                    max_seq_length=512,
                    is_test=False):

    # 将原数据处理成model可读入的格式，enocded_inputs是一个dict，包含input_ids、token_type_ids等字段
    encoded_inputs = tokenizer(
        text=example["text"], max_seq_len=max_seq_length)

    # input_ids：对文本切分token后，在词汇表中对应的token id
    input_ids = encoded_inputs["input_ids"]
    # token_type_ids：当前token属于句子1还是句子2，即上述图中表达的segment ids
    token_type_ids = encoded_inputs["token_type_ids"]

    if not is_test:
        # label：情感极性类别
        label = np.array([example["label"]], dtype="int64")
        return input_ids, token_type_ids, label
    else:
        # qid：每条数据的编号
        qid = np.array([example["qid"]], dtype="int64")
        return input_ids, token_type_ids, qid
def create_dataloader(dataset,
                      trans_fn=None,
                      mode='train',
                      batch_size=1,
                      batchify_fn=None):

    if trans_fn:
        dataset = dataset.map(trans_fn)

    shuffle = True if mode == 'train' else False
    if mode == "train":
        sampler = paddle.io.DistributedBatchSampler(
            dataset=dataset, batch_size=batch_size, shuffle=shuffle)
    else:
        sampler = paddle.io.BatchSampler(
            dataset=dataset, batch_size=batch_size, shuffle=shuffle)
    dataloader = paddle.io.DataLoader(
        dataset, batch_sampler=sampler, collate_fn=batchify_fn)
    return dataloader

模型运行批处理大小
batch_size = 8     # 32
max_seq_length = 128

trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment
    Stack(dtype="int64")  # label
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

---------------------------------------------------------------------------------------------------
PaddleNLP一键加载预训练模型

ernie_model = ppnlp.transformers.ErnieModel.from_pretrained(MODEL_NAME)
model = ppnlp.transformers.ErnieForSequenceClassification.from_pretrained(MODEL_NAME, num_classes=len(train_ds.label_list))

---------------------------------------------------------------------------------------------------
设置Fine-Tune优化策略，接入评价指标

from paddlenlp.transformers import LinearDecayWithWarmup

训练过程中的最大学习率
learning_rate = 5e-5
训练轮次
epochs = 1 #3
学习率预热比例
warmup_proportion = 0.1
权重衰减系数，类似于模型的正则化策略，避免了模型的过拟合<details><summary>*<font color='gray'>[En]</font>*</summary>*<font color='gray'>Weight attenuation coefficient, similar to model regularization strategy to avoid over-fitting of the model</font>*</details>
weight_decay = 0.01

num_training_steps = len(train_data_loader) * epochs
lr_scheduler = LinearDecayWithWarmup(learning_rate, num_training_steps, warmup_proportion)
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=weight_decay,
    apply_decay_param_fun=lambda x: x in [
        p.name for n, p in model.named_parameters()
        if not any(nd in n for nd in ["bias", "norm"])
    ])

criterion = paddle.nn.loss.CrossEntropyLoss()
metric = paddle.metric.Accuracy()

---------------------------------------------------------------------------------------------------
模型训练与评估
import paddle.nn.functional as F
def evaluate(model, criterion, metric, data_loader):
    model.eval()
    metric.reset()
    losses = []
    for batch in data_loader:
        input_ids, token_type_ids, labels = batch
        logits = model(input_ids, token_type_ids)
        loss = criterion(logits, labels)
        losses.append(loss.numpy())
        correct = metric.compute(logits, labels)
        metric.update(correct)
        accu = metric.accumulate()
    # print("eval loss: %.5f, accu: %.5f" % (np.mean(losses), accu))
    model.train()
    metric.reset()
    return  np.mean(losses), accu

global_step = 0
for epoch in range(1, epochs + 1):
    for step, batch in enumerate(train_data_loader, start=1):
        input_ids, segment_ids, labels = batch
        logits = model(input_ids, segment_ids)
        loss = criterion(logits, labels)
        probs = F.softmax(logits, axis=1)
        correct = metric.compute(probs, labels)
        metric.update(correct)
        acc = metric.accumulate()

        global_step += 1
        if global_step % 10 == 0 :
            print("global step %d, epoch: %d, batch: %d, loss: %.5f, acc: %.5f" % (global_step, epoch, step, loss, acc))
        loss.backward()
        optimizer.step()
        lr_scheduler.step()
        optimizer.clear_grad()
    evaluate(model, criterion, metric, dev_data_loader)

model.save_pretrained('E:\\Workspaces\\python\\nlp\\checkpoint')
tokenizer.save_pretrained('E:\\Workspaces\\python\\nlp\\checkpoint')

---------------------------------------------------------------------------------------------------
模型预测
from utils import predict

data = [
    {"text":'这个宾馆比较陈旧了，特价的房间也很一般。总体来说一般'},
    {"text":'怀着十分激动的心情放映，可是看着看着发现，在放映完毕后，出现一集米老鼠的动画片'},
    {"text":'作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。'},
]
label_map = {0: 'negative', 1: 'positive'}

results = predict(
    model, data, tokenizer, label_map, batch_size=batch_size)
for idx, text in enumerate(data):
    print('Data: {} \t Lable: {}'.format(text, results[idx]))

2.2 创建文件E:\Workspaces\python\nlp\utils.py，添加以下内容

import numpy as np
import paddle
import paddle.nn.functional as F
from paddlenlp.data import Stack, Tuple, Pad

def predict(model, data, tokenizer, label_map, batch_size=1):
"""
    Predicts the data labels.

    Args:
        model (obj:paddle.nn.Layer): A model to classify texts.

        data (obj:List(Example)): The processed data whose each element is a Example (numedtuple) object.

            A Example object contains text(word_ids) and se_len(sequence length).

        tokenizer(obj:PretrainedTokenizer): This tokenizer inherits from :class:~paddlenlp.transformers.PretrainedTokenizer
            which contains most of the methods. Users should refer to the superclass for more information regarding methods.

        label_map(obj:dict): The label id (key) to label str (value) map.

        batch_size(obj:int, defaults to 1): The number of batch.

    Returns:
        results(obj:dict): All the predictions labels.

"""
    examples = []
    for text in data:
        input_ids, segment_ids = convert_example(
            text,
            tokenizer,
            max_seq_length=128,
            is_test=True)
        examples.append((input_ids, segment_ids))

    batchify_fn = lambda samples, fn=Tuple(
        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input id
        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # segment id
    ): fn(samples)

    # Seperates data into some batches.

    batches = []
    one_batch = []
    for example in examples:
        one_batch.append(example)
        if len(one_batch) == batch_size:
            batches.append(one_batch)
            one_batch = []
    if one_batch:
        # The last batch whose size is less than the config batch_size setting.

        batches.append(one_batch)

    results = []
    model.eval()
    for batch in batches:
        input_ids, segment_ids = batchify_fn(batch)
        input_ids = paddle.to_tensor(input_ids)
        segment_ids = paddle.to_tensor(segment_ids)
        logits = model(input_ids, segment_ids)
        probs = F.softmax(logits, axis=1)
        idx = paddle.argmax(probs, axis=1).numpy()
        idx = idx.tolist()
        labels = [label_map[i] for i in idx]
        results.extend(labels)
    return results

@paddle.no_grad()
def evaluate(model, criterion, metric, data_loader):
"""
    Given a dataset, it evals model and computes the metric.

    Args:
        model(obj:paddle.nn.Layer): A model to classify texts.

        data_loader(obj:paddle.io.DataLoader): The dataset loader which generates batches.

        criterion(obj:paddle.nn.Layer): It can compute the loss.

        metric(obj:paddle.metric.Metric): The evaluation metric.

"""
    model.eval()
    metric.reset()
    losses = []
    for batch in data_loader:
        input_ids, token_type_ids, labels = batch
        logits = model(input_ids, token_type_ids)
        loss = criterion(logits, labels)
        losses.append(loss.numpy())
        correct = metric.compute(logits, labels)
        metric.update(correct)
        accu = metric.accumulate()
    print("eval loss: %.5f, accu: %.5f" % (np.mean(losses), accu))
    model.train()
    metric.reset()

def convert_example(example, tokenizer, max_seq_length=512, is_test=False):
"""
    Builds model inputs from a sequence or a pair of sequence for sequence classification tasks
    by concatenating and adding special tokens. And creates a mask from the two sequences passed
    to be used in a sequence-pair classification task.

    A BERT sequence has the following format:

    - single sequence: [CLS] X [SEP]
    - pair of sequences: [CLS] A [SEP] B [SEP]

    A BERT sequence pair mask has the following format:
    ::
        0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
        | first sequence    | second sequence |

    If only one sequence, only returns the first portion of the mask (0's).

    Args:
        example(obj:list[str]): List of input data, containing text and label if it have label.

        tokenizer(obj:PretrainedTokenizer): This tokenizer inherits from :class:~paddlenlp.transformers.PretrainedTokenizer
            which contains most of the methods. Users should refer to the superclass for more information regarding methods.

        max_seq_len(obj:int): The maximum total input sequence length after tokenization.

            Sequences longer than this will be truncated, sequences shorter will be padded.

        is_test(obj:False, defaults to False): Whether the example contains label or not.

    Returns:
        input_ids(obj:list[int]): The list of token ids.

        token_type_ids(obj: list[int]): List of sequence pair mask.

        label(obj:numpy.array, data type of int64, optional): The input label if not is_test.

"""
    encoded_inputs = tokenizer(text=example["text"], max_seq_len=max_seq_length)
    input_ids = encoded_inputs["input_ids"]
    token_type_ids = encoded_inputs["token_type_ids"]

    if not is_test:
        label = np.array([example["label"]], dtype="int64")
        return input_ids, token_type_ids, label
    else:
        return input_ids, token_type_ids

def create_dataloader(dataset,
                      mode='train',
                      batch_size=1,
                      batchify_fn=None,
                      trans_fn=None):
    if trans_fn:
        dataset = dataset.map(trans_fn)

    shuffle = True if mode == 'train' else False
    if mode == 'train':
        batch_sampler = paddle.io.DistributedBatchSampler(
            dataset, batch_size=batch_size, shuffle=shuffle)
    else:
        batch_sampler = paddle.io.BatchSampler(
            dataset, batch_size=batch_size, shuffle=shuffle)

    return paddle.io.DataLoader(
        dataset=dataset,
        batch_sampler=batch_sampler,
        collate_fn=batchify_fn,
        return_list=True)

运行结果

小结

4.1 缺少了utils.py，在参考[3]中找到了。

4.2 当GPU内存不够用时候，需要将batch_size降低。原本batch_size是32的，我的GPU顶不住，改为8，可以顺利运行本示例。

参考

参考[1]，10分钟完成高精度中文情感分析
https://paddlenlp.readthedocs.io/zh/latest/get_started/quick_start.html
参考[2]，超简单【推特文本情感13分类练习赛】高分baseline
https://blog.csdn.net/weixin_41450123/article/details/120520141?spm=1001.2014.3001.5501
参考[3]，『NLP经典项目集』02：使用预训练模型ERNIE优化情感分析，https://blog.csdn.net/qq_15821487/article/details/117123555

Original: https://blog.csdn.net/qq_27158179/article/details/124333018
Author: qq_27158179
Title: 运行paddlenlp入门示例：训练与演算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527677/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv3详解

文章目录前言一、YOLOv3网络模型分析 * 1.Backbone： Darknet-53 2.FPN 3.Yolo Head 二、anchor网格偏移量预测三、正负样本匹配…

人工智能 2023年6月16日
0056
CUDA（10.2）＋PyTorch安装加配置详细完整教程

以下均为博主亲测的可靠流程，其中有一些我遇到的问题及解决方法，希望能帮到大家，不再踩坑，也欢迎大家交流遇到的问题和配置方法。 CUDA（10.2）＋PyTorch安装加配置详细完…

人工智能 2023年6月23日
00151
底层实现dropout——【torch学习笔记】

实现dropout dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个…

人工智能 2023年7月14日
0062
乐吾乐le5le-Topology为智慧水务可视化赋能（二）

►前言智慧水务可视化是运用物联网、5G、大数据等数字化手段，通过建模和组态，能实现远程对现场能控制和查看实时的数据和状态的可视化功能，在抗洪救灾、城市供水、养殖产业、航运旅游、农…

人工智能 2023年6月26日
0076
dataframe在行数据后面追加数据（concat)

现有两组dataframe数据：数据1：（68，240）数据2：（68，128）目的：将数据1和数据2 按照正确的行追加数据，也就是说想转为（68，240+128）的数据【…

人工智能 2023年7月7日
0070
Pandas | value_counts() 的详细用法

value_counts() 函数得作用用来统计数据表中，指定列里有多少个不同的数据值，并计算每个不同值有在该列中的个数，同时还能根据指定得参数返回排序后结果。返回得是 Seri…

人工智能 2023年7月5日
00107
我，30岁，放弃国企稳定的工作，转行数据分析，老婆要和我离婚

30岁，放弃国企稳定的工作，选择转行数据分析！很多人问我会不会后悔？说实话，决定要转行那会我也犹豫过、迷茫过，但是现在我很庆幸自己当初的抉择。在决定转行之前，很多亲朋好友听说…

人工智能 2023年7月18日
0070
MATLAB学习笔记 imagesc函数使用

### 回答1： matlab_中的 _image sc 函数_用于绘制二维图像，其语法为： _image sc(C)，其中C是一个矩阵。它会将矩阵中的每个元素映射到一个颜色上，并…

人工智能 2023年6月17日
0087
人工智能大体浏览（机器学习，回归分类算法，神经网络等）

文章目录人工智能 * 1、人工智能是什么，如何学习人工智能 2、三个学派概括 – + ==连接主义== 3、范围 3、GAN(生成对抗网络) 4、深度学习软件 5、人…

人工智能 2023年6月17日
0079
大数据课程项目：基于Spark的热门品类Top10分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月19日
0080
分类模型评价指标汇总（持续更新）

0 Previously 这里列的评价指标都是针对分类问题，回归问题则是利用MSE、RMSE等来评价，之后会陆续进行总结~ 1 准确率、精准率、召回率、F1值 1.1 定义定义一…

人工智能 2023年7月1日
0093
机器学习数据集读取和预处理

本文以干豆数据集为例，数据集下载位置如下：干豆数据集 import pandas as pd import sklearn import numpy as np 数据读取与预处理 …

人工智能 2023年6月16日
00193
Anaconda下的tensorflow-gpu2.6.0安装使用

引言：本次安装全部是在window下安装的虚拟环境，电脑显卡为1650ti，给相同配置的朋友一点参考，也给自己记录一下整体过程。 1.创建虚拟环境在已经安装anaconda的情况…

人工智能 2023年5月23日
0080
【OpenCV 例程200篇】224. 特征提取之提取骨架

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程 300篇】224. 特征提取之提取骨架目标特征的基本概念通过图像分割获得多个区域，得到区域内的像素…

人工智能 2023年6月17日
0071
KG-网安

论文解读 Review on the Application of Knowledge Graph in Cyber Security Assessment 知识图谱在网络安全评估…

人工智能 2023年6月1日
0085
Windows上运行fairseq踩坑及记录

1. 目的及数据集 2. 命令行运行工具 3. 环境 4.安装fairseq 5. 开始训练 5.1 二值化原数据 5.2 训练 6. 解码以及翻译 6.1 解码 6.2 翻译 6…

人工智能 2023年5月28日
00215

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

运行paddlenlp入门示例：训练与演算

2.1 创建文件E:\Workspaces\python\nlp\pynlp_10min.py，添加以下内容

2.2 创建文件E:\Workspaces\python\nlp\utils.py，添加以下内容

大家都在看