【零基础-2】PaddlePaddle学习Bert

2023年5月28日下午12:53 • 大数据 • 阅读 72

概要

【零基础-1】PaddlePaddle学习Bert_ 一只博客-CSDN博客【零基础-2】PaddlePaddle学习Bert https://blog.csdn.net/qq_42276781/article/details/121488335 ;

Cell 3

调用bert模型用的tokenizer
tokenizer = ppnlp.transformers.BertTokenizer.from_pretrained('bert-base-chinese')
inputs_1 = tokenizer('今天天气真好')
print(inputs_1)
inputs_2 = tokenizer('明天会下雨吗')
print(inputs_2)

调用bert预训练分词工具，这里的bert-base-chinese，结合论文来看应该是bert-base的中文版。

具体情况可以参照文档。PaddleNLP Transformer API — PaddleNLP 文档【零基础-2】PaddlePaddle学习Bert https://paddlenlp.readthedocs.io/zh/latest/model_zoo/transformers.html?highlight=from_pretrained ;

tokenizer的主要工作应该是文本向量化，即把中文句子中的每个字转换成与其对应的数字编码，使得机器可以理解。

从输出结果来看，第一个id一定是101，最后一个id一定是102，剩下的id分别与单个汉字对应。对照两个输出结果，可以发现”天”对应的数字编码为1921，是固定的，并不会因为输入而改变。

Cell 4

输出训练集的前 10 条样本
for idx, example in enumerate(train_ds):
    if idx < 10:
        print(example)

这里的enumerate是python的内置函数，用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中，详见

Python enumerate() 函数 | 菜鸟教程 (runoob.com) 【零基础-2】PaddlePaddle学习Bert https://www.runoob.com/python/python-func-enumerate.html ;这段代码就是输出训练集中的前10个样本，看看里面的内容。

可以发现训练集中的样本没有qid，文本是对某个事物的评价，label为1表示该文本是正向评价，0表示该为本是负向评价。

Cell 5

超参数
EPOCHS = 10  # 训练的轮数
BATCH_SIZE = 8  # 批大小
MAX_LEN = 300  # 文本最大长度
LR = 1e-5  # 学习率
WARMUP_STEPS = 100  # 热身步骤
T_TOTAL = 1000  # 总步骤

这里是定义了一些参数，具体有什么用途我也不是很清楚。

Cell 6

将文本内容转化成模型所需要的token id
def convert_example(example, tokenizer, max_seq_length=512, is_test=False):
"""
    Builds model inputs from a sequence or a pair of sequence for sequence classification tasks
    by concatenating and adding special tokens. And creates a mask from the two sequences passed
    to be used in a sequence-pair classification task.

"""
    encoded_inputs = tokenizer(text=example["text"], max_seq_len=max_seq_length)
    input_ids = encoded_inputs["input_ids"]
    token_type_ids = encoded_inputs["token_type_ids"]

    if not is_test:
        label = np.array([example["label"]], dtype="int64")
        return input_ids, token_type_ids, label
    else:
        return input_ids, token_type_ids

这段代码的理解可以对照下面这个文档链接

PaddleNLP Transformer API — PaddleNLP 文档【零基础-2】PaddlePaddle学习Bert https://paddlenlp.readthedocs.io/zh/latest/model_zoo/transformers.html?highlight=convert_example#id2 ;Builds model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and adding special tokens. And creates a mask from the two sequences passed to be used in a sequence-pair classification task.

这段话大概是说，通过连接和添加特殊标记，从序列或序列对中构建模型for序列分类任务。并从传递的两个序列创建一个掩码，以用于序列对分类任务。

这里函数传入的tokenizer应该就是咱们在Cell 3里引入的tokenizer，max_seq_len就是分词器所能接收的最大句子长度，input_ids就是汉字对应的数字编码，token_type_ids暂时还不知的是什么意思。

is_test就是用来区分是否是测试集，如果不是就额外返回样本标签。

Original: https://blog.csdn.net/qq_42276781/article/details/121523268
Author: Toblerone_Wind
Title: 【零基础-2】PaddlePaddle学习Bert

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531634/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大数据学习笔记——————-(18)

第18章 KAFKA与SPARK集成 18.1Kafka与spark集成 Kafka是Spark流式传输潜在消息和集成的平台。Kafka充当实时数据流的中心枢纽，并使用Spark …

大数据 2023年5月26日
0079
数据仓库规范

大数据 2023年11月13日
0052
【计算几何】线段相交

问题描述：已知两条线段P1P2和Q1Q2，判断P1P2和Q1Q2是否相交，若相交，求出交点。两条线段的位置关系可以分为三类：有重合部分、无重合部分但有交点、无交点。算法的步骤如…

大数据 2023年5月28日
0072
redis的哈希槽为什么是16384个

为什么是 16384（2^14）个？在redis节点发送心跳包时需要把所有的槽放到这个心跳包里，以便让节点知道当前集群信息，16384=16k，在发送心跳包时使用bitmap压缩…

大数据 2023年6月3日
0076
Linux网络学习第五天

目录内容回顾学习目标线程池 UDP通信本地socket通信内容回顾 poll 输入和输出分离, 输入用events, 输出用revents epoll ET模式是写一次通…

大数据 2023年11月13日
0045
wf框架编程(设计器部分)

五、工作流设计器 1 Net 设计器基础框架 .net 设计器基础框架所在的命名空间是System.ComponentModel.Design ，而wf 、asp.net 、win…

大数据 2023年6月3日
0081
Android jetpack room 将外部数据库导入到本地数据库（附带创建Sqlite3的教程）

main目录下新建 assets目录并将数据库文件弄进来这个test.db使我们自己生成的。。如何生成。。首先你需要安装sqlite3 下载地址：https://www.sql…

大数据 2023年11月12日
0050
Sqlite安装使用及springboot整合

SQLite介绍什么是 SQLite SQLite是一款非常轻量级的关系数据库系统，支持多数SQL92标准。它不需要单独安装，类似于一个文本文件，又可以放置在项目内作为持久化数据…

大数据 2023年11月10日
0043
Kafka入门实战教程（7）：Kafka Streams

1 关于流处理流处理平台（Streaming Systems）是处理无限数据集（Unbounded Dataset）的数据处理引擎，而流处理是与批处理（Batch Proces…

大数据 2023年5月28日
0065
今日指数项目之项目介绍和数据采集【四】

大数据 2023年11月14日
0042
Hive之Map常用方法

实际工作中，有时会出现map复杂数据类型，字段field1形式如：{‘k0′:’abc’,’k1′:&#82…

大数据 2023年11月12日
0047
m3u8.sqlite文件转视频工具（开源免费）

m3u8.sqlite文件转视频工具（开源免费）我个人在txkt有相关课程，但是想下载下来放在离线设备上看。但是发现txkt的app下载下来的文件是m3u8.sqlite。然后就…

大数据 2023年11月10日
0038
去中心化的前端构建工具 — Vite

为什么要使用Vite 在浏览器中提供ES模块之前，开发人员没有以模块化方式编写JavaScript的本机机制。这就是为什么我们都很熟悉”捆绑”的概念:使用工…

大数据 2023年5月27日
0087
用react创建App本地数据库(详细)：cordova-plugin-sqlite-2

最近写的项目由于普通的页面缓存无法满足部分功能，于是我就找到了这个cordova-plugin-sqlite，接下来我将用这个插件详细演示如何用react从零到基本完成增、删、改、…

大数据 2023年11月10日
0040
Ubuntu 安装k8s集群

镜像下载、域名解析、时间同步请点击阿里云开源镜像站前言本文介绍如何在ubuntu上部署k8s集群，大致可以分为如下几个步骤修改ubuntu配置安装docker 安装kube…

大数据 2023年5月27日
0048
找不到合适好用的redis客户端工具？试试官方的客户端工具RedisInsight

大数据 2023年11月15日
0045

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【零基础-2】PaddlePaddle学习Bert

Cell 3

Cell 4

Cell 5

Cell 6

大家都在看