PaddleNLP加载数据集和自定义数据数据集

2023年6月25日下午9:35 • 人工智能 • 阅读 68

本文主要是讲解如何使用PaddleNLP中的

方法，包含如何加载内置数据集和自定义数据集。

快速加载内置数据集

以 msra_ner 数据集为例:

from paddlenlp.datasets import load_dataset

train_ds, test_ds = load_dataset("msra_ner", splits=("train", "test"))

load_dataset() 方法会从 paddlenlp.datasets 下找到 msra_ner数据集对应的数据读取脚本（默认路径：paddlenlp/datasets/msra_ner.py），并调用脚本中 DatasetBuilder 类的相关方法生成数据集。

生成数据集可以以 MapDataset 和 IterDataset 两种类型返回，分别是对 paddle.io.Dataset 和 paddle.io.IterableDataset 的扩展，只需在 load_dataset() 时设置 lazy 参数即可获取相应类型。 Flase 对应返回 MapDataset ， True 对应返回 IterDataset，默认值为 None，对应返回 DatasetBuilder 默认的数据集类型，大多数为 MapDataset 。

from paddlenlp.datasets import load_dataset
train_ds = load_dataset("msra_ner", splits="train")
print(type(train_ds))
<class 'paddlenlp.datasets.dataset.MapDataset'>
train_ds = load_dataset("msra_ner", splits="train", lazy=True)
print(type(train_ds))
<class 'paddlenlp.datasets.dataset.IterDataset'>

有些数据集是很多子数据集的集合，每个子数据集都是一个独立的数据集。例如 GLUE 数据集就包含COLA, SST2, MRPC, QQP等10个子数据集。

load_dataset() 方法提供了一个 name 参数用来指定想要获取的子数据集。使用方法如下：

from paddlenlp.datasets import load_dataset
train_ds, dev_ds = load_dataset("glue", name="cola", splits=("train", "dev"))

以内置数据集格式读取本地数据集

有的时候，我们希望使用数据格式与内置数据集相同的本地数据替换某些内置数据集的数据（例如参加 SQuAD竞赛，对训练数据进行了数据增强）。 load_dataset() 方法提供的 data_files 参数可以实现这个功能。以 SQuAD为例。

from paddlenlp.datasets import load_dataset
train_ds, dev_ds = load_dataset("squad", data_files=("my_train_file.json", "my_dev_file.json"))
test_ds = load_dataset("squad", data_files="my_test_file.json")

注解：
对于某些数据集，不同的split的读取方式不同。对于这种情况则需要在 splits 参数中以传入与 data_files 一一对应的split信息。此时 splits 不再代表选取的内置数据集，而代表以何种格式读取本地数据集。

下面以 COLA 数据集为例：

from paddlenlp.datasets import load_dataset
train_ds, test_ds = load_dataset("glue", "cola", splits=["train", "test"], data_files=["my_train_file.csv", "my_test_file.csv"])

另外需要注意数据集的是没有默认加载选项的， splits 和 data_files 必须至少指定一个。

从本地文件创建数据集

从本地文件创建数据集时，推荐根据本地数据集的格式给出读取function并传入 load_dataset() 中创建数据集。

以快递单信息抽取任务中的数据为例：

from paddlenlp.datasets import load_dataset

def read(data_path):
    with open(data_path, 'r', encoding='utf-8') as f:

        next(f)
        for line in f:
            words, labels = line.strip('\n').split('\t')
            words = words.split('\002')
            labels = labels.split('\002')
            yield {'tokens': words, 'labels': labels}

map_ds = load_dataset(read, data_path='train.txt',lazy=False)
iter_ds = load_dataset(read, data_path='train.txt',lazy=True)

推荐将数据读取代码写成生成器(generator)的形式，这样可以更好的构建 MapDataset 和 IterDataset 两种数据集。同时将单条数据写成字典的格式，这样也可以更方便的监测数据流向。

事实上， MapDataset 在绝大多数时候都可以满足要求。一般只有在数据集过于庞大无法一次性加载进内存的时候我们才考虑使用 IterDataset 。任何人都可以方便的定义属于自己的数据集。

Original: https://blog.csdn.net/weixin_55278528/article/details/123832370
Author: 阳光男孩小宁
Title: PaddleNLP加载数据集和自定义数据数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651631/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图神经网络（三）—GAT-pytorch版本代码详解

GCN代码详解-pytorch版本 1 GAT基本介绍 2 代码解析 * 2.1 导入数据 2.2 GAT模型框架 2.3 评估与训练参考资料写在前面… 在研究生的…

人工智能 2023年7月22日
0054
吴恩达机器学习打卡day6

本系列文档按课程视频的章节（P+第几集）进行分类，记录了学习时的一些知识点，方便自己复习。课程视频P54 图1 表示求导数的原理。图1 图2 将图1推广到有n个参数变量的情况。…

人工智能 2023年6月18日
0096
使用MySQL进行数据分析——以淘宝用户数据为例

使用MySQL进行数据分析——以淘宝用户数据为例背景介绍本文主要是练习使用 mysql 进行数据分析，结合 excel 进行可视化分析，数据来源为阿里云天池的淘宝用户数据集，本…

人工智能 2023年7月16日
0089
手把手教你使用YOLOV5训练自己的目标检测模型-口罩检测-视频教程

手把手教你使用YOLOV5训练自己的目标检测模型大家好，这里是肆十二（dejahu），好几个月没有更新了，这两天看了一下关注量，突然多了1k多个朋友关注，想必都是大作业系列教程来…

人工智能 2023年7月28日
0082
MySQL进阶-索引生效和设计的原则总结

本文是对索引学习的总结。索引失效的情况联合索引单列索引：当索引列时函数的参数时会失效。当字符串索引，没有加单引号当索引列模糊查询进行模糊头查询时。 or连接条件：用or…

人工智能 2023年6月29日
0056
30、JAVA进阶——Socket编程

✅作者简介：热爱国学的Java后端开发者，修心和技术同步精进。🍎个人主页：乐趣国学的博客🍊个人信条：不迁怒，不贰过。小知识，大智慧。 💞当前专栏：JAVA开发者成长之路✨特色专栏：…

人工智能 2023年6月21日
0099
【python】程序员最浪漫的表白方式，将情书写在她的照片里

前言大家早好、午好、晚好吖~ 这不光棍节快到了，表弟准备写一封情书给他的女神，想在光棍节之前脱单。为了提高成功率，于是跑来找我给他参谋参谋，本来我是不想理他的。不过谁让他是我…

人工智能 2023年7月6日
0055
Numpy数据类型

numpy 支持的数据类型比 Python 内置的类型要多很多，基本上可以和 C 语言的数据类型对应上，其中部分类型对应为 Python 内置的类型。下表列举了常用 NumPy 基…

人工智能 2023年6月26日
0080
ST-GCN源码分析

在上篇的blog中，写了一下对于ST-GCN论文的分析ST-GCN论文分析_Eric加油学！的博客-CSDN博客，这篇blog写一下对于ST-GCN源码的理解和整理，参考了一些写的…

人工智能 2023年6月17日
00176
pandas数据分析之分组聚合

pandas数据分析之分组聚合 * – 一、创建分组对象进行分组 – + 1、分组键为列名 + 2、分组键为字典或Series + 3、分组键为函数 &#8…

人工智能 2023年7月7日
0068
2021年研究生数学建模竞赛优秀论文汇总

竞赛题目一般来源于工程与管理等领域的实际问题，并经过提炼加工，不要求参赛者预先掌握深入的专门知识。面向全国研究生培养单位和企事业单位广泛征集竞赛命题，由专家委员会讨论最终确定。 …

人工智能 2023年7月27日
0062
IoU优化——在Anchor-Free中提升目标检测精度（附源码）

计算机视觉研究院专栏作者：Edison_G 目前的anchor-free目标检测器非常简单和有效，但缺乏精确的标签分配方法，这限制了它们与经典的基于Anchor的模型竞争的潜力 …

人工智能 2023年7月12日
0059
会声会影2022语音转文字功能怎么用

各位创作者您好，您知道视频编辑软件有升级版了吗？是的，它是2022版。与旧版本相比，我增加了很多新功能。我亲自试过了。这些都是很棒的功能。过来看一看。我会详细讲解如何使用慧声影业2…

人工智能 2023年5月23日
0065
【火灾检测】基于matlab GUI森林火灾检测系统（带面板）【含Matlab源码 1921期】

⛄一、火灾检测简介 1 引言目前森林火灾是破坏森林的最主要的灾害之一, 影响很大。森林是各种珍禽异兽的家园, 森林遭受火灾后, 会破坏野生动物赖以生存的环境。严重的森林火灾不仅能引…

人工智能 2023年6月20日
00107
机器学习实战-SVM模型实现人脸识别

文章目录 SVM建模进行人脸识别案例 * 1、导包 2、加载数据集 3、直接使用SVM模型建模 4、数据可视化 5、网络搜索优化确定最佳性能 6、使用最佳性能SVM建模 7、优化后…

人工智能 2023年7月27日
0080
#stata# 将string类型转变定类加入回归 contains nonnumeric characters； no generate

1问题描述 1）在stata中导入数据，我的tripType是string类型的变量，不能直接放到reg里边，会报错：tripType: string variables may …

人工智能 2023年6月17日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PaddleNLP加载数据集和自定义数据数据集

快速加载内置数据集

以内置数据集格式读取本地数据集

从本地文件创建数据集

大家都在看