huggingFace 中文模型实战——中文文本分类

2023年5月27日下午8:35 • 人工智能 • 阅读 78

学习了哔哩哔哩up主——兰斯诺特视频后做的学习笔记
代码网址 https://github.com/lansinuote/Huggingface_Toturials
upz主推荐书：《基于Bert的自然语言处理模型实战》

hugging face是一个开源社区提供了开源的nlp模型数据集和其他的工具
http//huggingface.co/datasets 数据集地址
http//huggingface.co/models 代码地址
http//huggingface.co/docs 官方文档
包含热门的数据集比如glue imdb wikitext等
主要的模型
自回归 GPT2 Transformer-XL XLNet
自编码：BERT ALBERT ROBERT ELECTRA
seq to seq :BARE Pegasus T5
安装环境：需要安装transformers datasets
1.字典和分词工具：tokenizer 加载tokenizer时要传入一个name
（1）如何加载预训练字典和分词方法
tokenizer = BertTokenizer.from_pretrained( pretrained_model_name_or_path=’thunlp/Lawformer’, cache_dir=None, force_download=False,)预训练字典分词模型就加载进去了

这里的pretrained_model要用huggingface中有的网址https://huggingface.co/models

sents = [ ”,]
tokenizer, sents
（2）简单的编码函数

编码两个句子

out = tokenizer.encode( text=sents[0], text_pair=sents[1], truncation=True, padding=’max_length’, add_special_tokens=True, max_length=30, return_tensors=None
print(out)
tokenizer.decode(out)

（3）增强编码函数：前面一样加入return_token_type_ids=True, #返回attention_mask return_attention_mask=True, #返回special_tokens_mask ，return_special_tokens_mask=True, for k, v in out.items(): print(k, ‘:’, v) tokenizer.decode(out[‘input_ids’])
（4）批量编码 out = tokenizer.batch_encode_plus(batch_text_or_text_pairs=[(sents[0], sents[1]), (sents[2], sents[3])],…）
(5)字典操作 #获取字典 zidian = tokenizer.get_vocab()，#添加新词tokenizer.add_tokens(new_tokens=[‘月光’, ‘希望’])

添加新符号 tokenizer.add_special_tokens({‘eos_token’: ‘[EOS]’})

2.数据集的操作
（1）加载数据集 from datasets import load_datasets #加载数据dataset = load_dataset(path=’seamew/ChnSentiCorp’, split=’train’)
(2)操作函数排序和打乱 #sort sorted_dataset = dataset.sort(‘label’)print(sorted_dataset[‘label’][:10])print(sorted_dataset[‘label’][-10:])

shuffle#打乱顺序shuffled_dataset = sorted_dataset.shuffle(seed=42)

select dataset.select([0, 10, 20, 30, 40, 50])

filterdef f(data): return data[‘text’].startswith(‘选择’) start_with_ar = dataset.filter(f) len(start_with_ar), start_with_ar[‘text’]

train_test_split, 切分训练集和测试集dataset.train_test_split(test_size=0.1)

from datasets import load_from_disk
dataset = load_dataset(path=’seamew/ChnSentiCorp’, split=’train’)

保存和加载dataset.save_to_disk(“./”)

dataset = load_from_disk(“./”)

导出为其他格式

dataset.to_csv(‘./datasets.csv’)

dataset.to_json(‘./datasets.json’)

实战任务：用bert实现中文分类问题
第一步首先要定义数据集
本次实战应用的数据集是ChnSentiCrop 情感分类数据集可以通过huggingface网站上导入具体实现过程是通过定义了一个Dataset的类来继承torch加载数据集的方法
通过load_dataset 将huggingface上的ChnSentiCorp数据集加载进入我们的模型，这里我们返回的是dataset的长度还有text 和label

第二步加载tokenizer 来加载字典和分词工具本次任务使用的分词工具是bert-base-chinese 和我们的预训练模型相匹配
huggingFace 中文模型实战——中文文本分类

第三步定义了一个批处理函数collate_fn，因为在训练和测试的时候我们需要对数据集中的数据一批一批的处理这些数据在这个函数中我们要进行分词和编码，然后把分词以后的结果input_ids, attention_mask, token_type_ids, labels取出来，用于后续处理这些数据这里这个函数返回的是input_ids, attention_mask, token_type_ids, labels这些数据
huggingFace 中文模型实战——中文文本分类

第四步是定义数据加载器并查看数据样本。每个批次有16个数据，用于将批次函数放入数据加载器。

[En]

The fourth step is to define a data loader and view the data samples. Each batch has 16 data to put the batch function into the data loader.

这里input_ids, attention_mask维度是16 _500（之前定义分词最大长度是500句子长度不够的在后面补0）这里loader长度为600是因为一共有9600个数据分为16批次以后数据被分成了600组需要加载600次

最后一步训练下游任务模型然后在测试集上进行测试，这里优化器我们选择的是AdamW 损失函数应用的是CrossEntropyLoss()把输出的out预测值和标签值labels进行CrossEntropyLoss计算，然后进行反向传播梯度计算

训练数据实验结果

Original: https://blog.csdn.net/qq_53536373/article/details/124012535
Author: 小杜今天学AI了吗
Title: huggingFace 中文模型实战——中文文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527619/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

字典和dataFrame的相互转换

字典和dataFrame的相互转换一、字典转dataFrame 1、字典转dataFrame比较简单，直接给出示例： import pandas as pd dic = { ‘n…

人工智能 2023年7月4日
00137
【python】Django系列Day04–Cookie和Session

🙋作者：爱编程的小贤⛳知识点:Django–cookie和session🥇：每天学一点，早日成大佬文章目录 👊前言 🎨一、Cookie * 1.状态保持 2.什么是cookie？…

人工智能 2023年7月6日
0070
05 【nodejs内置模块（上）】

1.nodejs 的官方API文档 Node.js 的API文档（英文）： https://nodejs.org/docs/latest-v8.x/api/index.html N…

人工智能 2023年6月29日
0058
【机器学习】二分类问题中的混淆矩阵、准确率、召回率等 (Python代码实现)

文章目录混淆矩阵召回率与准确率准确度Accuracy sklearn代码示例混淆矩阵混淆矩阵（Confusion Matrix）：将分类问题按照真实情况与判别情况两个维度…

人工智能 2023年6月15日
0072
Seurat对象数据结构整理-1

Seurat对象中的Assay: RNA数据槽：@counts:未作任何处理的原始 RNA表达矩阵。@data:原表达矩阵通过 NormalizeData()归一化消除测序文库差异…

人工智能 2023年5月31日
0073
YOLOv5简析

先说些题外话，YOLOv5没有论文，其作者是Mosaic Augmentation 的创造者，YOLO V5 在性能上稍弱于YOLO V4，但是在灵活性与速度上远强于YOLO V4…

人工智能 2023年5月26日
0075
1000个大数据/人工智能毕设选题推荐

前言正值毕业季我看到很多同学都在为自己的毕业设计发愁 Maynor在网上搜集了1000个大数据的毕设选题，希望对大家有帮助～适合大数据毕业设计的项目，完全可以作为本科生当前较新的…

人工智能 2023年7月25日
00260
图像生成——总结

评价指标 Inception Score（IS）计算这个 score 需要用到 Inception Net-V3，评价一个生成模型，需要考虑两个方面的性能：是否清晰。是否多样…

人工智能 2023年6月15日
0081
【JavaEE基础与高级第62章】Java中的XML介紹使用、XML的约束、XML的解析、XPath使用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月27日
0056
基于TensorFlow的深度学习（4）

人工智能 2023年5月26日
0066
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年6月23日
00130
python数据分析入门项目–分析全球五百强的数据

python数据分析入门项目–分析全球五百强的数据这里我用一个简单的简单数据分析入门项目，这里我就先不讲数据数据下载、抓取的问题，我直接给出CSV文件的链接，点击就可以下载。链接…

人工智能 2023年7月7日
0059
协同过滤算法中如何解决数据稀疏性问题

如何解决协同过滤算法中的数据稀疏性问题在协同过滤算法中，数据稀疏性是一个常见的问题。当用户评分矩阵中存在大量的缺失值时，算法的准确性和效果会受到很大的影响。为了解决这个问题，我们…

人工智能 2024年1月4日
0038
cv2.bitwise_and（）图像的与运算

定义 dst=cv2.bitwise_and（src1,src2[,mask]]）用法实现按位与运算 dst表示与输入值具有同样大小的array输出值。 src1表示第一个ar…

人工智能 2023年6月18日
0066
OpenCV基础（3）使用OpenCV调整图像大小

让我们学习如何使用OpenCV调整图像大小。要调整图像的大小，请根据指定的比例因素或设置所需的高度和宽度，沿着每个轴(高度和宽度)缩放图像。当调整图像大小: 如果你想在调整后的图像…

人工智能 2023年6月19日
0082
改进YOLOv7系列：首发结合最新Centralized Feature Pyramid集中特征金字塔，通过COCO数据集验证强势涨点

### 回答1：中心化特征金字塔_是一种用于目标检测的神经网络结构，它通过在不同层次上提取 _特征_来检测不同大小和形状的物体。中心化 _特征金字塔_可以在不同的尺度上进行…

人工智能 2023年7月26日
0048

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30