PyTorch+BERT实现文本分类任务(少于80行代码)

2023年5月31日上午2:50 • 人工智能 • 阅读 94

本文主要介绍一个框架nlp-basictasks
nlp-basictasks是利用PyTorch深度学习框架所构建一个简单的库，旨在快速搭建模型完成一些基础的NLP任务，如分类、匹配、序列标注、语义相似度计算等。

下面利用该框架实现BERT模型做文本分类任务

导入包

import sys,os
import pandas as pd
import random
import numpy as np
from nlp_basictasks.tasks import cls
from nlp_basictasks.evaluation import clsEvaluator
from nlp_basictasks.readers.cls import getExamplesFromData
import nlp_basictasks
print(nlp_basictasks.__version__)

数据集介绍

数据集类型是微博情感分类
来源https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

获取数据

data_path='weibo_senti_100k.csv'
pd_all = pd.read_csv(data_path)

print('评论数目（总体）：%d' % pd_all.shape[0])
print('评论数目（正向）：%d' % pd_all[pd_all.label==1].shape[0])
print('评论数目（负向）：%d' % pd_all[pd_all.label==0].shape[0])

打乱数据集，同时划分训练、验证

print(len(pd_all))
random_idx=np.random.permutation(len(pd_all))
sentences=pd_all['review'].values[random_idx].tolist()
labels=pd_all['label'].values[random_idx].tolist()
print(len(sentences),len(labels))
random_idx=np.random.permutation(len(sentences))
label2id={'0':0,'1':1}
dev_ratio=0.2
dev_nums=int(len(sentences)*dev_ratio)
train_nums=len(sentences)-dev_nums
print(dev_nums)
train_sentences=sentences[:train_nums]
train_labels=labels[:train_nums]
dev_sentences=sentences[-dev_nums:]
dev_labels=labels[-dev_nums:]
train_examples,max_seq_len=getExamplesFromData(sentences=train_sentences,labels=train_labels,label2id=label2id,mode='train',return_max_len=True)
dev_examples=getExamplesFromData(sentences=dev_sentences,labels=dev_labels,label2id=label2id,mode='dev')

定义路径加载模型


model_path=''
print(max_seq_len)
max_seq_len=min(512,max_seq_len)
cls_model=cls(model_path=model_path,label2id=label2id,max_seq_length=max_seq_len,device='cuda')

定义dataloader和evaluator

from torch.utils.data import DataLoader
batch_size=32
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=batch_size)
evaluator=clsEvaluator(sentences=dev_sentences,label_ids=dev_labels,write_csv=False,label2id=label2id)

训练模型

output_path=''
cls_model.fit(is_pairs=False,train_dataloader=train_dataloader,evaluator=evaluator,output_path=output_path)

测试模型

predict_probs=cls_model.predict(is_pairs=False,dataloader=['这孩子真可爱','这人看起来像傻子似的'])
id2label={id_:label for label,id_ in label2id.items()}
predict_tags=[id2label[id_] for id_ in np.argmax(predict_probs,axis=1)]
print(predict_tags)

1代表正面情绪，0代表负面情绪

不用80行代码即可完成文本分类任务，相关教程见nlp-basictasks框架做文本分类任务，觉得好用的话还请点个star，谢谢

Original: https://blog.csdn.net/m0_45478865/article/details/120322988
Author: xhsun1997
Title: PyTorch+BERT实现文本分类任务(少于80行代码)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548063/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Facebook AI推出“杂食者”：一个模型解决图像、视频和3D数据三大分类任务，性能还不输独立模型

最近，Meta AI推出了这样一个 “杂食者” （Omnivore）模型，可以对不同视觉模态的数据进行分类，包括图像、视频和3D数据。喜欢记得关注、收…

人工智能 2023年7月2日
0088
WESAD：情绪分类多模态传感器数据集

数据集下载地址：https://ubicomp.eti.uni-siegen.de/home/datasets/icmi18/数据集对应代码链接：https://github.co…

人工智能 2023年7月2日
00143
C++ Reference: Standard C++ Library reference: C Library: cwctype: WEOF

C++官网参考链接：https://cplusplus.com/reference/cwctype/WEOF/ 常量 Original: https://blog.csdn.net…

人工智能 2023年6月29日
00110
手把手教你Ubuntu安装opencv c++和python，不成功来打我

如题一、换清华源参考教程：https://blog.csdn.net/qq_38690917/article/details/115029266完成后运行 sudo apt u…

人工智能 2023年6月19日
00100
【超详细】机器学习（西瓜书）第4章决策树知识详解

引入“这个瓜是好瓜吗？”我们对这样的问题进行决策时，通常会进行一系列的判断或子决策：我们先看”它是什么颜色？”如果它是”…

人工智能 2023年6月30日
0068
从数据预处理开始，用最简单的3D的CNN实现五折交叉验证的MRI图像二分类（pytorch）

文章目录前言一、将nii图像数据转成npy格式二、加载数据 * 1.加载数据，Dataset.py: 1.一些其他函数，utils.py: 二、建模 model.py 二、训…

人工智能 2023年7月1日
00123
Anaconda安装后spyder无法打开解决方法及出现的原因

之所以写是为了做记录安装了Anaconda后使用spyder是没有出现任何问题的，但在我在Anaconda3 Powrshell中使用pip install -U pip更新了p…

人工智能 2023年7月5日
00176
YOLOX目标检测实战：LabVIEW+YOLOX ONNX模型实现推理检测（含源码）

文章目录前言一、什么是YOLOX 二、环境搭建 * 1、部署本项目时所用环境： 2、LabVIEW工具包下载及安装：三、模型的获取与转化【推荐方式一】 * 1、方式一：直接在…

人工智能 2023年7月22日
0065
机器学习：基本流程

原文链接：https://blog.csdn.net/qq_27567859/article/details/79666969 简介：机器学习是一门多学科交叉专业，涵盖概率论知识，…

人工智能 2023年6月15日
0081
HIT机器学习实验三聚类R语言参考代码

library(scatterplot3d) 一键清空 rm(list=ls()) 打印颜色的函数 color Y Original: https://blog.csdn.net/…

人工智能 2023年6月2日
00104
RRT与RRT*算法具体步骤与程序详解（python）

提示：前面写了A*、Dijkstra算法文章目录前言一、RRT的原理与步骤二、RRT算法编写的步骤 * 1.算法步骤 2.算法的实现三、RRT*算法编写的步骤 * 1.算…

人工智能 2023年6月13日
0062
Yolo-FastestV2在树莓派4B上的MNN移植记录

致谢 Yolo-FastestV2 https://github.com/dog-qiuqiu/Yolo-FastestV2/，非常感谢作者的分享！模型准备首先，下载代码，根…

人工智能 2023年7月11日
0074
nlp-with-transformers实战-01_transformers简介

原文：https://www.oreilly.com/library/view/natural-language-processing/9781098103231/ch01.htm…

人工智能 2023年5月30日
0084
Python 大数据的进行信用卡欺诈检测（附源码与注释）

本案例可用于帮助大家对前面知识的掌握，同样也可以用于毕业设计等用途，我写文的初衷只是帮助大家对知识的掌握。一、背景和目的该数据集包含使用信用卡进行的金融交易的数据。这些数据是指…

人工智能 2023年7月16日
0061
Python制作词云

参考的视频教程：https://www.bilibili.com/video/BV1ut4y1S7gP?p=3 1. 环境 python3.9PyCharm 需要的模块如下： wo…

人工智能 2023年7月20日
0055
excel如何实现数据钻取

1.选中表格，power pivor下，点击【添加到数据模型】图片: 2、选择【关系图视图】 3.选中省份，右键点击【创建层次结构】，会生成绿框中的层次结构1（城市列需要点击城市字…

人工智能 2023年7月15日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PyTorch+BERT实现文本分类任务(少于80行代码)

获取数据

打乱数据集，同时划分训练、验证

大家都在看