pytorch-textclassification是一个专注于中文文本分类（多类分类、多标签分类）的轻量级自然语言处理工具包，基于pytorch和transformers，包含各种实验

2023年7月2日下午2:25 • 人工智能 • 阅读 82

pytorch-textclassification是一个以pytorch和transformers为基础，专注于文本分类的轻量级自然语言处理工具包。支持中文长文本、短文本的多类分类和多标签分类。

数据
使用方式
paper
参考

数据来源

所有数据集均来源于网络，只做整理供大家提取方便，如果有侵权等问题，请及时联系删除。

baidu_event_extract_2020, 项目以 2020语言与智能技术竞赛：事件抽取任务中的数据作为多分类标签的样例数据，借助多标签分类模型来解决, 共13456个样本, 65个类别;
AAPD-dataset, 数据集出现在论文-SGM: Sequence Generation Model for Multi-label Classification, 英文多标签分类语料, 共55840样本, 54个类别;
toutiao-news, 今日头条新闻标题, 多标签分类语料, 约300w-语料, 1000+类别;
unknow-data, 来源未知, 多标签分类语料, 约22339语料, 7个类别;
SMP2018中文人机对话技术评测（ECDT）, SMP2018 中文人机对话技术评测（SMP2018-ECDT）比赛语料, 短文本意图识别语料, 多类分类, 共3069样本, 31个类别;
文本分类语料库（复旦）语料, 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的新闻语料, 多类分类语料, 共9804篇文档，分为20个类别。
MiningZhiDaoQACorpus, 中国科学院软件研究所刘焕勇整理的问答语料, 百度知道问答语料, 可以把领域当作类别, 多类分类语料, 100w+样本, 共17个类别;
THUCNEWS, 清华大学自然语言处理实验室整理的语料, 新浪新闻RSS订阅频道2005-2011年间的历史数据筛选, 多类分类语料, 74w新闻文档, 14个类别;
IFLYTEK, 科大讯飞开源的长文本分类语料, APP应用描述的标注数据，包含和日常生活相关的各类应用主题, 链接为CLUE, 共17333样例, 119个类别;
TNEWS, 今日头条提供的中文新闻标题分类语料, 数据集来自今日头条的新闻版块, 链接为CLUE, 共73360样例, 15个类别;

数据格式

1. &#x6587;&#x672C;&#x5206;&#x7C7B;  (txt&#x683C;&#x5F0F;, &#x6BCF;&#x884C;&#x4E3A;&#x4E00;&#x4E2A;json):

1.1 &#x591A;&#x7C7B;&#x5206;&#x7C7B;&#x683C;&#x5F0F;:
{"text": "&#x4EBA;&#x7AD9;&#x5728;&#x5730;&#x7403;&#x4E0A;&#x4E3A;&#x4EC0;&#x4E48;&#x6CA1;&#x6709;&#x5934;&#x671D;&#x4E0B;&#x7684;&#x611F;&#x89C9;", "label": "&#x6559;&#x80B2;"}
{"text": "&#x6211;&#x7684;&#x5C0F;baby", "label": "&#x5A31;&#x4E50;"}
{"text": "&#x8BF7;&#x95EE;&#x8FD9;&#x8D77;&#x4EA4;&#x901A;&#x4E8B;&#x6545;&#x662F;&#x8C01;&#x7684;&#x8D23;&#x4EFB;&#x5C45;&#x591A;&#x5C0F;&#x8F66;&#x548C;&#x6469;&#x6258;&#x8F66;&#x53D1;&#x751F;&#x4E8B;&#x6545;&#x5728;&#x65E0;&#x7EA2;&#x7EFF;&#x706F;", "label": "&#x5A31;&#x4E50;"}

1.2 &#x591A;&#x6807;&#x7B7E;&#x5206;&#x7C7B;&#x683C;&#x5F0F;:
{"label": "3|myz|5", "text": "&#x8BFE;&#x5802;&#x641E;&#x4E1C;&#x897F;&#xFF0C;&#x6CA1;&#x8BA4;&#x771F;&#x542C;"}
{"label": "3|myz|2", "text": "&#x6D4B;&#x9A8C;90-94.A-"}
{"label": "3|myz|2", "text": "&#x957F;&#x6C5F;&#x4F5C;&#x4E1A;&#x672A;&#x4EA4;"}

更多样例sample详情见test/tc目录

文本分类(TC), Text-Classification


import platform
import json
import sys
import os
path_root = os.path.abspath(os.path.join(os.path.dirname(__file__), "../.."))
sys.path.append(os.path.join(path_root, "pytorch_textclassification"))
print(path_root)

from tcTools import get_current_time
from tcRun import TextClassification
from tcConfig import model_config

evaluate_steps = 320
save_steps = 320

pretrained_model_name_or_path = "bert-base-chinese"

path_corpus = os.path.join(path_root, "corpus", "text_classification", "school")
path_train = os.path.join(path_corpus, "train.json")
path_dev = os.path.join(path_corpus, "dev.json")

if __name__ == "__main__":

    model_config["evaluate_steps"] = evaluate_steps
    model_config["save_steps"] = save_steps
    model_config["path_train"] = path_train
    model_config["path_dev"] = path_dev
    model_config["path_tet"] = None

    model_config["path_tet"] = "FOCAL_LOSS"
    os.environ["CUDA_VISIBLE_DEVICES"] = str(model_config["CUDA_VISIBLE_DEVICES"])

    model_config["pretrained_model_name_or_path"] = pretrained_model_name_or_path
    model_config["model_save_path"] = "../output/text_classification/model_{}".format(model_type[idx])
    model_config["model_type"] = "BERT"

    lc = TextClassification(model_config)
    lc.process()
    lc.train()

文本分类(TC), Text-Classification

This library is inspired by and references following frameworks and papers.

For citing this work, you can refer to the present GitHub project. For example, with BibTeX:

@software{Pytorch-NLU,
    url = {https://github.com/yongzhuo/Pytorch-NLU},
    author = {Yongzhuo Mo},
    title = {Pytorch-NLU},
    year = {2021}

*希望对你有所帮助!

              precision    recall  f1-score   support

   micro_avg     0.7920    0.7189    0.7537       466    MARGIN_LOSS
   micro_avg     0.6706    0.8519    0.7505       466    PRIOR-MARGIN_LOSS
   micro_avg     0.8258    0.6309    0.7153       466    FOCAL_LOSS&#x3010;0.5, 2&#x3011;
   micro_avg     0.7890    0.7382    0.7627       466    CIRCLE_LOSS
   micro_avg     0.7612    0.7661    0.7636       466    DICE_LOSS&#x3010;&#x76F4;&#x63A5;&#x5B66;&#x4E60;F1?&#x3011;
   micro_avg     0.8062    0.7232    0.7624       466    BCE
   micro_avg     0.7825    0.7103    0.7447       466    BCE-Logits
   micro_avg     0.7899    0.7017    0.7432       466    BCE-smooth
   micro_avg     0.7235    0.8197    0.7686       466    FOCAL_LOSS&#x3010;0.5, 2&#x3011; + PRIOR-MARGIN_LOSS / 2

              precision    recall  f1-score   support

   macro_avg     0.6198    0.5338    0.5641       466    MARGIN_LOSS
   macro_avg     0.5103    0.7200    0.5793       466    PRIOR-MARGIN_LOSS
   macro_avg     0.7655    0.4973    0.5721       466    FOCAL_LOSS&#x3010;0.5, 2&#x3011;
   macro_avg     0.6275    0.5235    0.5627       466    CIRCLE_LOSS
   macro_avg     0.4287    0.3918    0.4025       466    DICE_LOSS&#x3010;&#x76F4;&#x63A5;&#x5B66;&#x4E60;F1?&#x3011;
   macro_avg     0.6978    0.5158    0.5828       466    BCE
   macro_avg     0.6046    0.5123    0.5433       466    BCE-Logits
   macro_avg     0.6963    0.5012    0.5721       466    BCE-smooth
   macro_avg     0.6033    0.6809    0.6369       466    FOCAL_LOSS&#x3010;0.5, 2&#x3011; + PRIOR-MARGIN_LOSS / 2

              precision    recall  f1-score   support

           3     0.8102    0.7919    0.8009       221
           2     0.8030    0.8030    0.8030       132
           1     0.7333    0.4925    0.5893        67
           6     0.7143    0.5000    0.5882        10
           5     0.7778    0.4828    0.5957        29
           0     0.0000    0.0000    0.0000         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.7920    0.7189    0.7537       466
   macro_avg     0.6198    0.5338    0.5641       466
weighted_avg     0.7841    0.7189    0.7454       466

              precision    recall  f1-score   support

           3     0.7279    0.8959    0.8032       221
           2     0.7039    0.9545    0.8103       132
           1     0.5897    0.6866    0.6345        67
           6     0.3333    0.5000    0.4000        10
           5     0.6296    0.5862    0.6071        29
           0     0.1875    0.7500    0.3000         4
           4     0.4000    0.6667    0.5000         3

   micro_avg     0.6706    0.8519    0.7505       466
   macro_avg     0.5103    0.7200    0.5793       466
weighted_avg     0.6799    0.8519    0.7538       466

              precision    recall  f1-score   support

           3     0.8482    0.7330    0.7864       221
           2     0.8349    0.6894    0.7552       132
           1     0.7586    0.3284    0.4583        67
           6     0.6667    0.4000    0.5000        10
           5     0.7500    0.4138    0.5333        29
           0     1.0000    0.2500    0.4000         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.8258    0.6309    0.7153       466
   macro_avg     0.7655    0.4973    0.5721       466
weighted_avg     0.8206    0.6309    0.7038       466

              precision    recall  f1-score   support

           3     0.8125    0.8235    0.8180       221
           2     0.7914    0.8333    0.8118       132
           1     0.7333    0.4925    0.5893        67
           6     0.6667    0.4000    0.5000        10
           5     0.7222    0.4483    0.5532        29
           0     0.0000    0.0000    0.0000         4
           4     0.6667    0.6667    0.6667         3

   micro_avg     0.7890    0.7382    0.7627       466
   macro_avg     0.6275    0.5235    0.5627       466
weighted_avg     0.7785    0.7382    0.7521       466

              precision    recall  f1-score   support

           3     0.7714    0.8552    0.8112       221
           2     0.7727    0.9015    0.8322       132
           1     0.7347    0.5373    0.6207        67
           6     0.0000    0.0000    0.0000        10
           5     0.7222    0.4483    0.5532        29
           0     0.0000    0.0000    0.0000         4
           4     0.0000    0.0000    0.0000         3

   micro_avg     0.7612    0.7661    0.7636       466
   macro_avg     0.4287    0.3918    0.4025       466
weighted_avg     0.7353    0.7661    0.7441       466

              precision    recall  f1-score   support

           3     0.8136    0.8100    0.8118       221
           2     0.8029    0.8333    0.8178       132
           1     0.8235    0.4179    0.5545        67
           6     0.6667    0.4000    0.5000        10
           5     0.7778    0.4828    0.5957        29
           0     0.0000    0.0000    0.0000         4
           4     1.0000    0.6667    0.8000         3

   micro_avg     0.8062    0.7232    0.7624       466
   macro_avg     0.6978    0.5158    0.5828       466
weighted_avg     0.8009    0.7232    0.7493       466


              precision    recall  f1-score   support

           3     0.7973    0.8009    0.7991       221
           2     0.8000    0.7879    0.7939       132
           1     0.7317    0.4478    0.5556        67
           6     0.6667    0.4000    0.5000        10
           5     0.7368    0.4828    0.5833        29
           0     0.0000    0.0000    0.0000         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.7825    0.7103    0.7447       466
   macro_avg     0.6046    0.5123    0.5433       466
weighted_avg     0.7733    0.7103    0.7344       466

              precision    recall  f1-score   support

           3     0.7945    0.7873    0.7909       221
           2     0.8120    0.8182    0.8151       132
           1     0.7027    0.3881    0.5000        67
           6     0.8000    0.4000    0.5333        10
           5     0.7647    0.4483    0.5652        29
           0     0.0000    0.0000    0.0000         4
           4     1.0000    0.6667    0.8000         3

   micro_avg     0.7899    0.7017    0.7432       466
   macro_avg     0.6963    0.5012    0.5721       466
weighted_avg     0.7790    0.7017    0.7296       466

           &#x3010;1/2&#x3011;
              precision    recall  f1-score   support

           3     0.7640    0.8643    0.8110       221
           2     0.7205    0.8788    0.7918       132
           1     0.6620    0.7015    0.6812        67
           6     0.4167    0.5000    0.4545        10
           5     0.7600    0.6552    0.7037        29
           0     0.4000    0.5000    0.4444         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.7235    0.8197    0.7686       466
   macro_avg     0.6033    0.6809    0.6369       466
weighted_avg     0.7245    0.8197    0.7679       466

           &#x3010;&#x8C03;&#x548C;&#x5E73;&#x5747;&#x6570;&#x3011;
              precision    recall  f1-score   support

           3     0.8474    0.7285    0.7835       221
           2     0.8304    0.7045    0.7623       132
           1     0.8182    0.4030    0.5400        67
           6     0.8000    0.4000    0.5333        10
           5     0.7143    0.3448    0.4651        29
           0     1.0000    0.2500    0.4000         4
           4     0.6667    0.6667    0.6667         3

   micro_avg     0.8324    0.6395    0.7233       466
   macro_avg     0.8110    0.4996    0.5930       466
weighted_avg     0.8292    0.6395    0.7132       466

           &#x3010;1/3 + 2/3-focal&#x3011;
              precision    recall  f1-score   support

           3     0.7890    0.8462    0.8166       221
           2     0.7516    0.8939    0.8166       132
           1     0.6935    0.6418    0.6667        67
           6     0.3636    0.4000    0.3810        10
           5     0.6538    0.5862    0.6182        29
           0     0.4000    0.5000    0.4444         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.7430    0.8004    0.7707       466
   macro_avg     0.5931    0.6478    0.6164       466
weighted_avg     0.7420    0.8004    0.7686       466

           &#x3010;1/4-prior + 3/4-focal&#x3011;
              precision    recall  f1-score   support

           3     0.7956    0.8100    0.8027       221
           2     0.7712    0.8939    0.8281       132
           1     0.6981    0.5522    0.6167        67
           6     0.6667    0.4000    0.5000        10
           5     0.7143    0.5172    0.6000        29
           0     0.3333    0.2500    0.2857         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.7656    0.7639    0.7648       466
   macro_avg     0.6399    0.5843    0.6007       466
weighted_avg     0.7610    0.7639    0.7581       466

           &#x3010;4/9-prior + 5/9-focal&#x3011;
              precision    recall  f1-score   support

           3     0.7819    0.8597    0.8190       221
           2     0.7578    0.9242    0.8328       132
           1     0.6567    0.6567    0.6567        67
           6     0.5000    0.5000    0.5000        10
           5     0.6250    0.5172    0.5660        29
           0     0.2857    0.5000    0.3636         4
           4     0.5000    0.6667    0.5714         3

   micro_avg     0.7364    0.8155    0.7739       466
   macro_avg     0.5867    0.6607    0.6156       466
weighted_avg     0.7352    0.8155    0.7715       466

希望对你有所帮助!

Original: https://blog.csdn.net/rensihui/article/details/119979234
Author: Macropodus
Title: pytorch-textclassification是一个专注于中文文本分类（多类分类、多标签分类）的轻量级自然语言处理工具包，基于pytorch和transformers，包含各种实验

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665617/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mysql实现知识图谱_知识图谱的技术概述

知识图谱是Google公司2012年为了支撑其语义搜索而建立的知识库；是一种大规模语义网络，包括实体(Entity)、概念(Concept)事件(Event)以及之间的各种语义关系…

人工智能 2023年6月10日
0056
基于遗传算法的BP神经网络优化算法（附代码）

BP网络是前向网络的核心部分，是神经网络中的最精华、最完美的部分，由于其简单的结构，可调整的参数多，训练算法也多，而且可操作性好，BP神经网络获得了非常广泛的应用，但是也存在着一些…

人工智能 2023年7月12日
0070
高斯过程回归—-MC dropout前导篇

最近从贝叶斯网络的最初版本开始看，看到Monte Carlo Dropout （MC dropout）的时候被高斯过程扼住了喉咙，翻了一天的视频和各种帖子，大概搞懂它在做什么了，这…

人工智能 2023年6月17日
0099
Dax实现动态分组的统计

我们有时候需要对数据表中的客户进行打标分析（比如ABC分析），一般是根据收入范围，订单量范围等。常见的方法一般是直接在Excel表里面新建一列，利用IF函数判断该客户的标签，稍微简…

人工智能 2023年6月11日
0081
【计算机视觉】数字图像与机器视觉基础

一、位图文件分析 1. 什么是位图位图图像（bitmap），亦称为点阵图像或栅格图像，是由称作像素（图片元素）的单个点组成的。这些点可以进行不同的排列和染色以构成图样。当放大位图…

人工智能 2023年6月22日
0084
彻底搞懂float16与float32的计算方式

1 float 16与float 32 1.1 float16 1.1.1 计算方式 float 16又称半精度，用16个比特也就是2个字节表示一个数。如下图所示，其中1位符号…

人工智能 2023年6月15日
0080
pandas从身份证中取得生日，转为日期

df[‘份证号码’].str[6:14] 取df表中的’公民身份证号码’列的全部数据，转换为字符串str类型，再截取第6+1到14+1(不含)个字符 110000 10001231…

人工智能 2023年7月7日
0078
干货 | 利用pandas处理Excel数据

新建一个excel表格（table1.csv）用于案例讲解：导库 import pandas as pd import numpy as np 读取数据 df = pd.read…

人工智能 2023年7月8日
00110
git subtree用法(转)

git subtree用法一.使用场景例如，在项目Game中有一个子目录AI。Game和AI分别是一个独立的git项目，可以分开维护。为了避免直接复制粘贴代码，我们希望Game…

人工智能 2023年6月6日
0078
上汽大众首届「因你而生」ID. Day热力开启

近日，2022上汽大众举办了「因你而生」ID. Day车主共创年度活动，活动全程由ID.车主们深度参与设计及运营。自ID.产品上市以来，上汽大众在用户运营上取得长足进展，已拥有1…

人工智能 2023年6月27日
0058
深度学习与计算机视觉教程(14) | 图像分割 (FCN,SegNet,U-Net,PSPNet,DeepLab,RefineNet)（CV通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/37 本文地址：https://www.showmeai.tech…

人工智能 2023年5月26日
0098
表型-药物-分子多层次知识图谱的链接预测概述（1）

; CCKS 2021：表型-药物-分子多层次知识图谱的链接预测任务描述过去的三十多年里，基于靶点的药物发现（Target-based Drug Discovery, TDD）…

人工智能 2023年6月10日
0071
gensim提取一个句子的关键词_搜索引擎检索：Python和spaCy信息提取简介

概览像Google这样的搜索引擎如何理解我们的查询并提供相关结果？了解信息提取的概念我们将使用流行的spaCy库在Python中进行信息提取介绍作为一个数据科学家，在日常…

人工智能 2023年6月10日
0069
python series取值_python数据分析实例2-Series和DataFrame

下面是给出的一组电影和电影票房信息：电影名票房 1.使用给出的电影数据分别创建一个Series和DataFrame数据，其中Series需使用电影票房信息(y)作为行索引，Dat…

人工智能 2023年7月8日
0067
R语言dataframe计算满足筛选条件的行的个数（筛选满足条件的数据行并计数）：类似于excel的countif函数

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0090
一篇长文叙述Linux内核虚拟地址空间的基本概括

x86-32位虚拟地址空间就我们所知，Linux内核一般将处理器的虚拟地址空间划分为两个部分。底部比较大的部分用于用户进程，顶部则专用于内核。虽然（在两个用户进程之间的）上下文切…

人工智能 2023年6月28日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch-textclassification是一个专注于中文文本分类（多类分类、多标签分类）的轻量级自然语言处理工具包，基于pytorch和transformers，包含各种实验

数据来源

数据格式

文本分类(TC), Text-Classification

文本分类(TC), Text-Classification

大家都在看