深度学习之文本分类总结

2023年5月27日下午6:51 • 人工智能 • 阅读 93

一、文本分类概况

文本分类是NLP中的最基础的一个任务，很多场景中都涉及到，比如对话机器人、搜索推荐、情绪识别、内容理解，企业风控，质量检测等方向。在对话机器人中，一般的文本分类任务主要是解决用户query 的意图，确定相关domain.在确定的 domain中进行 NLU的语义理解，进而下游更多的任务。针对内容理解或者风控，质检方向都是针对于用户的query进行理解和意图识别，确定是否是涉黄涉爆，等非法的输入，进而进行控制，由于本人主要是做对话NLU 相关的，具体的其他的场景不做过多叙述，主要分为以下两种情况：

多分类(Multi-Class)

1.二分类，如邮件垃圾分类，0-1分类，只有两种情况，也可以使用于据识模型中

2.三分类，情感分类，【正面，中立，负面】,情绪识别

3.多分类，意图识别，domain领域识别，新闻类别识别，财经、体育、娱乐等

以上统称为多分类领域,每一个类别是独立的

多标签分类(Multi-Lable)

1.多领域类别，比如说，帮我打开导航、并播放一首歌曲、此时刻的domain 属于 musicX音乐、mapU 导航领域

2.文本段落，可能即属于金融领域也属于政治领域

多标签分类，主要区别在于每个类别不是独立的，每个文本可以有多个标签

[En]

Multi-tag classification, the main difference is that each category is not independent, each text can have multiple tags

区别：

1.多分类任务中一条数据只有一个标签，但这个标签可能有多种类别。比如判定某个人的性别，只能归类为”男性”、”女性”其中一个。再比如判断一个文本的情感只能归类为”正面”、”中面”或者”负面”其中一个。

2.多标签分类任务中一条数据可能有多个标签，每个标签可能有两个或者多个类别（一般两个）。例如，一篇新闻可能同时归类为”娱乐”和”运动”，也可能只属于”娱乐”或者其它类别。

二、文本分类常见的方法

文本分类主要是分为两种，一种是前几年兴起的传统的机器学习方案，其次是近几年的深度学习模型(https://github.com/649453932/Chinese-Text-Classification-Pytorch) https://github.com/649453932/Chinese-Text-Classification-Pytorch

传统的机器学习模型（浅层学习模型）

1.以统计模型占主导，如朴素贝叶斯分类(NB)， K近邻(KNN)，支持向量机(SVM) 、以及树模型结构 XGBoost和LightGBM

与以往的基于规则的方法相比，该模型在精度和稳定性方面具有明显的优势。然而，这些方法仍然需要进行功能设计，这既耗时又昂贵。此外，它们往往忽略了文本数据中自然的顺序结构或上下文信息，这使得学习单词的语义信息变得困难。

[En]

Compared with the earlier rule-based methods, the model mentioned above has obvious advantages in accuracy and stability. However, these methods still require functional design, which is time-consuming and expensive. In addition, they usually ignore the natural sequential structure or context information in the text data, which makes it difficult to learn the semantic information of words.

2.浅层学习模型，词袋子模型，tf-idf统计等

浅层学习模型，主要是忽略掉了文本的语法和语序，用特定的一些符号表示一个文本或者段落。

词袋子模型(BOW) 用一组无序的单词序列来表达一段文字或者一个文档， 把整个文档集的所有出现的词都丢进袋子里面，然后 无序去重 地排出来（去掉重复的）。 对每一个文档，按照词语出现的次数来表示文档

以下例子(来源于网络)：

&#x53E5;&#x5B50;1&#xFF1A;&#x6211;/&#x6709;/&#x4E00;&#x4E2A;/&#x82F9;&#x679C;

&#x53E5;&#x5B50;2&#xFF1A;&#x6211;/&#x660E;&#x5929;/&#x53BB;/&#x4E00;&#x4E2A;/&#x5730;&#x65B9;

&#x53E5;&#x5B50;3&#xFF1A;&#x4F60;/&#x5230;/&#x4E00;&#x4E2A;/&#x5730;&#x65B9;

&#x53E5;&#x5B50;4&#xFF1A;&#x6211;/&#x6709;/&#x6211;/&#x6700;&#x7231;&#x7684;/&#x4F60;

数一数所有的单词，把它们放进一个袋子里，得到10个单词：“我，有，一，苹果，明天，去，地方，你，去，最喜欢。”

[En]

Count all the words, put them in a bag and get 10 words: “I, have, one, Apple, tomorrow, go, place, you, to, favorite.”

得到4个句子的特征如下：

句子 1 特征: ( 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 0 , 0 )
句子 2 特征: ( 1 , 0 , 1 , 0 , 1 , 1 , 1 , 0 , 0 , 0 )
句子 3 特征: ( 0 , 0 , 1 , 0 , 0 , 0 , 1 , 1 , 1 , 0 )
句子 4 特征: ( 2 , 1 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 1 )

通过上述方案，还可以获得句子的浅层语义表达，并可以进行基本的下游任务，如相似度计算、文本分类等。

[En]

Through the above scheme, the shallow semantic expression of the sentence can also be obtained, and basic downstream tasks can be carried out, such as similarity calculation, text classification and so on.

缺点就是：语义表达非常稀疏，容易造成维度灾难只能表示词语本身，无法体现单词语义信息，以及单词之间的关系

TF-IDF模型：

主要是使用词汇统计的词频特征来作为句子的语义表征，TF表示的（Term frequency,词频） IDF 表示的是(Inverse document frequency ) 逆文档频率。

TF即词频(Term Frequency)，每篇文档中关键词的频率（该文档单词/该文档单词总数），TF体现的是词语在文档内部的重要性，举个例子，有两篇文档

和

d1 = (A,B,C,D,A)，一共是5个单词，d2 = (B,E,A,B), 一共是4个单词。得到如下的TF计算结果：

IDF即逆文档频率(Inverse Document Frequency)，文档总数/关键词t出现的文档数目，即

D代表文档的总体数目，分母部分深度学习之文本分类总结

表示的是包括该词语的文档数目，原始公式是分母没有 +1 的，这里是采用了 拉普拉斯平滑，避免了有部分新的词没有在语料库中出现而导致分母为零的情况出现。IDF体现的是词语在文档中的重要性，如果某个词语在文档中出现的次数越少，表示的 idf 数值越大，越重要。得到如下的，IDF 数值：

d1 文档的向量化表示(最终的结果是 tf * idf):

然后，通过计算向量的余弦相似度来获得语义相似度。

[En]

After that, the semantic similarity is obtained by calculating the cosine similarity of the vector.

深度学习模型时代（文本分类模型）

1.Fasttext 模型

论文：https://arxiv.org/abs/1607.01759
代码：https://github.com/facebookresearch/fastText

fastText是Facebook于2016年开源的一个词向量计算和文本分类工具，包含文本分类和词向量训练两个功能。把输入转化为词向量，取平均，再经过线性分类器得到类别。输入的词向量可以是预先训练好的，也可以随机初始化，跟着分类任务一起训练。最终的embedding 也是分类的产物。

上图为模型结构图，目前多数人也在使用 fastText模型，主要是由于：

1.模型本身比较简单，能快速的产生baseLine

2.采用char-level(字符级别)的 n-gram作为附加特征，这里举个例子，apple 这个单词，bigram 是：[ap,pp,pl,le] ,trigram结果是[app,ppl,ple],最终的模型输入，是把apple转化为embedding 和 bigram 、trigram也转成embedding , 最终拼接一起作为输入。

2.TextCNN 模型

TextCNN是Yoon Kim小哥在2014年提出的模型,相关论文和仓库如下:

论文：https://arxiv.org/abs/1408.5882
代码：https://github.com/yoonkim/CNN_sentence

TextCNN 使用的是一维的卷积操作，图像中多数使用的是二维卷积.参考代码如下:

CNN网络结构不清楚的，可以看另一篇Blog，其中有详细的解释CNN网络结构。

大致的步骤如下：

1.输入query 经过embedding 得到，[batch_size,seq_len,embedding_dim]

2.设置卷积核的大小为 [filter_size * embedding_dim]，filter_size一般为滑动窗口的大小（先不理解没关系），假设一共有N个卷积核，得到N个长度为，seq_len – filter_size + 1 大小的一维feature_map，比如句子长度为10，filter_size的长度为2，最终得到的feature_map的长度为10-2+1= 9

feature_map进行max-pooling 得到N个 1*1的数值，最终为N维向量，作为句子的表达，最终得到 [batch_size,N]的结果,如果 batch_size = 64, N = 256 ，那么最终得到的向量为[64,256]

4.最终结果经过全连接网络，线性变化，最后进行softmax分类

相关解释：

卷积核大小为2的时候，一次处理2-gram,也就是2个单词，卷积核大小为3-gram，一次处理三个大小的单词。所以卷积核在对文本进行卷积的操作，更像是对在提取文本在n-gram上的特征。

取不同卷积核大小进行卷积操作的原因，可以理解为提取这个句子中多个维度不同的信息，使得特征更加的丰富。所以上文中使用了不同filter_size 的卷积层进行 conv1,conv2,conv3来进行提取特征

一些需要注意的优化点，请参考下面的博客(大神写的)：

[En]

For some optimization points that need to be paid attention to, please refer to the following blog ( * written by a great god * ):

https://mp.weixin.qq.com/s?__biz=MzAxMTk4NDkwNw==&mid=2247485854&idx=1&sn=040d51b0424bdee66f96d63d4ecfbe7e&chksm=9bb980faacce09ec069afa79c903b1e3a5c0d3679c41092e16b2fdd6949aa059883474d0c2af&token=793481651&lang=zh_CN&scene=21#wechat_redirect

CNN模型主要是基于上下文token的编码，然后pooling出句子再进行分类，池化时候，max-pooling表现效果最好，文本分类颗粒度比较高，只需要关注部分的关键词即可

3. Rnn+ Attention 模型

论文：https://www.aclweb.org/anthology/P16-2034.pdf
代码：https://github.com/649453932/Chinese-Text-Classification-Pytorch

RNN 模型现在主流的都是LSTM模型、GRU类型的，针对颗粒度比较细的语义表征，需要使用attention进行

H表示的是LSTM模型输出的 hidden信息，其中 w是context vector，随机初始化并随着训练更新。最后得到句子表示r ，再进行分类。

attention 的作用主要是寻找句子中，对句子含义最重要，贡献最大的词语找出来

4. Bert模型

不同的预训练模型，比如ELECTRA、RoBERT、WWM、ALBERT
除了 [CLS] 外还可以用 avg、max 池化做句表示，也可以各种组合起来
在领域数据上增量预训练，结合多任务的预训练
Boosting的思想，使用集成蒸馏，训多个大模型集成起来后蒸馏到一个，理论上会有一定的提升(涉及到知识蒸馏)
先用多任务训，再迁移到自己的任务

三、文本分类模型实际中遇到的问题（Q&A）

1.模型的选择问题

短文本，可以尝试下 TextCNN 模型，fastText模型，作为一个基线baseLine的效果
长文本，可以尝试使用RNN 模型，如BiLSTM模型、GRU模型，后接上一个attention注意力机制

无脑使用Bert模型但是，要是模型上线还是需要考虑下模型的推理性能，使用模型的知识蒸馏，或者使用多个大模型的集成，再去蒸馏到一个小模型

2.样本类别不均衡问题

样本不均衡问题，对于Nlp任务来说，基本上都是老生常谈的问题，不管是在分类还是NER中经常会出现，针对这些问题的解决办法，网上也是一大堆，知乎博客，到处都是,这里只是做一个简单的整理吧。这里提一点，样本数量不均衡的本质，还是样本难易程度不一样，本质上还是一个 hard example的问题。通常是两种方案，一个是样本数据上修改(重采样)，另一个是train的时候 Loss部分的修改(重加权)

重采样
欠采样，去掉一些case
过采样，可能会导致一些过拟合现象
数据增强， 非常常用的方案，较为常见的方法为，EDA(增加，删除，同义词替换)、回译、Masked LM(借鉴预训练语言模型（如BERT）中的自编码语言模型，可以启发式地Mask词汇并进行预测替换 )、句法交换、SIMBERT 等预训练模型生成相似度句子，等等
重加权，重加权就是改变分类loss。相较于重采样，重加权loss更加灵活和方便。其常用方法
loss类别加权，通常根据类别数量进行加权，加权系数与类别数量成反比
Focal Loss，上述 loss类别加权主要关注正负样本数量的不平衡，并没有关注难易不平衡。Focal Loss主要关注难易样本的不平衡问题，可根据对高置信度(p)样本进行降权loss类别加权 focal loss

3.数据相关问题

任务定义：先和产品定义好场景和分类任务，初略看看数据，是否有些歧义的数据，挑选出来找产品定义好，尽量规避那些歧义的定义说法，不管是去掉该类说法，还是说统一规定为某一个分类label ,总之人都区分不了的问题，别想着让模型去解决
数据清洗：
标注错误问题，模型测试集错误的case，拿出来，规则筛选一遍，同时检查下训练集中的 case，是否有case标注错误的例子，就是训练集中是否存在同样类似的case，标注存在不一致性。
去掉文本强pattern, 很多对文本无意义，出现频次较高的pattern去掉，如，对一段文本进行意图识别，属于”财经、体育、政治”等Label，文本中出现大量的 xx报道说法，对于文本无意义的说法。
大量无标注数据使用（挖掘无标注数据的价值，利用自监督和半监督学习）
自监督学习，目前火热的预训练模型(Pre-model) 充分利用无标注数据，展现强大能力，进行任务级别的预训练，如，设计分类任务时候，我们在预训练时候，MLM的loss 可以和分类的loss一起进行多任务学习
半监督学习，使用baseLine模型学习去预测无标注数据，然后利用数据蒸馏知识生成大量带标签的数据

4.分类的损失函数选择

sigmod分类
使用于二分类，类似于常用的0、1分类，Torch版本是 BCELoss()函数
softmax分类
lable标签的多分类，torch版本使用的是nn.CrossEntropyLoss()函数

由上图所示，对于多分类的任务，可以定义为，多个二分类，如N分类的任务，我们可以定义N个 sigmoid二分类。优点：

1.每个分类domain 单独维护不同的fc解码层，可以后续支持多意图的输出，解码空间相对于之前的softmax 扩大

2.新分类domain增加，维护成本较小，只需要更新 fc层就可以，减少对其他的domain的干扰

3.实际上，每一个domain的fc层，就是一个据识模型，后续可以修改训练策略，灵活的对定义的domain进行据识

Original: https://blog.csdn.net/lq_fly_pig/article/details/123648093
Author: lq_fly_pig
Title: 深度学习之文本分类总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527299/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据挖掘第八章——聚类分析

第一章对数据仓库的迫切需求………………………………

人工智能 2023年7月17日
0074
用opencv的dnn模块做yolov5目标检测

深度学习推理部署，真好玩😄😄😄 最近在微信公众号里看到多篇讲解yolov5在openvino部署做目标检测文章，但是没看到过用opencv的dnn模块做yolov5目标检测的。于是…

人工智能 2023年5月26日
00100
FB15K-237知识图谱数据集的介绍与分析，Freebase

FB15k-237是知识图谱Freebase的子集，15k表示其中知识库中有15k个主题词，237表示共有237种关系。一、FB15K-237的知识库整个Freebase知识图…

人工智能 2023年6月10日
0075
Rasa NLU 组件解析

Rasa 组件 pipeline 文章目录 Rasa 组件 pipeline * 1. 语言组件 – MitieNLP SpacyNLP 2. 分词器组件 &#8211…

人工智能 2023年5月31日
00117
Spark中RDD、DataFrame和DataSet的区别与联系

一、RDD、DataFrame和DataSet的定义在开始Spark RDD与DataFrame与Dataset之间的比较之前，先让我们看一下Spark中的RDD，DataFra…

人工智能 2023年7月7日
0074
python编程比赛_用Python编程分析4W场球赛后，2018世界杯冠军竟是…

比赛已经开始，我们不妨用 Python 来对参赛队伍的实力情况进行分析，并大胆的预测下本届世界杯的夺冠热门球队吧！通过数据分析，可以发现很多有趣的结果，比如：找出哪些队伍是首次…

人工智能 2023年7月8日
0097
回归（regression）

回归（regression） 1.1 起源与定义回归最早是被高尔顿提出的。他通过研究发现：如果父母都比较高一些，那么生出的子女身高会低于父母的平均身高；反之，如果父母双亲都比较…

人工智能 2023年6月17日
0076
模型评价 – 分类模型的常用评价指标

习题答案习题一答案一、选择题 1. 软件的主要特性是(A B C)。 A) 无形 B) 高成本 C) 包括程序和文档 D) 可独立构成计算机系统 2. 软件工程三要素是(…

人工智能 2023年7月2日
0095
【收藏好文】AI推理框架最全对比：OpenVINO、TensorRT、Mediapipe

消息快播：OpenCV众筹了一款ROS2机器人rae，开源、功能强、上手简单。来瞅瞅~ 编辑：OAK中国来源：oakchina.cn版权说明：转载请注明出处前言 Hello，大家…

人工智能 2023年7月19日
00164
时间序列：概述【时间序列挖掘领域主要包括：降维表示、相似性度量、相似性检索、分类、聚类、异常检测、预测、可视化】

在各类大数据研究中，有一类数据是按照时间顺序排列、随时间迁移不断变化的，称为时间序列(Time Series)。时间序列广泛的存在于各行各业中，如医学医疗、金融财经、水文分析、电…

人工智能 2023年7月2日
0096
Python编程运算符 ——算数运算符

作者简介：一名在校计算机学生、每天分享Python的学习经验、和学习笔记。座右铭：低头赶路，敬事如仪 *个人主页：网络豆的主页目录前言一.运算符 1.在Pyth…

人工智能 2023年7月3日
0080
知识图谱-汽车品牌知识图谱实战复现记录

写在前面：本人也是知识图谱”小白”，正在努力变”怪兽”，写文只为记录成长点滴，若有理解不合理亦或不到位的地方，敬请谅解。 1、环境配…

人工智能 2023年6月1日
0070
数据分析思维

在工作中当我们遇到难题时，首先我们需要知道，比如问题诊断、识别机会，规避风险等。这是WHY。那分析什么？比如战略分析，用户偏好分析，STP分析，品牌建设分析，营销组合分析，客户画…

人工智能 2023年6月11日
0077
GUI编程–PyQt5–控件

文章目录什么是控件常用控件 * 基础控件容器控件类的继承关系什么是控件程序界面中的一个独立元素（矩形），完成不同的功能，比如按钮的点击，输入框的输入。常用控件基础控…

人工智能 2023年6月26日
0073
使用 TensorFlow.js 在浏览器中自定义目标检测

目标检测是一类检测目标在图像中的位置，以及在给定图像中对每个感兴趣的目标进行分类的任务。在计算机视觉领域，我们可将此技术应用于图片检索、监控摄像头和无人驾驶汽车中就目标检测而言，…

人工智能 2023年5月26日
00105
回归的误差服从正态分布吗_环研 | 回归要求因变量正态分布？高中数学选修23落泪…

看到这条推送的小可爱们新年快乐！本推送过于数学，看不懂的小伙伴划到最后给我点个赞再看里评论一个不明觉厉就行。上周做环研作业，题目是探究二氧化碳排放的主要影响因素。有同学跟我说…

人工智能 2023年6月18日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习之文本分类总结

一、文本分类概况

二、文本分类常见的方法

三、文本分类模型实际中遇到的问题（Q&A）

大家都在看