NLP之文本分类任务

2023年5月28日上午12:49 • 人工智能 • 阅读 113

文本分类任务参考：

NLP-Interview-Notes/NLPinterview/textclassifier/TextClassification at main · km1994/NLP-Interview-Notes (github.com)

数据预处理

1.文本分类任务数据预处理方法

分词：将句子分割成独立的语义单元组成的序列过程
去停用词：识别并删除对分类意义不大且出现频率较高的词
词性标注：在分词后判断词性来添加特征

2.中文文本分词的方法

基于字符串匹配的分词方法
基于统计语言模型的分词方法
基于统计机器学习的分词方法（统计序列标准模型的代表，生成式模型的代表–隐马尔可夫模型（HMM），判别式模型的代表–线性链条件随机场（CRF））

3.基于字符串匹配的分词方法

基于词典进行贪心匹配，该种简单的算法即为前向最大匹配法（FMM）

由于中文句子本身具有重要信息后置的特点，因此有反向进行的”后向最大匹配法（BMM）”

双向最大匹配算法是指对待切分句子分别使用FMM和RMM进行分词，然后对切分结果不重合的歧义句进行进一步的处理。通常可对两种方法得到的词汇数目进行比较，根据数目的相同与否采取相应的措施，以此来降低歧义句的分词错误率。

基于字符串匹配的分词算法的不足在于其 无法应对歧义与单词表外的单词。

4.统计语言模型用于分词， N-gram最大概率分词

假定一个句子S可能有很多种分词方法，那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。因此，只需利用统计语言模型计算出每种分词后句子出现的概率，并找出其中概率最大的，就能找到最好的分词方法。

从计算上来说，m一旦变大，也就是句子一旦变长，乘法后面的几项将会难以计算。因此我们使用 马尔可夫假设：任意词

的出现概率只与它前面的词 NLP之文本分类任务

有关。

如果穷举所有可能的分词方法，并计算出每种可能性下句子的概率，那么计算量是相当大的。因此可以把该问题看作一个动态规划问题，并利用 维特比（Viterbi）算法快速找到最佳分词。

5.基于序列标注的分词方法

将分词问题转换为给每个位置的字进行分类的问题，即序列标注问题。其中，类别有4个，一般用{B:begin, M:middle, E:end, S:single}这4个类别来描述一个分词样本中每个字所属的类别。它们代表的是该字在词语中的位置。其中，B代表该字是词语中的起始字，M代表是词语中的中间字，E代表是词语中的结束字，S则代表是单字成词。

6.基于Bi-LSTM的词性标注方法

字的上下文信息对于排解切分歧义来说非常重要，能考虑的上下文越长，自然排解歧义的能力就越强。而前面的n-gram语言模型也只能做到考虑一定距离的上下文，那么有没有在理论上能考虑无限长上下文距离的分词模型呢？答案就是基于LSTM来做。当然啦，LSTM是有方向的，为了让每个位置的字分类时既能考虑全部历史信息（左边的所有的字），又能考虑全部未来信息（右边所有的字），我们可以使用双向LSTM（Bi-LSTM）来充当序列标注的骨架模型

LSTM完成对每个位置的上下文信息的编码后，最终通过softmax分类层完成对每个位置的分类，从而跟HMM和CRF一样完成了基于序列标注的中文分词。

7.词干提取和词形还原

词形还原（Lemmatization），是把一个任何形式的语言词汇还原为一般形式（能表达完整语义），而词干提取（Stemming）是抽取词的词干或词根形式（不一定能够表达完整语义）。词形还原和词干提取是词形规范化的两类重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别。

特征提取

词袋模型

n-gram模型

主题建模

tf-idf
LDA

文本相似度

衡量文本之间的距离，与相似性计算是同一回事的两个方面，距离可以理解成”不相似性”。

如果我们比较相似度的计算对象是分词后的词汇序列、词性序列、命名实体序列等，那么常用的计算距离的方法有：Jaccard距离、Dice系数、汉明距离、编辑距离等等。

如果我们使用词嵌入向量作为相似度的比较对象，那么文本距离问题就简化成向量相似度计算方法了。常用的向量距离计算方法有余弦距离等。

分本分类模型

文本分类（TextRNN/TextCNN/TextRCNN/FastText/HAN）

1.FastText模型

字符级别的n-gram：为克服因单词内部形态信息不同而表达成不同词向量， fastText使用字符级别n-grams来表示一个单词。可以使用多个trigram的向量叠加来表达一个单词的向量。

对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。
对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。

fastText的核心思想就是：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softmax分类。

fastText原理及实践 – 知乎 (zhihu.com)

2.TextCNN模型

卷积神经网络核心思想捕获局部特征。对于文本而言，局部特征就是由若干单词组成的滑动窗口，类似于N-gram。

TextCNN的局限性

TextCNN是很适合中短文本场景的强baseline，但不适合长文本。因为卷积核尺寸通常不会设置很大，无法捕获长距离特征。同时max-pooling也存在局限，会丢掉一些有用的特征。TextCNN和传统的n-gram词袋模型本质相同，其好效果很大程度来自于词向量的引入。

3.TextRNN模型

TextRNN使用LSTM/GRU作为特征提取器，利用RNN输出的logit进行concat来进行答案的预测。

TextRNN仅仅是将Word Embedding输入到双向LSTM中，然后对最后一位的输出输入到全连接层中，对其进行softmax分类。

4.DPCNN模型

如何解决长文本分类任务？

可以使用改进的CNN，如DPCNN

可以使用RNN结构的分类器，也可以使用基于Attention机制的分类器

从经典文本分类模型TextCNN到深度模型DPCNN – 知乎 (zhihu.com)

DPCNN

DPCNN的特点：

区域嵌入：将TextCNN包含多尺寸卷积滤波器卷积层的卷积结果称为区域嵌入，对一个文本区域/文本片段进行一组卷积操作后生成的embedding。DPCNN，采用一种不保留词序的做法，即首先对3-gram中的3个词的词向量取均值得到一个大小为 1 * D 的向量，然后设置一组大小为 1 * D 的一维卷积核对该3-gram进行卷积操作。
等长卷积：使用等长卷积，来提高词位embedding表示的丰富性。等长卷积的意义是：输出的词是由该位置输入的词以及其左右词的上下文信息提取得到的，也就是说，这个词包含被上下文信息修饰过的更高级别的语义。
下采样（1/2池化）：本文使用一个 size=3，stride=2（大小为3，步长为2）的池化层进行最大池化，在此称为1/2池化层。每经过一个1/2池化层，序列的长度就被压缩成了原来的一半。因此，经过1/2池化后，同样一个size为3的卷积核，其能够感知到的文本片段就比之前长了一倍。
残差连接：减缓梯度弥散问题

5.TextRCNN模型

TextRCNN实际上将RNN与CNN进行结合，先使用双向RNN获取输入文本上的语义和语法信息，接着使用最大池化自动地筛选出最重要地特征，然后接一个全连接层用于分类。

使用RNN处理输入序列时，是对输入序列的词按照次序进行处理，它通过隐藏层储存了之前的序列信息，能更好地获取上下文信息。然而RNN是有偏模型，后面输入的词的重要性要高于之前的词，而实际上一个文本中后面的词并不一定是最重要的词，最重要的词可能出现在文本的任何地方。而CNN则是无偏模型，通过最大池化来自动地筛选文本中重要的词，能够解决RNN有偏的问题。然而CNN是通过使用一定尺寸的窗口来提取特征（卷积操作），窗口的尺寸实际很难确定，尺寸太小则会丢失重要的信息，尺寸过大导致参数过多且难以训练。

最后再接跟TextCNN相同卷积层，pooling层即可，唯一不同的是卷积层 filter_size = 1就可以了，不再需要更大 filter_size 获得更大视野，这里词的表示也可以只用双向RNN输出。

6.RNN + Attention模型

CNN和RNN用在文本分类任务中尽管效果显著，但都有一个不足的地方就是不够直观，可解释性不好，特别是在分析badcase时候感受尤其深刻。而注意力（Attention）机制是自然语言处理领域一个常用的建模长时间记忆机制，能够很直观的给出每个词对结果的贡献。

加入Attention之后最大的好处自然是能够直观的解释各个句子和词对分类类别的重要性。attention层做最后的特征融合。这个加attention的套路用到CNN编码器之后代替pooling也是可以的。

7.HAN模型

HAN是attention机制用于文本分类的典型工作，通过将

（1）文本组织成层次结构（词，句子）

（2）分别在词级别和句子级别使用注意力机制，保证最终文本表示由不同层次上重要的信息构成

先对每个句子用 BiGRU+Att 编码得到句向量，再对句向量用 BiGRU+Att 得到doc级别的表示进行分类。

8.GNN图神经网络

自然语言可以当作树结构和图结构来解析。文本中同时包含图结构，如句法分析和语法树往往以树形结构表示。

9.预训练模型

Transformer

自回归语言模型：ELMo、GPT、XLNet等

自编码语言模型：BERT、RoBERTa等

损失函数

激活函数sigmoid

二分类中，可以使用sigmoid函数将输入映射到（0，1）区间中，从而得到属于某个类别的概率。

缺点：

输出范围在0 – 1之间，不是关于原点对称。需要做数据偏移
当x很大或者很小时，存在导数很小的情况，神经网络训练方法是BP算法， BP算法的基础是导数的链式法则，即多个导数的乘积。随着神经网络层数的加深，梯度向后传播到浅层网络时，基本无法引起参数的扰动，即没有将loss信息传递到浅层网络，导致梯度消失
计算exp较为耗时

负对数似然损失函数（neg log-likelihood loss）

log对数损失函数的标准形式如下：

log对数损失函数能很好地表征概率分布，尤其对于多分类任务，如果需要知道结果属于每个类别地置信度，则非常适合。
健壮性不强，相比于hinge loss对噪声更为敏感
逻辑回归地损失函数就是log对数损失函数

交叉熵损失函数（cross entropy loss）

指数损失函数（exponential loss）

指数损失函数的标准形式如下：

特点：对离群点、噪声非常敏感，经常用在AdaBoost算法中

均方误差损失函数（mean square error loss）

softmax

对于多分类任务，可以使用softmax函数，对输出的值归一化为概率值

损失函数(MSE、MAE、SmoothL1_loss…)

常见的损失函数(loss function)总结 – 知乎 (zhihu.com)

模型评估

文本分类任务使用的评估算法和指标有：

准确率、精确率、召回率、ROC曲线、AUC值、F1-score、混淆矩阵、kappa

【机器学习笔记】：准确率，精准率，召回率，真正率，假正率，ROC/AUC – 知乎 (zhihu.com)

混淆矩阵和 kappa系数

混淆矩阵是具有两行两列的表，该表报告假阳性、假阴性、真阳性、真阴性的数量。所有正确的预测都位于表格的对角线上，因此很容易从视觉上检查表格中的预测错误。

kappa系数用于一致性检验，也可以用于衡量分类精度，kappa系数的计算是基于混淆矩阵的。

kappa系数介绍如百度百科所示

kappa系数_百度百科 (baidu.com)

Original: https://blog.csdn.net/jiangchao98/article/details/123859023
Author: jiangchao98
Title: NLP之文本分类任务

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528371/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Flask 与 Django 框架对比

详细分析了两种 Python Web框架： Flask 与 Django。从开发难易度、应用架构、性能、可扩展性以及适用范围等方面进行了详细说明。 Django 中级教程在 B 站…

人工智能 2023年7月6日
00106
CS131专题-3：图像梯度、边缘检测（sobel、canny等）

目录 1 前言 2 图像梯度 2.1 梯度公式的离散形式 2.2 图像的梯度表示 2.3 图像梯度的最简单计算方法 2.4 直接应用梯度找图像边缘的问题以及解决方案 3 边缘检测 …

人工智能 2023年6月20日
0094
目标检测——评价指标mAP

mAP，不认识英文单词的可以看一哈： P：Precision，精度 AP：Average Precision，平均精度 mAP：mean Average Precision，平均精…

人工智能 2023年7月12日
00105
猿创征文｜分布式国产数据库 TiDB 从入门到实战

写在前面本文讲解的是目前欢迎程度最高分布式国产数据库 TiDB，详细讲解了 TiDB 的由来、架构、SQL 基本操作、SpringBoot 整合 TiDB 等内容。目录 * &…

人工智能 2023年7月18日
0074
在有监督学习中，什么是标签和特征

问题描述在有监督学习中，标签和特征是什么？请详细介绍。介绍在有监督学习中，我们通常需要建立一个模型来预测目标变量（也称为标签）在给定一组输入变量（也称为特征）的情况下的取值。…

人工智能 2024年1月2日
0074
理解MVSnet

MVSnet:从非结构化多视角立体中推断深度网络输入：1张参考图像+N张原图像（从其他视角观察同一物体的图像），每张图像对应的相机内参和外参网络输出：概率图+优化深度图，在后处理中…

人工智能 2023年5月28日
00115
Pytorch中torch.cat()函数解析

一. torch.cat（）函数解析 1. 函数说明 1.1 官网：torch.cat()，函数定义及参数说明如下图所示：1.2 函数功能函数将两个张量（tensor）按指定维度拼…

人工智能 2023年6月16日
0073
【代码实践】使用CLIP做一些多模态的事情

CLIP到底有多强，让我们来试试吧！ CLIP模型及代码地址：GitHub – openai/CLIP: Contrastive Language-Image Pret…

人工智能 2023年7月4日
0086
【MediaPipe】(3) AI视觉，人脸识别，附python完整代码

各位同学好，今天和大家分享一下如何使用 MediaPipe完成人脸实时跟踪检测，先放张图看效果，FPS值为14，右侧的输出为：每帧图像是人脸的概率，检测框的左上角坐标及框的宽高。…

人工智能 2023年6月25日
0098
[论文总结] 深度学习在农业领域应用论文笔记6

文章目录 1. Identification of Plant Disease using Image Processing Technique（2019，会议论文，检测植物病害）…

人工智能 2023年6月22日
0098
在不使用外延层的同轴半绝缘衬底材料上制作4H-SIC横向双重注入金属氧化物半导体场效应晶体管

在不使用外延层在同轴的半绝缘SIC衬底上制作4H-SIC横向双重注入金属氧化物半导体场效应晶体管。LDIMOSFET使用离子注入工艺从而形成电流通路层。共面波导作为栅极和漏极之间的…

人工智能 2023年6月6日
0081
PYTORCH学习（3）：多维tensors求余弦相似度和欧氏距离

1、为什么要写这篇blog 因为最近在使用pytorch复现关于图像处理的深度学习论文时，需要求4维张量与4维张量（Batch，Channel，sizeA，sizeB）的余弦相似度…

人工智能 2023年7月27日
0063
Python读写xml文件

在目标检测中，常常要用到labelimg、labelme等标注软件。打标时往往需要打开xml文件，下面介绍利用python 解析xml文件的方法。一、读xml文件 xml…

人工智能 2023年7月12日
0085
多模态机器学习（语音情感识别）面临的挑战

情绪的识别是一个动态的过程，它针对于人的情绪状态，这意味着每个人的表情所对应的情绪都是不同的。模态之间的信息更多的是单向补足而不是双向互补，（eg.若语音模态存在噪声，引入视觉模…

人工智能 2023年6月16日
00109
【3数据可视化】基于vue的动态数据低代码可视化实现

目录 1、数据科学的产业升级 2、数据可视化的痛点 2.1 数据分析师 2.2 想提升的非技术人员 3、数据可视如何简单化 3.1 数据部分 3.1.1 代码需求 3.1.2 无代…

人工智能 2023年6月19日
00142
【模式识别】SVM实现人脸表情分类

import os import numpy as np import cv2 import matplotlib.pyplot as plt import seaborn fro…

人工智能 2023年7月1日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31