【NLP基础理论】03 文本分类

2023年5月31日上午4:49 • 人工智能 • 阅读 87

注：

Unimelb Comp90042 NLP笔记

1 分类类型

1.1 主题分类（Topic Classification）

这段文字是关于收购还是收益？由于文章中出现了”shareholders”，”subsidiary”还有”share stock”，所以可以判断这是关于收购相关的主题。

Motivation：通常用于图书馆学、信息检索
Classes：主题类别有”工作”、”国际新闻”等等
Features：
1）词袋模型（BOW）
2）更长的N-grams用于词组（phrases）
Corpora例子：
1）Reuters news corpus（RCV1，路透社新闻语料库可参阅NLTK）；
2）Pubmed abstracts（一个提供生物医学方面的论文搜索和摘要的数据库）；
3）Tweets with hashtags（带有话题标签的推文）

; 1.2 情感分析（Sentiment Analysis）

这个tweet的感情是什么？

Motivation：Opinion mining（意见挖掘），Business Analytics（商业分析）
Classes：正向、负向、中立
Features：
1）N-grams：之前的主题分类会使用BOW（将一句话变成一个向量）是因为我们并不在意语句的顺序。但是情感分析中，单词顺序非常重要。
2）极性词典（Polarity lexicons）：本质上包含了一堆正面极性和负面极性的单词的字典。通常是由人们手工创建，精度高，但覆盖范围小，适合用bootstrap的方式提升算法。
Corpora的例子：Movie review dataset（影评数据）、SEMEVAL Twitter polarity dataset（基于推特的情感极性分析数据集）

1.3 母语辨别

以下是什么母语的作者写的文章？

Motivation：司法语言学（forensic linguistics），教育应用（educational application）。前者应用于网络罪犯证据收集，后者帮助缩小有不同文化背景的教师和学生。
Classes：作者的第一语种（比如印度尼西亚语）
Features：
1）词级n-grams（word n-grams）
2）句法模式（syntactic patterns）：POS（词性）, parse trees（解析树）, abstract syntax tree（抽象语法树1）

3）语音特征（phonological features）：通过用户的口音来判断
Corpora例子：
托福、雅思短文语料库

; 1.4 自然语言推论（natural language inference）

这两句话的关系是 牵连的还是 矛盾的？

AKA Textual Entailment(文本蕴含)
Motivation：语言理解（language understanding）
Classes：Entailment（牵连），contradiction（矛盾），netural（中立）
Features：
1）Word overlap：检查两个短语或句子之间重叠的单词数
2）Length difference between the sentences：橘子们的长度差别
3）N-grams
Corpora例子：
SNLI（斯坦福自然语言推理语料库），MNLI（多类型自然语言推理语料库）

1.5 其他文本分类

自动核对事实（automatic fact-checking）
解释（Paraphrase）

2 分类算法

2.1 文本分类器搭建步骤

确定任务
收集合适的语料库
做标注
选择特征
选择一个机器学习算法
训练模型，使用development data调参
如有需要就把前面的几步重复
训练最后模型
使用test data评估模型

2.2 如何选择分类模型

考虑 偏差（Bias）和方差（Variance） ：
偏差：我们在模型中做出的假设
方差：对训练集的敏感程度
从Overfit和Underfit的角度来记这两个名词。 Overfit（过拟合）就是得到的模型在某一数据集上表现太好了，基本百分百贴近，但是放到别的数据集上表现就极差，这个现象就可以说是 偏差低，方差高； Underfit（欠拟合）就是这个模型怎么训练都烂，放在其他数据集也烂，那就是 偏差高，方差低，本质原因就是模型就没选好。
然而我们希望模型在训练集上表现良好在别的数据也表现良好，就需要一个偏差低方差低的模型，但通常不会有这么完美的模型，所以就需要我们在两者之间权衡： 偏差-方差权衡（Bias-Variance Tradeoff） 。
有一些最基础的假设，比如贝叶斯模型中最淳朴的假设就是事件之间相互独立，但放在前文提到的文章续写（特别看重前后文），贝叶斯表现肯定就一般。
复杂度
速度

2.3 朴素贝叶斯（Naïve Bayes）

贝叶斯公式：
P ( y ∣ x ) = P ( x ∣ y ) P ( y ) P ( x ) P(y|x)=\frac{P(x|y)P(y)}{P(x)}P (y ∣x )=P (x )P (x ∣y )P (y )
其中我们可以把 x x x看作待分类的对象，y y y看作类别，理解为当待分类对象x x x出现后，它是类别y y y的概率有多少？
然后找出一个y ^ \hat{y}y ^使得概率最高，那么这个y ^ \hat{y}y ^就是分类结果。
y ^ = a r g m a x y ∈ Y P ( y ∣ x ) = a r g m a x y ∈ Y P ( x ∣ y ) P ( y ) P ( x ) = a r g m a x y ∈ Y P ( x ∣ y ) P ( y ) ( P ( x ) 不影响最大值可省略 ) \begin{aligned} \hat{y} =& argmax_{y \in Y}P(y|x)\ =& argmax_{y \in Y}\frac{P(x|y)P(y)}{P(x)} \ =& argmax_{y \in Y}P(x|y)P(y) & (P(x)不影响最大值可省略) \end{aligned}y ^===a r g m a x y ∈Y P (y ∣x )a r g m a x y ∈Y P (x )P (x ∣y )P (y )a r g m a x y ∈Y P (x ∣y )P (y )(P (x )不影响最大值可省略)
但一件事情、一个物品或者一句话它通常会被提取出很多特征，比如判断一台电脑是否适合做nlp，我们可能会去看电脑是否是独显、内存是否大、价格是否贵等等，从而判断电脑是否合适。所以把对象x x x变成x 1 , x 2 , . . . , x m x_1,x_2,…,x_m x 1 ,x 2 ,…,x m 个特征。
y ^ = a r g m a x y ∈ Y P ( x 1 , x 2 , . . . , x m ∣ y ) P ( y ) \hat{y} = argmax_{y \in Y}P(x_1,x_2,…,x_m|y)P(y)y ^=a r g m a x y ∈Y P (x 1 ,x 2 ,…,x m ∣y )P (y )
为了简单地得到这个式子的结果，我们做一个 朴素的假设，假设特征之间毫无联系。
P ( x 1 , x 2 , . . . , x m ∣ y ) P ( y ) ≈ P ( x 1 ∣ y ) P ( x 2 ∣ y ) . . . P ( x M ∣ y ) = P ( y ) ∏ m = 1 M P ( x m ∣ y ) P(x_1,x_2,…,x_m|y)P(y) \approx P(x_1|y)P(x_2|y)…P(x_M|y) = P(y)\prod_{m=1}^MP(x_m|y)P (x 1 ,x 2 ,…,x m ∣y )P (y )≈P (x 1 ∣y )P (x 2 ∣y )…P (x M ∣y )=P (y )m =1 ∏M P (x m ∣y )
优点：

训练和分类过程非常快
具有很好的鲁棒性，低方差。适用于低数据量情况
当独立假设是正确地时候，他就是最好的分类器之一
实现起来非常简单

缺点：

相互独立的假设很少成立
在大多数情况下，相比其他方法，它的准确率比较低
对于没有见过的 class/feature 组合需要smoothing

2.4 逻辑回归（Logistic Regression）

一个线性模型，通过softmax函数将输出”压缩到”(0, 1)之间，这样才能得到一个有效概率。
P ( c n ∣ f 1 … f m ) = 1 Z × e x p ( ∑ i = 0 m w i f i ) P(c_n|f_1\dots f_m) = \frac{1}{Z}\times exp(\sum_{i=0}^mw_if_i)P (c n ∣f 1 …f m )=Z 1 ×e x p (i =0 ∑m w i f i )
逻辑回归模型在训练过程中会最大化所有训练数据的概率，因此适合拟合数据，但同时也就会存在过拟合的风险。所以需要逻辑回归总会包含一个正则项（或者说惩罚项）使得权重降低或者稀疏。

优点：
不会像朴素贝叶斯那样被不同的、相关的特征所迷惑，在这种情况下逻辑回归会有更好的性能。
缺点：

训练过程慢
需要特征缩放，因为当不同特征之间的量级差别特别大的时候，逻辑回归结果就很差
需要很多训练数据
选择正则化策略（regularisation strategy）是很重要的，因为在逻辑回归这里过拟合是个大问题

2.5 支持向量机（Support Vector Machines）

找到一个超平面（hyperplane）可以将训练数据根据最大边际划分。

H 3 H_3 H 3 是比较好的hyperplane，相比H 1 H_1 H 1 来说它分开了黑白点，相比H 2 H_2 H 2 来说它和两个类别的距离更大更合理。

优点：

更快更准确的线性分类器
用不同内核（kernel trick）也可以实现非线性分类器
有大量特征数据集的时候能很好的工作

缺点：

多分类问题会有点笨拙
需要特征缩放
当数据集中类别分布不均匀时表现欠佳
可解释性较差

相比deep learning，为什么SVM在NLP中更受欢迎？

非线性的内核（kernel trick）对文本效果特别好
NLP中特征缩放不是一个问题
NLP数据集一般很大，并包含很多特征集，这也是SVM最喜欢的。

; 2.6 K 近邻（KNN）

根据最近的k个训练集样本特征中的多数来分类。

上图中绿点当看最近的三点，那么就会被分成红三角，当看最近的五点，则会被分成蓝正方。
距离定义公式可以不同：
一般会有欧拉距离（Euclidean distance）、余弦距离（Cosine distance）

优点：

简单但意外的有效
不需要训练集
本身就可以做多分类
对于无限数据集是个很好的分类器

缺点：

需要选择一个k
当数据的类别非常不平衡时会有问题
通常在找邻近点的时候非常慢
特征通常要小心选择，因为当数据越来越多的时候，特征集不能太大，不然计算的越来越慢

2.7 决策树（Decision Tree）

构建以可树，树上的每个节点（node）都对应一个独立的特点。
树叶（Leaves）是最终的决定。
基于相互信息（mutual information）的贪婪最大化（greedy maximization）

关于怎么选取哪个节点应该是什么特征，到时候会在其他文章讲到，大致意思会通过计算信息增益（information gain），得到这个特征区分样本的能力如何，IG越大能力就越强，就可以最先放入树。

优点：

能够快速搭建和测试
和特征缩放毫不相关
对于小的特征集是好的
可以处理非线性分割的问题

缺点：

可解释性可能不太好。当数据量很大包含很多特征时，不同特征的组合会导致树又大又深，很难发现其中的信息
会有很冗余的子树，因为特征之间可能存在依赖关系
当特征集很大的时候，相比其他模型没有竞争性

; 2.8 随机森林（Random Forests）

一种基于决策树的集合型分类器，它包含了很多决策树模型。这些决策树都是通过子集和子特征集训练出来的。
最终的类型是由这些子分类器通过众数投票决定的。

优点：

通常比决策树更准确也更鲁棒
对于中小型特征集效果不错
可以将训练平行化

缺点：

缺乏解释性
大型特征集处理起来很慢

2.9 神经网络（Neural Networks）

一组相互连接的节点，被分配在不同的层。
输入层（特征），输出层（一个类别的概率），还有至少一层隐藏层。
每个节点对其来自上一层的输入进行线性加权，通过激活函数将结果传递给下一层的节点。

优点：

非常强大，nlphecv的主宰算法
只需要很小的特征工程

缺点：

不是一个现成（off-the-shelf）的分类器
有很多超参数，很难进行优化
训练起来很慢
容易出现过拟合

调参：

需要调参的数据集：
Development set（验证集）
训练集和测试集不需要
k 折交叉验证（k-fold cross-vallidation），适用于较少数据量的情况
特定的分类模型有特定的超参数，比如决策树中的树的深度
很多参数和正则化有关，正则化超参数会对模型的复杂度有所惩罚，经常是用来防止过拟合。
多个超参的时候，可以用grid search来调参（一次性尝试很多不同组合的参数）

; 3 评估（Evaluation）

3.1 准确性（Accuracy）

准确性 = 完全正确的分类 / 所有的分类
a c c = ( 79 + 10 ) / ( 79 + 13 + 8 + 10 ) = 0.81 acc =(79+10) / (79+13+8+10) = 0.81 a c c =(7 9 +1 0 )/(7 9 +1 3 +8 +1 0 )=0 .8 1
通常我们在做预测的时候会有一个简单的baseline，就是把所有的类都预测成一个，比如说这里我们简单的就把所有预测见过设为A，因为原本这个数据集中就有 79 + 13 个A，那baseline的准确率就有79 + 13 / 79 + 13 + 8 + 10 = 0.84 79 + 13 / 79+13+8+10 = 0.84 7 9 +1 3 /7 9 +1 3 +8 +1 0 =0 .8 4。
所以说当训练集存在不平衡问题的时候，准确率就不是很好的评估指标。

; 3.2 精度和召回率（Precision & Recall）

假设分类B是Positive类别。

False Positive：本身不是B但是预测成了B（positive）
False Negative：本身是B但是预测成了A（Negative）。
True Positive：本身是B预测也是B
P r e c i s i o n = T P T P + F P = 10 10 + 13 = 0.43 Precision = \frac{TP}{TP+FP} = \frac{10}{10+13} = 0.43 P r e c i s i o n =T P +F P T P =1 0 +1 3 1 0 =0 .4 3
R e c a l l = T P T P + F N = 10 10 + 8 = 0.56 Recall = \frac{TP}{TP+FN} = \frac{10}{10+8}=0.56 R e c a l l =T P +F N T P =1 0 +8 1 0 =0 .5 6

我们希望Recall和Precision的值都提高。
Recall：拿现在疫情为例，我们不希望一个小阳人核酸检测结果是阴性的吧，就是希望FN少一点，那这样Recall就高了。
Precision：以癌症为例子，如果说得了癌症是positive，那我们肯定不希望说我原本是健康的，但是医院给我检测出癌症，所以希望FP少一点，那Precision就高了。

3.3 F1 – score

将精度和召回率结合成一个指标：
F 1 = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l F1 = \frac{2 \times precision \times recall}{precision + recall}F 1 =p r e c i s i o n +r e c a l l 2 ×p r e c i s i o n ×r e c a l l

与精度和召回率一样，评估之前我们要确定一个类别是positive的。
但是可以作为一个通用的多类别指标
宏观平均（Macroaverage）：不同类别之间的平均F值
通过分别计算类别A与类别B的F1，然后计算平均，这样可以平等地看待两个类别。
微观平均（Microaverage）：利用计数累加和计算F值
当类别A、B的重要程度不一样时（根据出现的数量决定的），那我们可以采用此方法。

虽然讲了这么多算法，但是如果能有一个标注很好的、类别丰富的大型数据集还是最重要的。

4 sklearn简单例子

以 sklearn中路透社语料库（reuters corpus）为数据，调用现成的包来完成简单的文本分类。后期准备在机器学习部分手撕基本的代码。

路透社语料库：
简单介绍一下，它是新闻类的语料库，总共分了 90 个topics，数据集里面分为train和test两类。
reuter主要有三个属性 reuter.fileid， reuter.category， reuter.words。


reuters.fileids()

reuters.categories()

reuters.fileids('barley')

reuters.categories('training/9865')

reuters.words('training/9865')[:14]

reuters.words(['training/9865', 'training/9880'])

reuters.words(categories='barley')

reuters.words(categories=['barley', 'corn'])

reuters有意思的是一篇新闻中往往会有多个主题，所以可能 同一篇数据新闻会被标记在多个topic下。

导入语料库

import nltk
nltk.download("reuters")
from nltk.corpus import reuters

假设我们现在把数据根据 _acq_类来划分，分成是 _acq_类和不是 _acq_类。

from sklearn.feature_extraction import DictVectorizer

def get_BOW(text):

    BOW = {}

    for word in text:
        BOW[word] = BOW.get(word,0) + 1
    return BOW

def prepare_reuters_data(topic,feature_extractor):
    training_set = []
    training_classifications = []
    test_set = []
    test_classifications = []

    for file_id in reuters.fileids():

        feature_dict = feature_extractor(reuters.words(file_id))
        if file_id.startswith("train"):

            training_set.append(feature_dict)

            if topic in reuters.categories(file_id):
                training_classifications.append(topic)
            else:
                training_classifications.append("not " + topic)
        else:

            test_set.append(feature_dict)
            if topic in reuters.categories(file_id):
                test_classifications.append(topic)
            else:
                test_classifications.append("not " + topic)

    vectorizer = DictVectorizer()

    training_data = vectorizer.fit_transform(training_set)
    test_data = vectorizer.transform(test_set)
    return training_data,training_classifications,test_data,test_classifications

trn_data,trn_classes,test_data,test_classes = prepare_reuters_data("acq",get_BOW)

然后通过不同分类模型进行10-fold cross validation得出每个模型的准确率如何。

from sklearn import model_selection

from sklearn.metrics import accuracy_score, classification_report

from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression

clfs = [KNeighborsClassifier(),DecisionTreeClassifier(),RandomForestClassifier(),
        MultinomialNB(),LinearSVC(),LogisticRegression()]

"""
1、在训练模型时，如果已经预先指定好超参数了，这时候k交叉验证训练出来的模型只是不同数据训练出来的参数(权重)不同的相同结构的模型。
一些文章中预先指定了超参数，再用k交叉验证只能单单说明在这组超参数下，模型的准确率是这样的，并不能说明当下的这组超参数是比其他的好。
2、k交叉验证的用法是分别对自己想要尝试的n组超参数进行k交叉验证训练模型，然后比较n组超参数下用k交叉验证方法得到的n个平均误差，然后选出误差较小的那组超参数。
3、在做实验时，比如要比较不同学习算法的效果，要先分别对不同算法用k交叉验证方法确定一组较好的超参数，然后在测试集上比较他们的准确率
"""

def do_multiple_10foldcrossvalidation(clfs,data,classifications):
    for clf in clfs:
        predictions = model_selection.cross_val_predict(clf, data,classifications, cv=10)
        print (clf)
        print ("accuracy")

        print (accuracy_score(classifications,predictions))
        print (classification_report(classifications,predictions))

do_multiple_10foldcrossvalidation(clfs,trn_data,trn_classes)

其实上述代码出来的结果中，KNN的结果是最差的，这是因为它特别容易受到具有与任务无关的维度的噪声特征空间的影响。所以我们刚刚的数据处理并不完整，需要对 BOW 先 小写化，再进行 lemmatize或者 stemm，然后再 过滤一遍停用词，这样才算最基础的预处理。

from nltk.corpus import stopwords
nltk.download('stopwords')
stopwords = stopwords.words('english')

def get_BOW_lowered_no_stopwords(text):

    BOW = {}
    for word in text:
        word = word.lower()
        if word not in stopwords:
            BOW[word] = BOW.get(word,0) + 1
    return BOW

trn_data,trn_classes,test_data,test_classes = prepare_reuters_data("acq",get_BOW_lowered_no_stopwords)

do_multiple_10foldcrossvalidation(clfs,trn_data,trn_classes)

Original: https://blog.csdn.net/qq_41020633/article/details/123467751
Author: 无名草鸟
Title: 【NLP基础理论】03 文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548764/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

计算机视觉之目标检测库安装记录

detectron2开源项目位置： detectron2安装文档：测试demo python demo.py –config-file ../configs/COCO-Inst…

人工智能 2023年7月12日
0061
RTX3060+ubuntu22.04LTS配置tensorflow1.15和tensorflow2.6

换电脑了，3060显卡按照之前的方法https://blog.csdn.net/weixin_41631106/article/details/119547755，用conda安装…

人工智能 2023年5月23日
00176
基于pytorch的BP神经网络模型构建

小伙伴好，最近想要认真学习一波pytorch，打算通过pytorch去构建一系列的网络模型，包括CNN、LSTM、Transform等，后续都会进行搭建。一个不断学习的小菜鸡，也希…

人工智能 2023年7月14日
0036
C均值聚类算法 Excel数据分类处理(介绍+Python实现)

模式识别学习，课程实例分享。文章目录第一，实验步骤描述 [TencentCloudSDKException] code:FailedOperation.ServiceIsola…

人工智能 2023年6月2日
0077
机器学习实战练手项目

前导更多文章代码详情可查看博主个人网站：https://www.iwtmbtly.com/ 下文用到的数据集和代码可以从这里下载《数据集》机器学习是一种从数据生成规则、发现模型…

人工智能 2023年7月26日
0060
STM32F103在CubeIDE运行FreeRTOS

STM32F103在CubeIDE运行FreeRTOS 硬件平台：STM32F103CT6软件平台：CubeIDE 1.8.0实现效果：创建两个TASK，TASK1中实现500ms…

人工智能 2023年6月29日
0072
KNN——水果分类

文章目录一、数据集处理 * – 1、下载数据集 2、统一数据集格式 3、加载数据集二、分离训练集、验证集三、定义KNN模型 * – 1、计算欧式距离 …

人工智能 2023年7月1日
0076
【Rust日报】2022-11-08 bless.rs: 带你走入 Rust 生态

bless.rs: 带你走入 Rust 生态与 Python 和 Go 等其他编程语言相比，Rust 的标准库非常小，仅包含一些核心数据结构，所有其他功能都交给第三方 crate…

人工智能 2023年6月27日
0063
深度学习笔记(十三):IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU损失函数分析及Pytorch实现

文章目录 IOU-loss GIOU-loss DIOU-loss CIOU-loss EIOU-loss和Focal EIOU-loss alpha IOU SIOU-loss …

人工智能 2023年6月16日
0043
面向数据发布和分析的差分隐私保护 — 张啸剑

面向数据发布和分析的差分隐私保护读这篇综述的随记基于ｋ－匿名或者划分的隐私保护方法，只适应特定背景知识下的攻击而存在严重的局限性．差分隐私作为一种新出现的隐私保护框架，能够防…

人工智能 2023年7月17日
0054
Anaconda安装github上下载的包或者本地包

一将github上下载的包，解压后放入anaconda路径下的site-pakages文件夹下我下载的文件名是nda-tools-master 我的路径是F:\anacond…

人工智能 2023年7月27日
0058
nnunet详细预处理过程

重采样代码部分整理 import SimpleITK import numpy as np def get_target_spacing(spacings,sizes): ”’…

人工智能 2023年6月21日
0067
CUDA入门技术路线及基础知识

最近工作主要集中在目标检测算法部署方面，在树莓派4B和NVIDIA GPU平台上做了一些内容，个人觉得GPU多核计算对于深度学习的加持作用意义重大，而NVIDIA出品的软硬件是GP…

人工智能 2023年7月14日
0059
Yolov5网络修改教程（将backbone修改为EfficientNet、MobileNet3、RegNet等）

在我的本科毕业论文中，我使用了Yolov5，并尝试对其更改。可以对Yolov5进行一定程度的定制化修改，例如更轻量级的Yolov5-MobileNetv3 或者比Yolov5s更好…

人工智能 2023年6月16日
0087
机器学习—吴恩达_ 第10周_学习总结

机器学习—吴恩达_ 第10周_学习总结 21.11.8-21.11.14 一、无监督学习在原有的监督学习中，无监督学习和监督学习相比监督学习有标签信息，但是无监督学习是没有标签信…

人工智能 2023年5月31日
0087
Neo4j：一、CQL语句

一、Neo4j环境搭建 Neo4j高性能图数据库从入门到实战学习视频neo4j官方下载连接 window傻瓜式安装，点击下一步下一步首页界面介绍 ; 二、Neo4j构建的元素节…

人工智能 2023年6月1日
0084

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30