自然语言处理学习笔记十一(文本分类)

在文本聚类中,体验了无须标注语料库的便利性,但是无监督学习总归无法按照我们的意志预测出文档的类别,限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中,于是有了文本分类的产生。

一、文本分类的概念

文本分类是一个典型的监督学习任务,其流程离不开人工指导:人工标注文档的类别,利用语料训练模型,利用模型预测文档的类别。

二、文本分类语料库

文本分类语料库的标注过程相对简单,只需收集一些文档,人工指定每篇文档的类别即可。另外,许多新闻网站的栏目是由编辑人工整理的,如果栏目设置符合要求,也可以用爬虫爬取下来作为语料库使用。

三、文本分类的特征提取

在机器学习中,我们需要对具体对象提取出有助于分类的特征,然后交给某个分类器进行分类。这些特征数值化后为一个定长的向量,用来作为分类器的输入。在训练时,分类器根据数据集中的数据点学习决策边界。在预测师,分类器根据输入的数据点落在决策边界的位置来决定类别。

3.1 分词

文本分类并不一定需要进行分词,将文本中相邻的两个字符构成的所有二元语法作为”词”,反而能取得更好的分类准确率。

3.2 卡方特征选择

对于文本分类而言,其特征提取过程与文本聚类相同,特征提取的结果都为词袋模型下的稀疏向量(词袋向量)。唯一不同的是,许多常用单词对分类决策的帮助不大,比如 ‘的’、标点符号等,也有可能一些单词在所有类别的文档中均匀出现。为了消除这些单词的影响,一方面可以用停用词表,一方面可以用 卡方非参数检验来过滤掉与类别相关程度不高的词语。 计算出每个特征的卡方值后,确定哪些特征有用,然后就可以将文档转化为向量了

3.3 词袋向量

用特征的id作为下标,频次作为数值,假设一共有n个特征,一篇文档就可以转化为n维的词袋向量。

在不尽兴特征选择的前提下,如果以词语作为特征,则n大约在10万量级;如果以字符二元语法作为特征,则n大约在50万量级。数十万维的向量运算开销不容小觑,一般利用卡方特征选择,可以将特征数量减小到10%-20%左右。

四、朴素贝叶斯分类器

在各式各样的分类器中,朴素贝叶斯法算是最简单常用的一种生成式模式。朴素贝叶斯法基于贝叶斯定理将联合概率转化为条件概率,然后利用特征条件独立假设简单条件概率的计算。

朴素贝叶斯法实现简单,但由于特征独立性假设过于强烈,有时会影响准确性,为此我们可以使用更加健壮的 支持向量机分类器

五、支持向量机分类器

支持向量机是一种二分类模型,其学习策略在于如何找出一个决策边界,使得边界到正负样本的最小距离都最远。这种策略使得支持向量机有别于感知机,能够找到一个更加稳健的决策边界。支持向量机最简单的形式为线性支持向量机,其决策边界为一个超平面,适用于线性可分数据集。

六、标准化评测

评测指标P、R、F1,中文文本分类的确不需要分词,不分词直接用二元语法反而能够取得更高的准确率,只不过由于二元语法数量比单词多,导致参与运算的特征更多,相应的分类速度减半。

线性支持向量机的分类准确率更高,而且分类速度更快,推荐使用。

Original: https://blog.csdn.net/liuhuabing760596103/article/details/121287473
Author: 犀利哗啦760596103
Title: 自然语言处理学习笔记十一(文本分类)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/665141/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球