自然语言处理学习笔记十一（文本分类）

2023年7月2日上午9:20 • 人工智能 • 阅读 64

在文本聚类中，体验了无须标注语料库的便利性，但是无监督学习总归无法按照我们的意志预测出文档的类别，限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中，于是有了文本分类的产生。

一、文本分类的概念

文本分类是一个典型的监督学习任务，其流程离不开人工指导：人工标注文档的类别，利用语料训练模型，利用模型预测文档的类别。

二、文本分类语料库

文本分类语料库的标注过程相对简单，只需收集一些文档，人工指定每篇文档的类别即可。另外，许多新闻网站的栏目是由编辑人工整理的，如果栏目设置符合要求，也可以用爬虫爬取下来作为语料库使用。

三、文本分类的特征提取

在机器学习中，我们需要对具体对象提取出有助于分类的特征，然后交给某个分类器进行分类。这些特征数值化后为一个定长的向量，用来作为分类器的输入。在训练时，分类器根据数据集中的数据点学习决策边界。在预测师，分类器根据输入的数据点落在决策边界的位置来决定类别。

3.1 分词

文本分类并不一定需要进行分词，将文本中相邻的两个字符构成的所有二元语法作为”词”，反而能取得更好的分类准确率。

3.2 卡方特征选择

对于文本分类而言，其特征提取过程与文本聚类相同，特征提取的结果都为词袋模型下的稀疏向量（词袋向量）。唯一不同的是，许多常用单词对分类决策的帮助不大，比如 ‘的’、标点符号等，也有可能一些单词在所有类别的文档中均匀出现。为了消除这些单词的影响，一方面可以用停用词表，一方面可以用 卡方非参数检验来过滤掉与类别相关程度不高的词语。 计算出每个特征的卡方值后，确定哪些特征有用，然后就可以将文档转化为向量了。

3.3 词袋向量

用特征的id作为下标，频次作为数值，假设一共有n个特征，一篇文档就可以转化为n维的词袋向量。

在不尽兴特征选择的前提下，如果以词语作为特征，则n大约在10万量级；如果以字符二元语法作为特征，则n大约在50万量级。数十万维的向量运算开销不容小觑，一般利用卡方特征选择，可以将特征数量减小到10%-20%左右。

四、朴素贝叶斯分类器

在各式各样的分类器中，朴素贝叶斯法算是最简单常用的一种生成式模式。朴素贝叶斯法基于贝叶斯定理将联合概率转化为条件概率，然后利用特征条件独立假设简单条件概率的计算。

朴素贝叶斯法实现简单，但由于特征独立性假设过于强烈，有时会影响准确性，为此我们可以使用更加健壮的 支持向量机分类器。

五、支持向量机分类器

支持向量机是一种二分类模型，其学习策略在于如何找出一个决策边界，使得边界到正负样本的最小距离都最远。这种策略使得支持向量机有别于感知机，能够找到一个更加稳健的决策边界。支持向量机最简单的形式为线性支持向量机，其决策边界为一个超平面，适用于线性可分数据集。

六、标准化评测

评测指标P、R、F1，中文文本分类的确不需要分词，不分词直接用二元语法反而能够取得更高的准确率，只不过由于二元语法数量比单词多，导致参与运算的特征更多，相应的分类速度减半。

线性支持向量机的分类准确率更高，而且分类速度更快，推荐使用。

Original: https://blog.csdn.net/liuhuabing760596103/article/details/121287473
Author: 犀利哗啦760596103
Title: 自然语言处理学习笔记十一（文本分类）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665141/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于opencv的人脸识别

一、需求分析. 1.1 功能与技术需求 1.2 开发环境与运行需求二、设计过程 2.1 主要技术原理 2.2采用的关键技术 2.3系统设计流程 2.4系统各功能模块三、实验运…

人工智能 2023年6月25日
0040
[ 复习 ] – TypeScript 基础类型

本章节，我们来了解一下 TypeScript 的基础类型使用文章目录 * – 基础类型 – 类型断言 ; 基础类型类型示例描述boolean 布尔值 l…

人工智能 2023年6月28日
0064
贝叶斯回归：使用 PyMC3 实现贝叶斯回归

PyMC3(现在简称为PyMC)是一个贝叶斯建模包，它使数据科学家能够轻松地进行贝叶斯推断。 PyMC3采用马尔可夫链蒙特卡罗(MCMC)方法计算后验分布。这个方法相当复杂，原理方…

人工智能 2023年6月17日
0075
《数据挖掘基础》实验：Weka平台实现分类算法

实验目的进一步理解分类算法（决策树、贝叶斯），利用weka实现数据集的分类处理，学会调整模型参数，以图或树的形式给出挖掘结果，并解释规则的含义。实验要求随机选取数据集（UCI…

人工智能 2023年6月30日
0051
【javaSE】初始类与对象

文章目录一、什么是面向对象？二、类的定义与使用三、类和对象的关系四、this关键词五、对象的构造及初始化一、什么是面向对象？ Java是一门纯面向对象的语言(Objec…

人工智能 2023年6月29日
0047
天池Python练习07-字符串

1 字符串 1.1 字符串的定义 1.2 字符串的切片与拼接 1.3 字符串的常用内置方法 1.4 字符串格式化 1.1 字符串的定义 1.python中字符串被定义为引号之间的字…

人工智能 2023年6月28日
0072
【小样本目标检测实践VOC格式】Frustratingly Simple Few-Shot Object Detection

文章目录数据准备 * 数据来源数据预处理 FSDet * step1.配置环境，跑通demo.py step2.准备base model step3.制作自己的few-shot…

人工智能 2023年6月16日
0083
python使用opencv（cv2）的undistortPoints()/undistort()函数对像素坐标/图像去畸变

1 cv2的安装 python下的opencv叫cv2，但是安装cv2并不是直接 pip install cv2，而是： pip install opencv-python 安装完…

人工智能 2023年6月18日
0061
e智团队实验室项目-第三周-经典的卷积神经网络的学习

🍈 经典的卷积神经网络1： Lenet-5 从上图我们可以可以看到，其网络结构和之前在上一篇博客中介绍的网络结构相似，这里我们就不做详细的介绍了。 🍉经典的卷积神经网络2：Alex…

人工智能 2023年6月29日
00108
使用 Docker部署 Tensorflow Serving 模型服务

准备工作拉取 tensorflow servering 的 docker 镜像： sudo docker pull tensorflow/serving，一般是已经有的进入到一…

人工智能 2023年5月24日
0075
Matlab实现时间序列预测

文章目录 * – 一、数据准备 – 二、时间序列预测分类 – + 1、输入为xt，输出是yt + 2、有x值，有y值：NARX + * (1)选…

人工智能 2023年7月12日
0063
mimikatz免杀手段来绕过杀软的限制

mimikatz免杀 * – 0x00 前言 – 0x01 利用微软官方Procdump工具 – 0x02 hashdump工具 –…

人工智能 2023年6月27日
0063
知识图谱和专家系统、知识工程、数据库等概念的比较

知识图谱虽然是Google在2012年公布其开发的搜索引擎时提出的名词，但是知识图谱的雏形早在1960左右就已经出现，因此，知识图谱其实是很多相关技术继承发展的结果。并且，和知识图…

人工智能 2023年6月1日
0081
pytorch中的所有随机数（normal、rand、randn、randint、randperm) 以及随机数种子(seed、manual_seed、initial_seed)

torch的所有随机数官方已经整理在torch — PyTorch 1.10.0 documentation这个页面了，我又重新整理到了本blog中，用中文进行了部分解释，方便理解…

人工智能 2023年6月17日
0076
tf.data.Dataset读取数据详细文档

tf.data.Dataset tf.data中包含了两个用于TensorFLow程序的接口:Dataset和Iterator 我们今天主要来看tf.data.Dataset 一 …

人工智能 2023年5月24日
0087
gma 教程 | 气候气象 | 计算标准化降水指数（SPI）

目标【基于 Excel 降水和蒸散数据计算 SPI】【基于 GTiff 栅格降水和蒸散数据计算 SPI】环境系统： Window 10+ (X64)Python 版本： 3….

人工智能 2023年6月15日
00139

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31