基于朴素贝叶斯的新闻分类

2023年7月2日下午4:31 • 人工智能 • 阅读 39

一般来说，文本分类模型需要提前标注好类别的语料作为训练集，属于有监督的学习，核心问题是选择合适的分类算法，构建分类模型。本文利用 TF-IDF 对短文本数据进行特征提取和朴素贝叶斯算法进行数据分类，集成构成模型。具体文本分类步骤如下：

1）预处理：填补文本中的缺失值，删除重复值

2）中文分词：使用 python 中的 jieba 库为文本分词，并去除停用词。

3）构建词向量空间：统计文本词频，生成文本的词向量空间。

4）权重策略 —TF-IDF 方法：使用 TF-IDF 发现特征词，并抽取为反应文档主题的特征。

5）分类器：使用朴素贝叶斯算法训练器分类。

6）评价分类结果：用 kappa 系数对分类器的测试结果评价分析。

2.1 分布特征

首先，将数据整体进行描述性分布分析，对本文数据集进行新闻类别数量分布以及发文时间分布进行统计，结果如图。

图 2.1 新闻类别分布

从上图可看出，数据整体分布不太均匀，两极分化较为严重。其中书画、人物、国内、健康、社会、国际分布大体一致，是数据的主要组成部分；法治、生活次之；科技、教育、文娱、三农、农经、军事、经济分布一致，但是数据占比很低。结合现实生活可知，人们对健康、人物、社会等主题的新闻往往关注度较高，故相应的新闻报道就会偏多。

图 2.2 新闻时间分布

从上图可看出，本文爬取的新闻数据是从 2020 年 12 月至 2021 年 4 月的。其中本年 4 月份的数据占比最多，而其他月份的数据分布较均匀，可见，新闻的时效性很强，系统将会优先自动推荐临近时间的新闻给用户，而历史数据次之。

2.2 数据预处理

本文的数据来源是 CCTV 频道的新闻数据。文本预处理是文本分类常见且必须的步骤，通过清除不一致或无实体语义的字符，以及过滤分词后的停用词，都可以尽可能的降低文本噪声带来的分类性能上的影响。并且可以有效的降低模型占用的内存，提高模型的泛化能力。本文在文本数据预处理上主要采用了字符清洗、分词、去停用词。目前业界常见的分词工具包括 jieba 分词、清华的分词工具以及斯坦福的分词包。其中 jieba 分词在词性标注、分词准确率、分词粒度和性能上都相对较好，因此本文主要采用 jieba 进行文本分词操作。由于新闻标题数据长度较短，语义表述较为简洁，因此不能采用全部的 jieba 停用词表，本文仅对一些非常常见的停用词进行了过滤，例如”呢”，”吗”、”的”等词，既最大程度的保证了语义的完整性，又尽可能的去掉了停用词。

2.3 TF-IDF 挖掘文本特征

文本数据属于非结构化数据，一般要转换成结构化的数据，一般是将文本转换成”文档 -词频矩阵”，矩阵中的元素使用词频或者 TF-IDF。TF-IDF 的主要思想是：如果某一个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或短语具有很好的类别区分能力，适合用于分类。
TF − IDF = TF ∗ IDF

IDF 主要思想：如果包含词条 t 的文档越少，也就是 n 越小，IDF 越大，则说明词条 t 具有很好的区分能力。

TF 指的是某一个给定的词语在该文件中出现的频率，这是对词数的归一化，IDF 是一个词语重要性的度量，IDF=log（D/Dn），其中对数以 2 为底，D 为文本总数，Dn 为该词在 n 个网页中出现过。

Original: https://blog.csdn.net/qq_52943826/article/details/119963980
Author: qq_52943826
Title: 基于朴素贝叶斯的新闻分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665804/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【视觉SLAM(二)】Realsense D455在Jetson Nano上的安装Realsense和ROS驱动安装

一、安装驱动 cd ~ git clone https://github.com/jetsonhacksnano/installSwapfile cd installSwapfil…

人工智能 2023年6月10日
0072
PyTorch中的多GPU训练：DistributedDataParallel

在pytorch中的多GPU训练一般有2种DataParallel（DP）和DistributedDataParallel（DDP），DataParallel是最简单的的单机多卡…

人工智能 2023年7月21日
0059
基于MATLAB的运动模糊图像处理

基于MATLAB的运动模糊图像处理研究目的在交通系统、刑事取证中图像的关键信息至关重要，但是在交通、公安、银行、医学、工业监视、军事侦察和日常生活中常常由于摄像设备的光学系统的…

人工智能 2023年6月18日
0085
【深度学习】常见的神经网络层（上）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页：knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀 给大家推荐一款很火爆的刷题、面试求…

人工智能 2023年6月12日
0070
Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION（论文阅读）

Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章，是针对Detr 的改进。论文：《DEFORMABLE DETR: DEFOR…

人工智能 2023年7月9日
0090
【Python案例】用某度AI接口实现抠图并改图片底色

文章目录前言正文 * 一、注册百度AI账号，创建人像分割应用二、代码实现 – 1.引入库 2.获取Access Token 核心代码 4.图片底色填充 5.图片压…

人工智能 2023年6月23日
0074
使用sklearn-LDA分析微博评论数据并进行主题聚类可视化

最近从微博评论中获取了部分关于俄乌局势的评论，于是尝试根据评论内容进行简单的LDA主题聚类分析。主要涉及评论数据清洗、LDA数据分析、pyLDAvis可视化、困惑度计算。一、数据…

人工智能 2023年5月27日
0072
机器学习-随机森林(RandomForest)详解

1.什么是随机森林随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方…

人工智能 2023年6月15日
0084
Package | 解决 module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

. 问题背景由于这个问题出现了两回，决定记录一下。实验背景是使用opencv python库进行数据预处理，遇到报错信息如下：”import cv2File &#82…

人工智能 2023年7月19日
0069
4-03-1 Pandas – 折线图、柱状图、直方图、箱型图

4.3 Pandas 内置可视化方法 Pandas 本身也提供几个简单的数据可视化图形，可以完成简单的变化－折线图、等级－柱状图、分布－直方图、箱型图、相互关系－散点图、分群－安德…

人工智能 2023年7月7日
0059
【阅读笔记】Multi-Channel Graph Neural Network for Entity Alignment（用于实体对齐的多通道图神经网络）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0069
解决(‘You must install pydot (`pip install pydot`) and install graphviz (see…) ‘, ‘for plot_model..

目录一、报错提示二、解决方案（共四步） * 2.1 安装pydot 2.2 下载并安装graphviz包 2.3 配置环境变量（graphviz） 2.4 调用三、结果展示 …

人工智能 2023年5月25日
00113
知识图谱：【图数据库Nebula（五）】——Nebula Importer导入数据

文章目录 * – Step 1. 启动Nebula容器 – Step 2. 连接 Nebula Graph 服务器 – Step 3. 通过ne…

人工智能 2023年6月1日
0069
在飞桨平台做图像分类-1 制作基于飞桨的数据集|CSDN创作打卡

在飞桨平台做图像分类文章目录在飞桨平台做图像分类前言制作数据集 * 下载数据集飞桨数据集制作飞桨数据集数据集的加载完整代码前言计划是在寒假时用在飞桨平台上做动物…

人工智能 2023年7月1日
0087
Jetson TX2 系列（10）TensorRT模型部署

本文主要完成搭建自己的TensorRT模型部署的 搬运工作。目录 1. Ubuntu安装T…

人工智能 2023年5月26日
00109
Pandas

一、Pandas的数据结构分析 Pandas的两个主要的数据结构：Series和DataFrame (1)Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组…

人工智能 2023年7月17日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于朴素贝叶斯的新闻分类

大家都在看