python –利用朴素贝叶斯进行文本分类

2023年5月31日上午2:23 • 人工智能 • 阅读 60

一，分类目标

寻找文本的某些特征，然后根据这些特征将文本归为某个类。
使用监督式机器学习方法对文本进行分类：首先假设已经有分好类的N篇文档：(d1,c1)、(d2,c2)、(d3,c3)……(dn,cn)
di表示第i篇文档，ci表示第i个类别。目标是：寻找一个分类器，这个分类器能够：当丢给它一篇新文档d，它就输出d （最有可能）属于哪个类别。

二、朴素贝叶斯分类器

朴素贝叶斯分类器是一个概率分类器。假设现有的类别C={c1，c2，……cm}。给定一篇文档d，文档d最有可能属于哪个类呢？这个问题用数学公式表示如下：
$P(Y,X) = P(Y|X)P(X)=P(X|Y)P(Y) $

其中P ( Y ) P(Y)P(Y)叫做先验概率，P ( Y ∣ X ) P(Y|X)P(Y∣X)叫做后验概率，P ( Y , X ) P(Y,X)P(Y,X)叫做联合概率。
在机器学习的视角下，我们把X XX理解成“具有某特征”，把Y YY理解成”类别标签”(一般机器学习问题中都是X=>特征, Y=>结果对吧)。在最简单的二分类问题(是与否判定)下，我们将Y YY理解成”属于某类“的标签。

三、jieba切词

jieba分词属于概率语言模型分词。概率语言模型分词的任务是：在全切分所得的所有结果中求某个切分方案S，使得P(S)最大。

jieba支持三种分词模式：
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
精确模式，试图将句子最精确地切开，适合文本分析；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

jeiba分词过程：
生成全切分词图：根据trie树对句子进行全切分，并且生成一个邻接链表表示的词图（DAG），查词典形成切分词图的主体过程如下所示：

for(int i=0;i<len;){
    boolean match = dict.getMatch(sentence, i,
wordMatch);//到词典中查询
    if (match) {// 已经匹配上
        for (String word:wordMatch.values)
{//把查询到的词作为边加入切分词图中
            j = i+word.length();
            g.addEdge(new CnToken(i, j, 10, word));
        }
        i=wordMatch.end;
    }else{//把单字作为边加入切分词图中
        j = i+1;
        g.addEdge(new CnToken(i,j,1,sentence.substring(i,j)));
        i=j;
    }
}

计算最佳切分路径：在这个词图的基础上，运用动态规划算法生成切分最佳路径。
使用了HMM模型对未登录词进行识别：如进行中国人名、外国人名、地名、机构名等未登录名词的识别，重新计算最佳切分路径。

四、实现朴素贝叶斯分类文本

demo代码如下

import os
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

def cut_words(file_path):
"""
    对文本进行分词
    :param file_path:  txt文本路径
    :return: 用空格分隔的字符串
"""

    text_with_spaces = ''
    text = open(file_path,'r',encoding='gb18030').read()
    text_cut = jieba.cut(text)
    print(text_cut)
    for word in text_cut:
        text_with_spaces += word + ' '
        print(text_with_spaces)
    return text_with_spaces

def loadfile(file_dir,label):
"""
    加载路径下所有文件
    :return:
"""
    file_list = os.listdir(file_dir)
    word_list = []
    labels_list = []
    for file in file_list:
        file_path = file_dir + '/' + file
        word_list.append(cut_words(file_path))
        labels_list.append(label)

    return  word_list,labels_list

train_words_list1, train_labels1 = loadfile(r'D:\taoqing\data\train\女性','女性')
train_words_list2, train_labels2 = loadfile(r'D:\taoqing\data\train\体育', '体育')
train_words_list3, train_labels3 = loadfile(r'D:\taoqing\data\train\文学', '文学')
train_words_list4, train_labels4 = loadfile(r'D:\taoqing\data\train\校园', '校园')

train_words_list = train_words_list1 + train_words_list2 + train_words_list3 + train_words_list4
train_labels = train_labels1 + train_labels2 + train_labels3 + train_labels4

test_words_list1, test_labels1 = loadfile(r'D:\taoqing\data\test\女性','女性')
test_words_list2, test_labels2 = loadfile(r'D:\taoqing\data\test\体育', '体育')
test_words_list3, test_labels3 = loadfile(r'D:\taoqing\data\test\文学', '文学')
test_words_list4, test_labels4 = loadfile(r'D:\taoqing\data\test\校园', '校园')

test_words_list = test_words_list1 + test_words_list2 + test_words_list3 + test_words_list4
test_labels = test_labels1 + test_labels2 + test_labels3 + test_labels4

stop_words = open(r'D:\taoqing\data\stop\\stopword.txt', 'r', encoding='utf-8').read()
stop_words = stop_words.encode('utf-8').decode('utf-8-sig')
stop_words = stop_words.split('\n')

tf = TfidfVectorizer(stop_words=stop_words,max_df=0.3)
train_features = tf.fit_transform(train_words_list)
test_features = tf.transform(test_words_list)

clf = MultinomialNB(alpha=0.001)

clf.fit(train_features,train_labels)
predicted_labels = clf.predict(test_features)

print('准确率：',metrics.accuracy_score(test_labels,predicted_labels))

五、数据集说明

由于精力有限，目前是构造了四类文本数据集，跑出来后分类结果的准确率在98%左右，可能是数据集偏少的一部分原因，有兴趣的小伙伴可以私信我要相关数据集。
最后附结果图：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持

Original: https://blog.csdn.net/weixin_42947172/article/details/116905192
Author: 贝加尔湖畔_tq
Title: python –利用朴素贝叶斯进行文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547925/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【课程设计｜MFC】学生成绩分析系统（含课程报告+源码）

独立打包，保证可解压，内含_大量 _源码，网上搜集而来。一共10几包，每个包几十兆。 Visual. C++_编程技巧精选500例源代码内 _含_各种例子（vc下各种控件的使用…

人工智能 2023年6月27日
00137
Poisson回归和负二项回归该如何分析

1.前提条件在分析之前，首先我们要了解Poisson分布和负二项回归分布的适用条件，它们均需满足以下三个条件： 1.平稳性：发生频数的大小，只与单位大小有关系。(比如1万为单位，…

人工智能 2023年6月17日
0060
通过Rasa搭建聊天机器人实战(一)—环境部署

本系列仅做操作指导，具体原理请参照官方文档:https://rasa.com/docs/rasa/ 当前这些操作应该是适应于所有版本的，本来想研究一下2.8版的内容并写一下对应博客…

人工智能 2023年5月31日
0097
【YOLOV5】YOLOv5模块解析

YOLOv5的相关模块，主要存在与作用：下采样 Focus模块的作用是对图片进行切片，类似于下采样，先将图片变为320×320×12的特征图，再经过3×3的卷积操作，输出通道32…

人工智能 2023年6月16日
0064
【华为机试真题详解】投篮大赛【2022 Q4 | 100分】

文章目录前言题目描述示例 1 题目解析参考代码 ; 前言《华为机试真题详解 Python实现》专栏含牛客网华为专栏、华为面经试题、华为OD机试真题。如果您在准备华为的面试…

人工智能 2023年7月30日
0048
基于MATLAB的激光光斑图像处理算法

常用的激光光斑中心检测算法有均值法、重心法及Hough变换法、圆拟合等。本设计拟采用圆拟合对激光光斑进行检测。一、激光光斑图像预处理激光光斑原始图像中光斑内部光强分布不均匀，且…

人工智能 2023年6月17日
0096
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java执法资格在线考试lu7no

首先选择计算机题目的时候先看定什么主题，一般的话都选择当年最热门的话题进行组题，就比如说，今年的热门话题有奥运会，全运会，残运会，或者疫情相关的，这些都是热门话题，所以你就可以根…

人工智能 2023年6月27日
0065
自动驾驶路径规划——轨迹规划（详解插值法）

目录前言 1. 轨迹规划 1.1 轨迹规划包括以下几个问题： 2. 三次多项式插值 3. 过路径点的三次多项式插值 4. 用抛物线过渡的线性插值过路径点的用抛物线过…

人工智能 2023年6月2日
0078
神经信息传递法(MPNN)—预测分子和材料特性

神经信息传递法（MPNN）—预测分子和材料特性前言基于图神经网络（ GNN）的方法在模拟复杂相互作用方面具有巨大的潜力，被广泛应用于分子量子力学性质以及材料预测的预测。目前为止…

人工智能 2023年7月13日
0081
基于Verilog搭建一个卷积运算单元的简单实现

目录前言 1. 图片的缓存与读取 2. 滑窗的构建 3. 权值的读取 * 3.1 行列计数器的构建 3.2 权重数据的取存 4. 卷积运算 * 4.1 乘法运算 4.2 加法运算…

人工智能 2023年7月27日
0064
面向法律领域的罪名预测、问题分类与FAQ问答模型设计与实现【NLP】

一、面向法律领域的罪名预测、问题分类与FAQ问答模型设计与实现【NLP】目前NLP技术在各个行业中应用逐步打开，尤其在金融，医疗，法律，旅游方面，NLP技术助力法律智能，能够在一…

人工智能 2023年7月1日
0072
第六章使用神经网络拟合数据

本章主要内容 1、神经网络与线性模型相比，非线性激活函数是主要的差异。 2、使用pytorch的nn模块。 3、用神经网络求解线性拟合问题。 1.激活函数 ##一些激活函数 imp…

人工智能 2023年7月22日
0062
决策树算法

目录 1. 概述 1.1 算法导入 1.2 决策树定义 1.3 决策树发展 1.4 结构 1.5 从树到规则 2.决策树的构建 2.1 基本原理 2.2 特征选择 2.3 实例分析…

人工智能 2023年6月12日
00119
【目标检测】YOLOv5跑xView数据集/小样本检测策略实验

前言在YOLOv5的6.1版本新出了 xView.yaml数据配置文件，提供了遥感数据集xView的检测方法。此篇就使用YOLOv5来试跑xView数据集，并对一些小样本检测的策…

人工智能 2023年6月25日
0076
【目标检测-YOLO】YOLOv5 Multi-GPU 训练

📚 本指南解释了如何正确地在一个或者多个机器上使用多gpu 在一个数据集上训练训练YOLOv5 🚀。2022年4月6日更新。 https://github.com/ultra…

人工智能 2023年7月9日
0078
阿里云龙珠机器学习训练营Task1：机器学习算法（一）: 基于逻辑回归的分类预测

补充一些代码的注释，方便理解： #Step1:库函数导入 #基本函数库 import numpy as np #导入画图库 import matplotlib.pyplot as …

人工智能 2023年7月2日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python –利用朴素贝叶斯进行文本分类

demo代码如下

大家都在看