基于朴素贝叶斯算法实现情感分类

2023年7月18日上午5:51 • 人工智能 • 阅读 92

互联网外卖以服务、快捷为卖点，用户的评论与反馈对商家、平台都很重要。本文根据数据中的评论，采用朴素贝叶斯算法来分析用户情感，将用户评论划分为”好评”，”差评”。训练数据集的准确率为99.44%，测试数据集的准确率为81.70%。

算法原理

贝叶斯定理

贝叶斯定理是一个计算条件概率的公式。通过已知概率计算未知的概率，比如我们记A A A的概率是P ( A ) P(A)P (A )，B B B的概率是P ( B ) P(B)P (B )，则P ( A ∣ B ) P(A|B)P (A ∣B )表示观察到事件B B B发生时，事件A A A发生的概率，则其数学表达为：
P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B)=\dfrac{P(A)P(B|A)}{P(B)}P (A ∣B )=P (B )P (A )P (B ∣A )
比如我们记P ( A ) P(A)P (A )为遇见四川人的概率，P ( B ) P(B)P (B )为遇见爱吃火锅的人的概率，那么P ( A ∣ B ) P(A|B)P (A ∣B )就是遇见爱吃火锅的人时，他是四川人的概率。
其中，我们把P ( A ) P(A)P (A )称为先验概率，即我们在不知道B B B事件的前提下，对A A A事件概率的主观判断。在上面的例子中，就是在不知道他是不是喜欢吃火锅的人的前提下，来主观判断他是四川人的概率。
公式里的P ( B ∣ A ) / P ( B ) P(B|A)/P(B)P (B ∣A )/P (B )称为”可能性函数”，这是一个调整因子，即新信息B B B带来的调整，作用是使得先验概率更接近真实概率。
P ( A ∣ B ) P(A|B)P (A ∣B )称为”后验概率”，即在事件B B B发生之后，我们对A A A事件的概率的重新评估。在例子里是遇到爱吃火锅的人后，对他是四川人的概率的重新预测。

朴素贝叶斯分类法

朴素贝叶斯分类法是基于贝叶斯定理和特征条件独立假设的分类方法，它通过特征计算分类的概率，选取概率大的情况，是基于概率论的一种机器学习分类（监督学习）方法，被广泛应用于情感分类领域的分类器。
朴素贝叶斯算法可以用一句话来概括：贝叶斯定理+条件独立假设。条件独立假设指的是：在解决分类问题时，会选取很多数据特征，为了降低计算复杂度，假设数据各个维度的特征相互独立。

多项式分布

多项式分布是指满足类别分布的实验，连续做n n n次后，每种类别出现的特定次数组合的概率分布情况。假设，x i x_i x i 表示类别i i i出现的次数，p i p_i p i 表示类别i i i在单次实验中出现的概率。当满足前提条件∑ i = 1 k x i = n \sum_{i=1}^{k} x_{i}=n ∑i =1 k x i =n时，由随机变量x i x_i x i 构成的随机向量X = [ x 1 , ⋯ , x k ] X=[x_1,\cdots,x_k]X =[x 1 ,⋯,x k ] 满足以下分布函数：
f ( X , n , P ) = n ! ∏ i = 1 k x i ! ∏ i = 1 k p i x i f(X,n,P)=\dfrac{n!}{{\prod_{i=1}^{k}}x_{i}!}\prod_{i=1}^{k}p_{i}^{x_{i}}f (X ,n ,P )=∏i =1 k x i !n !i =1 ∏k p i x i
其中，P P P是由各个类别的概率构成的向量，即P = [ P 1 , ⋯ , P k ] P=[P_{1},\cdots,P_{k}]P =[P 1 ,⋯,P k ]，k k k表示类别的总数，n n n表示实验进行的总次数。也可以把∏ i = 1 k p i x i {\prod_{i=1}^{k}}p_{i}^{x_{i}}∏i =1 k p i x i 理解为按照特定顺序，所有类别出现的某个特征的次数组合的概率。二项式分布和多项式分布结合朴素贝叶斯算法，经常被用来实现文章分类算法。例如，有一个论坛需要对用户的评论进行过滤，屏蔽掉不文明的评论。首先需要有一个经过标记的数据集，我们称为语料库。假设使用人工标记的方法对评论进行人工标记，标记为1 1 1表示包含不文明用语评论，标记为0 0 0表示正常评论。
假设我们的词库大小为k k k，则文章中出现的某个词可以看成是一次满足k k k个类别的类别分布实验。我们知道一篇评论是由n n n个词组成的，因此一篇文章可以看成是进行n n n次符合类别分布的实验后的产物。由此得知，一篇评论文章服从多项式分布，它是词库里的所有词语出现的次数组合构成的随机向量。一般情况下，词库比较大，评论文章只是由少量词组成，所以这个随机向量很稀疏，即大部分元素为0 0 0。通过分析语料库，我们容易统计出每个词出现不文明评论及正常评论文章里的概率，即p i p_i p i 的值。
同时，针对待预测的评论文章，我们可以统计出词库里的所有词在这篇文章里的出现次数，即x i x_i x i 的值及评论文章的词语个数n n n。代入多项式分布的概率质量函数：
f ( X , n , P ) = n ! ∏ i = 1 k x i ! ∏ i = 1 k p i x i f(X,n,P)=\dfrac{n!}{\prod_{i=1}^{k}x_{i}!}\prod_{i=1}^{k}p_{i}^{x_{i}}f (X ,n ,P )=∏i =1 k x i !n !i =1 ∏k p i x i
我们可以求出，待预测的评论文章构成的随机向量X X X，其为不文明评论的相对概率。同理也可求出其为正常评论的相对概率，通过比较两个相对概率，就可以对这篇文章输出一个预测值。
同理，本文所采用的数据包含评论和标签，标记为1 1 1表示好评，标记为0 0 0表示差评。一篇评论由n n n个词组成，因此一条评论可以看成是进行n n n次符合类别分布的实验后的产物。由此得知，一条评论服从多项式分布，它是词库里的所有词语出现的次数组合构成的随机向量。通过分析语料库，我们容易统计出每个词出现在差评及好评评论里的概率，即p i p_i p i 的值。

TF-DIF

TF-IDF是一种统计方法，用以评估一个词语对于一份文档的重要程度。TF表示词频，对一份文档而言，词频是特定词语在这篇文档里出现的次数除以文档的词语总数。
IDF表示一个词的逆向文档频率指数，可以由总文档数目除以包含该词语的文档数目，再将得到的商取对数得到，它表达的是词语的权重指数。
计算出每个词的词频和权重指数后，两者相乘，即可得到这个词在文档中的重要程度。

情感分类的实现

在scikit-learn里，朴素贝叶斯算法在{sklearn.native_bayes}包里实现，本文我们使用MultinomialNB来分析情感，实现评论的分类。

获取数据

数据来自和鲸社区，12k条外卖用户评价。
其中有4000 4000 4 0 0 0好评，7987 7987 7 9 8 7 为差评。文件里共有2 2 2列数据，第1 1 1列label表示评论的标签，即标记为1 1 1表示好评，标记为0 0 0表示差评。第2 2 2列review内容为用户的评论。

data = pd.read_csv("D:/waimai_10k.csv")
review=data['review'].values
label=data['label'].values

我们将数据分成训练集和测试集，其中80%为训练集，20%为测试集。

from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(review, label, test_size=0.20, random_state=2);

t1=Xtrain.tolist()
t2=Ytrain.tolist()
news_train = {'review':t1, 'label': np.array(t2)}

查看一下数据的详细内容，例如第一条评论的文本信息，以及评论所属类别标签。

news_train["review"][0]
news_train["label"]

输出的结果为：
‘鸡翅不是奥尔良味道，排骨不新鲜，送餐慢，披萨还凑合’
array([0, 1, 1, …, 0, 1, 0])
可以看到，第一条评论对应的标签是”0″，也就是差评。

评论的数学表达

把训练用的语料库导入内存，其中news_train[‘review’]是一个数组，里面包含了所有评论的文本信息。

print("summary: {0} documents in 2 categories.".format(len(news_train['review'])))

输出结果为：
summary: 9589 documents in 2 categories.

可以看到，我们的语料库共有9589 9589 9 5 8 9个评论，其中被分成2 2 2个类别。接下来我们把这些评论全部转换为由TF-IDF表达的权重信息构成的向量。

from sklearn.feature_extraction.text import TfidfVectorizer
t = time()
vectorizer = TfidfVectorizer(encoding='latin-1')
X_train = vectorizer.fit_transform((d for d in news_train["review"]))
print("n_samples: \%d, n_features: \%d" \% X_train.shape)

TfidfVectorizer类是用来把所有评论转化为矩阵，该矩阵每行都代表一条评论，一行中的每个元素代表一个对应的词语的重要性，词语的重要性由TF-IDF来表示。
输出结果为：
n_samples: 9589, n_features: 24992
由程序输出可以知道，我们的词典总共有24992 24992 2 4 9 9 2个词语，即每条评论都可转换为一个24992 24992 2 4 9 9 2维的向量。X_train是一个维度为9589 × 249992 9589\times249992 9 5 8 9 ×2 4 9 9 9 2的稀疏矩阵。

模型训练

我们已经把评论数据转化为scikit-learn里典型的训练数据集矩阵：矩阵的每一行表示一个数据样本，矩阵的每一列表示一个特征。然后可以直接使用MultinomialNB对数据集进行训练。

from sklearn.naive_bayes import MultinomialNB
y_train = news_train["label"]
clf = MultinomialNB(alpha=0.0001)
clf.fit(X_train, y_train)
train_score = clf.score(X_train, y_train)
print("train score: {0}".format(train_score))

其中，α \alpha α表示平滑系数，其值越小，越容易造成过拟合，值太大，容易造成欠拟合。
输出结果如下：
train score: 0.9943685472937741
接着我们用测试集的一条评论来预测其是否准确。

t11=Xtest.tolist()
t22=Ytest.tolist()
news_test = {'review':t11, 'label': np.array(t22)}
print("summary: {0} documents in 2 categories.".format(len(news_test['review'])))

可以看到我们测试集的数据共有2398 2398 2 3 9 8条评论。
接下来通过同样的操作对文档进行向量化。查看训练出来的模型能否正确地预测这个评论所属的类别。

pred = clf.predict(X_test[0])
print("predict: {0} is in category {1}".format(
news_test["label"][0], pred[0]))
print("actually: {0} is in category {1}".format(
    news_test["label"][0], [news_test["label"][0]][0]))

输出结果如下。
predict: 0 is in category 0
actually: 0 is in category 0
可以看到，预测结果与实际结果相符，预测准确。

模型评价

通过验证，我们的模型是可用的。接下来我们需要对模型有个全方位的评价。
首先对测试数据集进行预测。

pred = clf.predict(X_test)
test_score = clf.score(X_test, y_test)

输出结果为：
test score: 0.816930775646372
接着使用classification_report()函数来查看一下针对每个类别的预测准确性，在笔者计算机输出结果如下。

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, pred)
print("confusion matrix:")
print(cm)

从第一行数据可以看出，类别0 0 0即差评的评论有81 81 8 1个被错误地分类到类别1 1 1 （好评）的文档里。而类别1即好评的评论有358 358 3 5 8个被错误地分类到类别0 0 0（差评）的文档里。我们还可以把混淆矩阵进行数据可视化处理。
基于朴素贝叶斯算法实现情感分类

除对角线外，其他地方颜色越浅，说明此处错误越多。可以看到，测试数据集准确性不高，我们还可以详细分析样本数据，找出为什么某类别会被错误地分类到另一种类别里，从而进一步优化模型。在本文将不做展开。
还有很多待改善的地方。

参考：

Original: https://blog.csdn.net/weixin_44016035/article/details/114953363
Author: 浓汤
Title: 基于朴素贝叶斯算法实现情感分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700216/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LSTM文本预测分析python

本文只介绍学习LSTM，循环神经网络参考：深度学习之RNN(循环神经网络)_笨拙的石头的博客-CSDN博客_rnn了解。循环神经网络简单结构如下：由于RNN的结构限制，输入为x…

人工智能 2023年6月19日
00110
WAVE音频格式及及转换代码

音频信号的读写、播放及录音 python已经支持WAV格式的书写，而实时的声音输入输出需要安装pyAudio(http://people.csail.mit.edu/hubert/…

人工智能 2023年6月4日
0093
HTML小游戏6 —— 《高达战争》横版射击游戏（附完整源码）

💂 网站推荐:【神级源码资源网】【摸鱼小游戏】 🤟 风趣幽默的前端学习课程：👉28个案例趣学前端 💅 想寻找共同学习交流、摸鱼划水的小伙伴，请点击【摸鱼学习交流群】 *💬 免…

人工智能 2023年6月28日
0079
深度学习论文: SFPN: Synthetic FPN for Object Detection及其PyTorch实现

深度学习论文: SFPN: Synthetic FPN for Object Detection及其PyTorch实现SFPN: Synthetic FPN for Object …

人工智能 2023年7月9日
0084
数据分析pandas

（一）Series （1）结构主要由一组数据与之相关的索引两部分构成。（索引在左，数据在右）（2）多种构造代码方法： 1 . class pandas.Series( data…

人工智能 2023年7月17日
0063
AI遮天传 DL-深度学习在自然语言中的应用

本文简要介绍一些深度学习在自然语言应用的基本任务，词表示，文本翻译和机器翻译。一、典型任务词性标注和句法分析问答和对话系统文本/文档分类情感分析和观点挖掘机器翻译文本…

人工智能 2023年7月25日
0082
陀螺仪测试电路

背景介绍陀螺仪是无人机惯导系统最基本的组成元件之一，通过对陀螺仪输出的角速度进行积分，能够获得无人机的姿态角信息；在兴趣爱好的驱动下，近来购买了MPU-6050相关模块，通过串口…

人工智能 2023年6月29日
00107
WangDeLiangReview2018 – (5.4)说话人分离

【WangDeLiangOverview2018】 Supervised Speech Separation Based on Deep Learning: An Overview…

人工智能 2023年5月27日
0079
脉冲宽度调制pdm_PWM （脉冲宽度调制）原理与实现

一、 PWM(脉冲宽度调制Pulse Width Modulation)原理：本文引用地址：http://www.eepw.com.cn/article/201808/385026…

人工智能 2023年5月27日
0076
WebRTC Native M96 音频发送流程(SendRtp)以及接收音频包播放流程(OnPacketReceived)

; WebRTC默认是采用Opus编码。 Opus是一个有损音频压缩的数字音频编码格式，由Xiph.Org基金会开发，之后由互联网工程任务组（IETF）进行标准化，目标是希望用单一…

人工智能 2023年5月23日
0092
Python数据分析系列5—DataFrame数据操作

1、索引对象index pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个I…

人工智能 2023年7月16日
00107
基于模板匹配的知识图谱问答系统

KBQA–knowledge base question answering，通过对问题进行语义理解及解析，通过知识库进行查询。输入：自然语言问句，例如”姚明的老婆是…

人工智能 2023年6月1日
0081
1.小程序登录

小程序登录主要目的通过微信官方提供的登录能力获取微信提供的用户身份表示，建立小程序内的用户体系。登录流程时序登录：小程序、开发者服务器、微信接口服务小程序发起 wx.l…

人工智能 2023年6月29日
0095
易康——图像分类

目录一、分割方法二、图像分类 2.1 最近邻分类 2.1.1样本点选择 2.1.2构建最近邻特征与分类 2.2 分类器分类 2.2.1样本选择 2.2.2分类算法一、分割方法…

人工智能 2023年7月1日
00112
小程序canvas 缩放/拖动/还原/封装和实例–开箱即用

小程序canvas 缩放/拖动/还原/封装和实例一、预览二、使用 * 2.1 创建和配置方法三、源码 * 3.1 实例组件 3.2 核心类 3.2 工具类一、预览之前写…

人工智能 2023年7月30日
0083
运行程序报告 ModuleNotFoundError: No module named ‘Cython’ 解决方法

运行代码出现找不到Cython模块报错，如下：安装升级下Cython可以解决:pip3 install –upgrade cython Original: https…

人工智能 2023年6月4日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31