朴素贝叶斯分类（python实现）

2023年7月3日上午11:29 • 人工智能 • 阅读 108

算法优劣

参考刘建平老师的博客：朴素贝叶斯算法原理小结

优点：

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。

缺点

理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。
对输入数据的表达形式很敏感。

算法实现

说明

在 scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是 GaussianNB， MultinomialNB和 BernoulliNB。
GaussianNB：先验为高斯分布的朴素贝叶斯
MultinomialNB：先验为多项式分布的朴素贝叶斯
BernoulliNB：先验为伯努利分布的朴素贝叶斯。

数据准备

import pandas as pd
import numpy as np
X = np.array([[1.14, 1.78],[1.18, 1.96],[1.20, 1.86],[1.26, 2.00],[1.28, 2.00],
             [1.30, 1.96],[1.24, 1.72],[1.36, 1.74],[1.38, 1.64],[1.38, 1.82],
             [1.38, 1.90],[1.40, 1.70],[1.48, 1.82],[1.54, 1.82],[1.56, 2.08]])
Y = np.hstack((np.ones(6), np.ones(9)*2))

GaussianNB预测

from sklearn.naive_bayes import GaussianNB
clf_Ga = GaussianNB()
clf_Ga.fit(X, Y)
print("预测结果")
print(clf_Ga.predict([[1.24, 1.80]]))
print("样本为1类的概率")
print(clf_Ga.predict_proba([[1.24, 1.80]]))
print("样本为2类的概率")
print(clf_Ga.predict_log_proba([[1.24, 1.80]]))

输出：

预测结果
[1.]
样本为1类的概率
[[0.7236103 0.2763897]]
样本为2类的概率
[[-0.3235023  -1.28594344]]

样本为1的概率大于样本为2的概率，所以认为该样本为1类

print("预测结果")
print(clf_Ga.predict([[1.29, 1.81],[1.43,2.03]]))

输出：

预测结果
[2. 2.]

MultinomialNB预测

这里使用GridSearchCV函数进行网格搜索交叉检验调参，评估模型的分数为 accuracy即准确率。
调整的参数分别为： alpha（常数λ \lambda λ）， fit_prior（是否考虑先验概率）

from sklearn.naive_bayes import MultinomialNB
clf_Mu = MultinomialNB()
from sklearn.model_selection import GridSearchCV
param_grid = [{'alpha':np.arange(0.9,1.1,0.1),
              'fit_prior':['True','False']}]
grid_search = GridSearchCV(clf_Mu, param_grid, cv = 3,
                          scoring = 'accuracy',
                          return_train_score = True)
grid_search.fit(X,Y)

输出最优参

grid_search.best_params_

输出：

{'alpha': 0.9, 'fit_prior': 'True'}

查看网格搜索模型分数

cvres = grid_search.cv_results_
for accuracy,params in zip(cvres["mean_test_score"],cvres["params"]):
    print("{:.2}".format(accuracy),params)

输出：

0.6 {'alpha': 0.9, 'fit_prior': 'True'}
0.6 {'alpha': 0.9, 'fit_prior': 'False'}
0.6 {'alpha': 1.0, 'fit_prior': 'True'}
0.6 {'alpha': 1.0, 'fit_prior': 'False'}
0.6 {'alpha': 1.1, 'fit_prior': 'True'}
0.6 {'alpha': 1.1, 'fit_prior': 'False'}

这里可能是因为样本只有15个，导致参数不管如何变化对准确率都没有太大影响。

预测结果

final_model = grid_search.best_estimator_

X_test = np.array([[1.24, 1.80],[1.29, 1.81],[1.43,2.03]])
X_test_prepared = final_model.predict(X_test)
print("预测结果")
print(X_test_prepared)

输出：

预测结果
[2. 2. 2.]

结语

两种方法在对第1个样本的预测上有不同，这里因为样本数量太少，不做深究。

Original: https://blog.csdn.net/qq_20144897/article/details/123501724
Author: 羽星_s
Title: 朴素贝叶斯分类（python实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/667483/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【SLAM】LIO-SAM解析——IMU预计分IMU-Preintegration(4)

知识点：如何使用GTSAM，从而输出一个丝滑的位姿；已知上一帧lidar里程计(频率低)，当前帧lidar里程计(频率低)，两个lidar帧之间的IMU数据，如何利用图优化的方式优…

人工智能 2023年6月2日
00102
[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-03-数据整理

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用…

人工智能 2023年6月4日
0055
基于稀疏约束的图像去噪算法研究（Matlab代码实现）

💥💥💞💞 欢迎来到本博客❤️❤️💥💥 🏆博主优势： 🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️ 座右铭：行百里者，半于九十。目录💥1 概述📚2 运行结果🎉3 参…

人工智能 2023年6月30日
0081
一文解读Masked Autoencoder(MAE)

前言论文链接：https://arxiv.org/pdf/2111.06377.pdf跟李沐学AI：https://www.bilibili.com/video/BV1sq4y1…

人工智能 2023年6月16日
00129
3D人脸模型Flame —-《Learning a model of facial shape and expression from 4D scans》论文讲解及代码注释

前文在阅读论文前，首先我们要有一定的知识储备，包括人脸建模，表情制作，旋转转换等，才能方便我们的论文理解，所以首先我会讲解一些关键的知识点。 Flame模型的作用? Flame是…

人工智能 2023年6月25日
0055
python数据分析实战：用LSTM模型预测时间序列（以原油价格预测为例）

文章目录 1. 背景 2. 模型搭建 * 2.1 定义LSTM 2.2 LSTM层的输入和输出 2.3 网络建立 3. 时序数据处理 * 3.1 三种输入模式 3.2 归一化与反归…

人工智能 2023年7月5日
0057
ROS从入门到精通9-1：项目实战之智能跟随机器人原理与实现

目录 0 专栏介绍 1 智能跟随机器人的应用 2 构造机器人对象 3 机器人初始化 4 实现跟随 5 效果展示 ; 0 专栏介绍本专栏旨在通过对ROS的系统学习，掌握ROS底层基…

人工智能 2023年6月23日
0092
手把手教你用Yolov5 (v6.2) 训练分类模型基于《Kaggle猫狗大战》案例

文章目录 * – 0 前言 – 1 v6.2 项目结构改动 – 2 快速上手🌟 – + 2.1 train + 2.2 val + …

人工智能 2023年7月26日
0085
EXCEL数据分析项目 – 商贸企业销售数据分析实战

目录一、前提信息 1 案例背景 2 项目目标 3 数据理解二、总体分析需求1 分析2020到2021年各类产品销售情况需求2 分析2021年各地区的销售情况需求3 202…

人工智能 2023年7月15日
0059
自然语言处理研究方向–文本相似度论文合集（不断更新）

1、 Learning Text Similarity with Siamese Recurrent Networks | 网络包含4层BiLSTM（64-d hidden），最后…

人工智能 2023年5月27日
0070
Day2-基于医疗知识图谱的问答系统操作介绍

Task2 基于医疗知识图谱的问答系统操作介绍这次的项目是来自于开源项目QASystemOnMedicalGraph 从无到有搭建一个医疗领域知识图谱(知识图谱规模较小)，并基于…

人工智能 2023年6月10日
0064
(二)使用Pandas进行数据分析 – 查询数据的几种方法

Pandas查询数据的几种方法 Pandas使用df.loc查询数据的方法 Attention！以上查询方法，既适用于行，也适用于列注意观察降维 DataFrame > …

人工智能 2023年7月7日
00102
100天精通Python（数据分析篇）——第60天：Pandas读写xml文件（read_xml、to_xml）

### 回答1：这个问题的意思是询问一个学习 Python 数据分析_的 _100 天_计划，我的回答如下： _Python 数据分析_是非常重要的技能之一，学习它需要长时间的实…

人工智能 2023年7月6日
0038
技术分享 | 语音AI如何驱动虚拟人

关于虚拟数字人的起源最早可以追溯到上个世纪八十年代的日本经典动画片《超时空要塞》的女主角林明美。作为虚拟偶像的开端，动画公司以她的虚拟形象发行唱片，虚拟人第一次进入了现实世界。 …

人工智能 2023年7月27日
00196
模式识别与图像处理课程实验二：基于UNet的目标检测网络

模式识别与图像处理课程实验二：基于UNet的目标检测网络一、实验原理与目的二、实验内容三、实验程序 * 3.1、导入库 3.2、创建一个解析对象 3.3、输入命令行和参…

人工智能 2023年6月17日
0065
R语言：多因素Cox回归森林图 (基于forestplot包) 森林图 cox可视化

本期开始介绍Cox回归模型可视化。之前学习过的的临床回归模型可视化方法主要是森林图和列线图 (Nomogram)。计划是介绍一下单因素、多因素、亚组分析、其他类型森林图绘制；列线图…

人工智能 2023年6月16日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

朴素贝叶斯分类（python实现）

优点：

缺点

说明

数据准备

GaussianNB预测

MultinomialNB预测

输出最优参

查看网格搜索模型分数

预测结果

大家都在看