【机器学习sklearn】高斯朴素贝叶斯 Gaussian naive bayes

2023年6月16日上午1:17 • 人工智能 • 阅读 80

贝叶斯Bayes – Thomas Bayes

前言
一、贝叶斯决策论（Bayesian decision theory）
二、实例：高斯朴素贝叶斯 Gaussian Naive Bayes (GaussianNB)
*
1.引入库
2.生成数据
3.高斯朴素贝叶斯模型
总结

前言

在介绍贝叶斯之前，我们先了解一下几个概率相关的定义：

条件概率（后验概率）：事件A在另一个事件B已经发生的条件下发生概率，公式表示为P(A|B)，读作”在B条件下A的概率”。
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A \cap B)}{P(B)}P (A ∣B )=P (B )P (A ∩B )
联合概率：表示两个事件同时发生的概率, P(AB)。
边缘概率（先验概率）：是某个事件发生的概率, P(A)或P(B)。

贝叶斯定理公式

P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)}P (A ∣B )=P (B )P (B ∣A )P (A )

一、贝叶斯决策论（Bayesian decision theory）

对于分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

基于后验概率P ( c i ∣ x ) P(c_i|x)P (c i ∣x )可获得将样本x x x分类为c i c_i c i 所产生的期望损失（expected loss），即在样本x x x上的”条件风险”（conditional risk）。
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j=1}^N \lambda_{ij} P(c_j|x)R (c i ∣x )=j =1 ∑N λi j P (c j ∣x )
决策论中将”期望损失”称为”风险risk”。λ i j \lambda_{ij}λi j 为误判损失。

贝叶斯判定准则（Bayes decision rule）：为最小化总体风险，只需在每个样本上选择那个能使条件风险R ( c ∣ x ) R(c|x)R (c ∣x )最小的类别标记，即
h ∗ ( x ) = a r g m i n c ∈ y R ( c ∣ x ) h^(x)=\underset{c \in y} {arg \, min} R(c|x)h ∗(x )=c ∈y a r g min R (c ∣x )
此时，h ∗ h^h ∗称为贝叶斯最优分类器（Bayes optimal classifier），与之对应的总体风险R ( h ∗ ) R(h^*)R (h ∗)称为贝叶斯风险（Bayes risk）。

使用贝叶斯判断最小化决策风险，主要有两个策略：
（1）”判别式模型”（discriminative models）;
（2）”生成式模型”（generative models）。

基于贝叶斯定理，则
P ( c ∣ x ) = P ( x ∣ c ) P ( c ) P ( x ) P(c|x)=\frac{P(x|c)P(c)}{P(x)}P (c ∣x )=P (x )P (x ∣c )P (c )换言之，
P ( 类别 ∣ 样本 ) = P ( 样本 ∣ 类别 ) P ( 类别 ) P ( 样本 ) P(类别|样本)=\frac{P(样本|类别)P(类别)}{P(样本)}P (类别∣样本)=P (样本)P (样本∣类别)P (类别)
其中，P ( c ) P(c)P (c )是类先验概率；P ( x ∣ c ) P(x|c)P (x ∣c )是样本x x x相对于类标记c的类条件概率（class-conditional probability）或似然（likelihood）;P ( x ) P(x)P (x )是用于归一化的证据因子（evidence factor）。

根据数据采样来估计概率分布参数的经典方法：
极大似然估计法（Maximum Likelihood Estimation, MLE），一种给定观察数据来评估模型参数的方法。利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值。

对于p ( x ∣ θ ) p(x|\theta)p (x ∣θ)，x x x表示样本数据，θ \theta θ表示模型参数。
如果θ \theta θ是已知的，x x x是变量，则该函数称为 概率函数（probability function）；
如果x x x是已知的，θ \theta θ是变量，则该函数称为 似然函数（likelihood function）。
令D = { x 1 , x 2 , . . . , x N } D= \lbrace x_1,x_2,…,x_N \rbrace D ={x 1 ,x 2 ,…,x N }，则参数θ \theta θ对数据集D的似然：
p ( D ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) p(D|\theta)=\prod_{i=1}^N p(x_i|\theta)p (D ∣θ)=i =1 ∏N p (x i ∣θ)
对θ \theta θ进行极大似然估计，就是去寻找能最大化似然p ( x ∣ θ ) p(x|\theta)p (x ∣θ)的参数值θ ^ \hat{\theta}θ^。
对数似然（log-likelihood）函数，用来缓解”下溢”问题：
L L ( θ ) = l o g p ( D ∣ θ ) = ∑ i = 1 N l o g p ( x ∣ θ ) LL(\theta)=log\ p(D|\theta) = \sum_{i=1}^N log \; p(x| \theta)L L (θ)=l o g p (D ∣θ)=i =1 ∑N l o g p (x ∣θ)
则参数θ \theta θ极大似然估计值θ ^ \hat{\theta}θ^为：
θ ^ = a r g m a x θ L L ( θ ) \hat{\theta} = \underset{\theta} {arg\ max} \; LL(\theta)θ^=θa r g ma x L L (θ)

二、实例：高斯朴素贝叶斯 Gaussian Naive Bayes (GaussianNB)

在 sklearn 库中，基于贝叶斯定理的算法集中在 sklearn.naive_bayes 包中，根据对”似然度”计算方法的不同，将朴素贝叶斯大致分为三种：多项式朴素贝叶斯（MultinomialNB）、伯努利分布朴素贝叶斯（BernoulliNB)、高斯朴素贝叶斯（GaussianNB）。值得注意的是，朴素贝叶斯算法的实现是基于假设而来，在朴素贝叶斯看来，特征之间是相互独立、互不影响的。

高斯朴素贝叶斯适用于特征呈正态分布的，多项式贝叶斯适用于特征是多项式分布的，伯努利贝叶斯适用于二项分布。

class sklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)[source]

priors：类的先验概率
var_smoothing：为维持计算的稳定性，将所有特征中最大方差的部分添加到估计的方差中。（1e-09为默认值）

1.引入库

代码如下（示例）：

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
Seaborn提供了许多定制的主题和用于控制matplotlib图形外观的高级界面

from sklearn.datasets import make_blobs  # 产生聚类数据集
from sklearn.naive_bayes import GaussianNB  # 导入高斯朴素贝叶斯模型

2.生成数据

代码如下（示例）：

生成随机数据（X数据向量）
X,y = make_blobs(n_samples=100, n_features=2, centers=2, random_state=2, cluster_std=1.5)
make_blobs：为聚类产生数据集
n_samples：样本点数，n_features：数据的维度，centers:产生数据的中心点，默认值3
cluster_std：数据集的标准差，浮点数或者浮点数序列，默认值1.0，random_state：随机种子
plt.scatter(X[:,0], X[:,1], c=y, s=50, cmap='RdBu') # s=size; c=color
plt.show()

结果如下：

【机器学习sklearn】高斯朴素贝叶斯 Gaussian naive bayes

3.高斯朴素贝叶斯模型

代码如下（示例）：

高斯朴素贝叶斯 Gaussian naive bayes，适用于特征呈正态分布的情况
model = GaussianNB()  # 定义模型
model.fit(X,y)  # 训练模型
rng = np.random.RandomState(0)  # 一个伪随机数生成器。伪随机数是用确定性的算法计算出来的似来自[0,1]均匀分布的随机数序列。
X_test = [-6, -14] + [14, 18] * rng.rand(2000, 2)  # 测试向量集X
y_pred = model.predict(X_test)  # 模型预测的分类标签
plt.scatter(X[:,0], X[:,1], c=y, s=50, cmap='RdBu')
lim = plt.axis()  # 设置坐标轴
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred, s=20, cmap='RdBu', alpha=0.1)  # 有透明度的散点图
plt.axis(lim)
plt.show()

预测模型概率
predict_proba()函数 返回的是对于预测为各个类别的概率
yprob = model.predict_proba(X_test)
prob = yprob[-8:].round(2)
print(prob)

总结

具体可以参考以下内容：
高斯朴素贝叶斯原理与实现
 通俗理解贝叶斯定理
 机器学习——贝叶斯算法
 机器学习——极大似然估计
《机器学习》- 周志华

Original: https://blog.csdn.net/weixin_43182102/article/details/122060461
Author: Moonuiu
Title: 【机器学习sklearn】高斯朴素贝叶斯 Gaussian naive bayes

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618781/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

树的基本术语

节点的度与树的度 ● 树中某个节点的子树的个数称为该节点的度● 树中各节点的度的最大值称为树的度● 通常将度为 m 的树称为m 次树所以树中的所有节点中, 最大的度 , 称为树…

人工智能 2023年6月27日
0076
人脸验证(图片/视频) tensorflow、pytorch框架、dlib库(face_recognition)和opencv库————附带详细步骤和代码，可实际运行

文章目录 0 背景与结果 1 准备知识 2 tensorflow进行人脸识别（AlexNet、视频/图像） 3 pytorch进行人脸识别（fasterrcnn，图片） 4 dli…

人工智能 2023年5月23日
0072
pyhton 手撕快排

1 import numpy as np 2 3 4 def quicksort(arr, low, high): # [a,b] 5 if low < high: 6 m …

人工智能 2023年6月4日
0064
自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】

💥实验目的 🚀1、要利用已训练过的词向量模型进行词语相似度计算，实验中采用的词向量模型已事先通过训练获取的。 🚀2、于数据采用的是 2020 年特殊年份的数据，”疫情&…

人工智能 2023年5月30日
0095
YOLOv7：无需预训练模型的最新最实时的目标检测框架

Yolov7论文翻译翻译工具:DeepL 和讯飞文档翻译论文：https://arxiv.org/abs/2207.02696代码：https://github.com/Won…

人工智能 2023年7月9日
0098
08 【爬虫】

08 【爬虫】 puppeteer 文档:puppeteer.js中文文档|puppeteerjs中文网|puppeteer爬虫教程 Puppeteer本身依赖6.4以上的Node…

人工智能 2023年6月29日
0056
完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读

abstract部分简单说了一下，一般的TTS系统都有声学部分和vocoder，通过中间特征mel谱连接，这个模型是e2e的，所以中间的声学特征不会mismatch，也不用fine…

人工智能 2023年5月27日
0069
关于pytorch nn.KLDivLoss()损失计算loss值为负数的原因

原因1：预测值和标签值都需要进行softmax归一化处理原因2：预测值还需要再进行log计算，标签值不需要 KL散度 KL散度，又叫相对熵，用于衡量两个分布（离散分布和连续分布）…

人工智能 2023年6月15日
0086
python爬虫——世界排名前1000大学

一、目标爬取QS 世界大学排名前 1000 名的数据信息，最终保存到Excel文档中，如下图：因审核问题，自行查找爬取网址，下面可参考方法！ ; 二、爬虫的认识 1、定义网络爬…

人工智能 2023年7月17日
0057
【排坑】websoucket场景下文件无法上传到服务器的解决方案

一、问题描述及解决具体文件上传业务代码在如上标注的文章中，可见前端传入到接口的格式是 String类型的 Base64字符串，这里面有第一个坑就是以String接的话，会存在&#…

人工智能 2023年5月30日
0064
Pandas大量Excel数据写入Mysql

项目场景： 提示：这里简述…

人工智能 2023年7月8日
0045
Raki的读paper小记：Unified Named Entity Recognition as Word-Word Relation Classification

Abstract & Introduction & Related Work 研究任务 NER同一建模模型（flat，nested，discontinuous）已…

人工智能 2023年5月28日
0077
全局平均池化/全局最大池化Pytorch实现：

全局池化零、全局池化介绍一、全局平均池化二、全局最大池化零、全局池化介绍普通池化方法汇总详见：https://blog.csdn.net/qq_43665602/arti…

人工智能 2023年7月20日
0075
EuRoC数据集介绍

数据集官网：https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets EuRoC数据…

人工智能 2023年6月2日
0081
基于YOLOv5的DeepSORT行人目标跟踪

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
0075
R语言矩阵数据初始化：创建全为0的矩阵、全为NA的矩阵、使用byrow参数指定数据排布方式（按行、按列）、dim参数指定矩阵维度信息

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【机器学习sklearn】高斯朴素贝叶斯 Gaussian naive bayes

贝叶斯Bayes – Thomas Bayes

1.引入库

2.生成数据

3.高斯朴素贝叶斯模型

大家都在看