朴素贝叶斯分类算法流程——python

2023年7月3日上午12:50 • 人工智能 • 阅读 84

任务描述

本关任务:填写python代码，完成fit与predict函数，分别实现模型的训练与预测。

相关知识

为了完成本关任务，你需要掌握：

朴素贝叶斯分类算法的预测流程
朴素贝叶斯分类算法的训练流程

引例
在炎热的夏天你可能需要买一个大西瓜来解暑，但虽然你的挑西瓜的经验很老道，但还是会有挑错的时候。尽管如此，你可能还是更愿意相信自己经验。假设现在在你面前有一个纹路清晰，拍打西瓜后声音浑厚，按照你的经验来看这个西瓜是好瓜的概率有80%，不是好瓜的概率有20%。那么在这个时候你下意识会认为这个西瓜是好瓜，因为它是好瓜的概率大于不是好瓜的概率。

朴素贝叶斯分类算法的预测流程
朴素贝叶斯分类算法的预测思想和引例中挑西瓜的思想一样，会根据以往的经验计算出待预测数据分别为所有类别的概率，然后挑选其中概率最高的类别作为分类结果。

假如现在一个西瓜的数据如下表所示：

颜色声音纹理是否为好瓜绿清脆清晰？

若想使用朴素贝叶斯分类算法的思想，根据这条数据中颜色、声音和纹理这三个特征来推断是不是好瓜，我们需要计算出这个西瓜是好瓜的概率和不是好瓜的概率。

假设事件A1为好瓜，事件B为绿，事件C为清脆，事件D为清晰，则这个西瓜是好瓜的概率为 P(A1|BCD)。根据上一关中最后提到的公式可知:

同样，假设事件A2为好瓜，事件B为绿，事件C为清脆，事件D为清晰，则这个西瓜不是好瓜的概率为P(A2|BCD)。根据上一关中最后提到的公式可知:

朴素贝叶斯分类算法的思想是取概率最大的类别作为预测结果，所以如果满足下面的式子，则认为这个西瓜是好瓜，否则就不是好瓜：

从上面的式子可以看出，P(BCD)是多少对于判断哪个类别的概率高没有影响，所以式子可以简化成如下形式：
朴素贝叶斯分类算法流程——python

所以在预测时，需要知道P(A1)，P(A2)，P(B|A_1)，P(C|A_1)，P(D|A_1)等于多少。而这些概率在训练阶段可以计算出来。

朴素贝叶斯分类算法的训练流程
训练的流程非常简单，主要是计算各种条件概率。假设现在有一组西瓜的数据，如下表所示：

编号颜色声音纹理是否为好瓜1绿清脆清晰是2黄浑厚模糊否3绿浑厚模糊是4绿清脆清晰是5黄浑厚模糊是6绿清脆清晰否

从表中数据可以看出：

P(是好瓜)=4/6，
P(颜色绿|是好瓜)=3/4，
P(颜色黄|是好瓜)=1/4，
P(声音清脆|是好瓜)=1/2，
P(声音浑厚|是好瓜)=1/2，
P(纹理清晰|是好瓜)=1/2，
P(纹理模糊|是好瓜)=1/2，
P(不是好瓜)=2/6，
P(颜色绿|不是好瓜)=1/2，
P(颜色黄|是好瓜)=1/2，
P(声音清脆|不是好瓜)=1/2，
P(声音浑厚|不是好瓜)=1/2，
P(纹理清晰|不是好瓜)=1/2，
P(纹理模糊|不是好瓜)=1/2。

当得到以上概率后，训练阶段的任务就已经完成了。我们不妨再回过头来预测一下这个西瓜是不是好瓜。

颜色声音纹理是否为好瓜绿清脆清晰？

假设事件A1为好瓜，事件B为绿，事件C为清脆，事件D为清晰。则有：

假设事件A2为不是瓜，事件B为绿，事件C为清脆，事件D为清晰。则有：

由于 1/8 > 1/24，所以这个西瓜是好瓜。

编程要求

根据提示，完成fit与predict函数，分别实现模型的训练与预测。 （PS:在fit函数中需要将预测时需要的概率保存到 self.label_prob 和 self.condition_prob 这两个变量中）

其中fit函数参数解释如下：

feature：训练数据集所有特征组成的ndarray
label：训练数据集中所有标签组成的ndarray
return：无返回

predict函数参数解释如下：

feature：测试数据集所有特征组成的ndarray。（PS：feature中有多条数据）
return：模型预测的结果。（PS：feature中有多少条数据，就需要返回长度为多少的list或者ndarry）

测试说明

部分训练数据如下(PS:数据以 ndarray的方式存储，不包含表头。其中颜色这一列用1表示绿色，2表示黄色；声音这一列用1表示清脆，2表示浑厚。纹理这一列用1表示清晰，2表示模糊，3表示一般)：

颜色声音纹理是否为好瓜211112202221212112312110

代码

import numpy as np

class NaiveBayesClassifier(object):
    def __init__(self):
        '''
        self.label_prob表示每种类别在数据中出现的概率
        例如，{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333，类别1的概率为0.667
        '''
        self.label_prob = {}
        '''
        self.condition_prob表示每种类别确定的条件下各个特征出现的概率
        例如训练数据集中的特征为 [[2, 1, 1],
                              [1, 2, 2],
                              [2, 2, 2],
                              [2, 1, 2],
                              [1, 2, 3]]
        标签为[1, 0, 1, 0, 1]
        那么当标签为0时第0列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第1列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第2列的值为1的概率为0，值为2的概率为1，值为3的概率为0;
        当标签为1时第0列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第1列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第2列的值为1的概率为0.333，值为2的概率为0.333,值为3的概率为0.333;
        因此self.condition_prob的值如下：
        {
            0:{
                0:{
                    1:0.5
                    2:0.5
                }
                1:{
                    1:0.5
                    2:0.5
                }
                2:{
                    1:0
                    2:1
                    3:0
                }
            }
            1:
            {
                0:{
                    1:0.333
                    2:0.666
                }
                1:{
                    1:0.333
                    2:0.666
                }
                2:{
                    1:0.333
                    2:0.333
                    3:0.333
                }
            }
        }
        '''
        self.condition_prob = {}
    def fit(self, feature, label):
        '''
        对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中
        :param feature: 训练数据集所有特征组成的ndarray
        :param label:训练数据集中所有标签组成的ndarray
        :return: 无返回
        '''

        row_num = len(feature)
        col_num = len(feature[0])
        for c in label:
            if c in self.label_prob:
                self.label_prob[c] += 1
            else:
                self.label_prob[c] = 1
        for key in self.label_prob.keys():
            self.label_prob[key] /= row_num
            self.condition_prob[key] = {}
            for i in range(col_num):
                self.condition_prob[key][i] = {}
                for k in np.unique(feature[:,i], axis=0):
                    self.condition_prob[key][i][k] = 0
        for i in range(len(feature)):
            for j in range(len(feature[i])):
                if feature[i][j] in self.condition_prob[label[i]]:
                    self.condition_prob[label[i]][j][feature[i][j]] += 1
                else:
                    self.condition_prob[label[i]][j][feature[i][j]] = 1
        for label_key in self.condition_prob.keys():
            for k in self.condition_prob[label_key].keys():
                total = 0
                for v in self.condition_prob[label_key][k].values():
                    total += v
                for kk in self.condition_prob[label_key][k].keys():
                    self.condition_prob[label_key][k][kk] /= total

    def predict(self, feature):
        '''
        对数据进行预测，返回预测结果
        :param feature:测试数据集所有特征组成的ndarray
        :return:
        '''

        result = []
        for i,f in enumerate(feature):
            prob=np.zeros(len(self.label_prob.keys()))
            i1 = 0
            for label,label_prob in self.label_prob.items():
                prob[i1] = label_prob
                for  j  in range(len(feature[0])):
                    prob[i1] *= self.condition_prob[label][j][f[j]]
                i1 += 1
            result.append(list(self.label_prob.keys())[np.argmax(prob)])
        return np.array(result)

Original: https://blog.csdn.net/qq_51771374/article/details/125497664
Author: Vicky__3021
Title: 朴素贝叶斯分类算法流程——python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666544/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

手把手带你调参Yolo v5 (v6.2)（推理）

🌟想了解YOLO系列算法更多进阶教程欢迎订阅我的专栏🌟 基础不好的同学可以试试看一下我的《目标检测蓝皮书》🚀 ，里面包含超多目标检测实用知识，想速通目标检测，看这本就对了！想了解…

人工智能 2023年6月15日
0070
使用 Python 生成二维码

使用 Python 生成二维码现在二维码应用随处可见，生活中二维码可以说是无处不在了：加好友，付钱，扫个码。python生成二维码非常方便。本文就来讲解如何用python开发生成…

人工智能 2023年7月5日
0061
如何使用优化器来训练深度学习模型

如何使用优化器来训练深度学习模型在深度学习中，优化器被广泛应用于训练神经网络模型。优化器的目标是通过调整模型参数来最小化损失函数，以提高模型的准确性和性能。本文将详细介绍如何使用…

人工智能 2024年1月1日
0042
第五章 STM32+LD3320语音识别控制淘宝USB宿舍书桌灯

目录前言一、设备准备二、改造USB宿舍书桌灯 1.原理 2.将控灯板子的护壳拆开 3.在控灯板子供电端的GND焊上一根杜邦线 4.将每个触发脚焊上杜邦线三、代码讲解 1.首…

人工智能 2023年5月25日
00189
(01)ORB-SLAM2源码无死角解析-(04)单目追踪_总体框架讲解TrackMonocular→GrabImageMonocular

一、前言前面我们使用深度图调试，并且进行了简单的讲解。但是深度图涉及的东西没有单目图像多，为了大家学习到更多的东西，接下来使用我们使用单目图像进行讲解。根据前面的博客，运行单目摄…

人工智能 2023年6月10日
0075
普通话考试是从题库里抽吗_普通话考试的作品朗读是不是从60篇范文中抽取一篇？…

展开全部是的，朗读从《测试e68a843231313335323631343130323136353331333431363564大纲》第五部分朗读材料(1-60号)中任选。目…

人工智能 2023年5月27日
00122
# Conda environment for TensorFlow and ROOT(HEP) in Mac (M1)

Follow the procedures described below: 清除原有xcode环境（for ROOT installation） remove xcode（卸载…

人工智能 2023年5月24日
0087
【编程题】【Scratch三级】2021.12 数星星

数星星 Goblin有个很厉害的魔法：他一挥手就可以点亮夜空中五彩斑斓的星星灯。 ; 1. 准备工作（1）删除小猫角色，添加”Goblin”角色，并删除G…

人工智能 2023年6月30日
0078
机器学习中的回归是什么意思？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0085
opus 压缩率_Opus从入门到精通(八)Opus编码基础之压缩编码

只有在保持信号质量的前提下，尽量降低码率和数据量，才能应用该标准。这种降低比特率的过程称为压缩编码或新信源编码。 [En] Only on the premise of maint…

人工智能 2023年5月27日
0056
机器学习模型常用评价指标（Accuracy, Precision, Recall、F1-score、MSE、RMSE、MAE、R方）

前言众所周知，机器学习分类模型常用评价指标有Accuracy, Precision, Recall和F1-score，而回归模型最常用指标有MAE和RMSE。但是我们真正了解这些…

人工智能 2023年6月15日
0081
【Pytorch环境配置（Linux）——CUDA、cuDNN、PyTorch、torchvision、torchaudio对应版本】

Pytorch环境配置（Linux）——CUDA、cuDNN、PyTorch、torchvision、torchaudio对应版本一、查看可支持的最高CUDA版本二、查看CUD…

人工智能 2023年7月22日
0072
Python 使用 Opencv 库调用摄像头

Python 使用 Opencv 库调用摄像头 1、引用Opencv库 import cv2 Tips:未安装opencv库直接命令行安装：pip install opencv-p…

人工智能 2023年6月18日
0090
【ROS学习】launch文件的使用

我们都知道在使用ROS时，启动一个节点我们可以使用rosrun启动一个节点！但是如果要启动多个节点呢？是不是得一个个都得启动！是不是感觉特别麻烦和累赘！don’t wo…

人工智能 2023年6月2日
0089
机器学习算法（三十）：强化学习（Reinforcement Learning）

目录 1 简介 1.1 什么是强化学习 1.2 强化学习的主要特点 1.3 强化学习的组成部分 2 强化学习训练过程 3 强化学习算法归类 3.1 Value Based 3.2 …

人工智能 2023年6月23日
00145
OpenCV-Python＜八＞图像平滑处理

消除图像中的噪音成分，叫做图像的平滑处理或者图像滤波。即在尽量保留图像细节特征的情况下对目标图像的噪声进行抑制。它是图像预处理过程中不可缺少的步骤。处理效果的好坏将直接影响到后续图…

人工智能 2023年7月19日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

朴素贝叶斯分类算法流程——python

任务描述

相关知识

编程要求

测试说明

代码

大家都在看