头歌平台-机器学习-4.朴素贝叶斯分类器

2023年7月3日下午12:03 • 人工智能 • 阅读 465

EduCoder：机器学习—朴素贝叶斯分类器

第1关：条件概率

; 第2关：贝叶斯公式

第3关：朴素贝叶斯分类算法流程

编程要求：
根据提示，完成fit与predict函数，分别实现模型的训练与预测。（PS:在fit函数中需要将预测时需要的概率保存到self.label_prob和self.condition_prob这两个变量中）

其中fit函数参数解释如下：

feature：训练集数据，类型为ndarray；
label：训练集标签，类型为ndarray；
return：无返回。

predict函数参数解释如下：

feature：测试数据集所有特征组成的ndarray。（PS：feature中有多条数据）；
return：模型预测的结果。（ PS：feature中有多少条数据，就需要返回长度为多少的list或者ndarry）。

代码如下：

import numpy as np

class NaiveBayesClassifier(object):
    def __init__(self):
        '''
        self.label_prob表示每种类别在数据中出现的概率
        例如，{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333，类别1的概率为0.667
        '''
        self.label_prob = {}
        '''
        self.condition_prob表示每种类别确定的条件下各个特征出现的概率
        例如训练数据集中的特征为 [[2, 1, 1],
                              [1, 2, 2],
                              [2, 2, 2],
                              [2, 1, 2],
                              [1, 2, 3]]
        标签为[1, 0, 1, 0, 1]
        那么当标签为0时第0列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第1列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第2列的值为1的概率为0，值为2的概率为1，值为3的概率为0;
        当标签为1时第0列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第1列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第2列的值为1的概率为0.333，值为2的概率为0.333,值为3的概率为0.333;
        因此self.label_prob的值如下：
        {
            0:{
                0:{
                    1:0.5
                    2:0.5
                }
                1:{
                    1:0.5
                    2:0.5
                }
                2:{
                    1:0
                    2:1
                    3:0
                }
            }
            1:
            {
                0:{
                    1:0.333
                    2:0.666
                }
                1:{
                    1:0.333
                    2:0.666
                }
                2:{
                    1:0.333
                    2:0.333
                    3:0.333
                }
            }
        }
        '''
        self.condition_prob = {}
    def fit(self, feature, label):
        '''
        对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中
        :param feature: 训练数据集所有特征组成的ndarray
        :param label:训练数据集中所有标签组成的ndarray
        :return: 无返回
        '''

        row_num=len(feature)
        col_num=len(feature[0])
        for c in label:
            if c in self.label_prob:
                self.label_prob[c]+=1
            else:
                self.label_prob[c]=1;
        for key in  self.label_prob.keys():
            self.label_prob[key]/=row_num
            self.condition_prob[key]={}
            for i in range(col_num):
                self.condition_prob[key][i]={}
                for k in np.unique(feature[:,i],axis=0):
                    self.condition_prob[key][i][k]=0
        for i in range(len(feature)):
            for j in range(len(feature[i])):
                if feature[i][j] in self.condition_prob[label[i]]:
                    self.condition_prob[label[i]][j][feature[i][j]]+=1
                else:
                    self.condition_prob[label[i]][j][feature[i][j]]=1
        for label_key in self.condition_prob.keys():
            for k in self.condition_prob[label_key].keys():
                total=0
                for v in self.condition_prob[label_key][k].values():
                    total +=v
                for kk in self.condition_prob[label_key][k].keys():
                    self.condition_prob[label_key][k][kk] /=total

    def predict(self, feature):
        '''
        对数据进行预测，返回预测结果
        :param feature:测试数据集所有特征组成的ndarray
        :return:
        '''

        result =[]
        for i,f in enumerate(feature):
            prob=np.zeros(len(self.label_prob.keys()))
            ii=0
            for label,label_prob in self.label_prob.items():
                prob[ii]=label_prob
                for  j  in range(len(feature[0])):
                    prob[ii] *= self.condition_prob[label][j][f[j]]
                ii+=1
            result.append(list(self.label_prob.keys())[np.argmax(prob)])
        return np.array(result)

第4关：拉普拉斯平滑

编程要求：
根据提示，完成fit函数，实现模型的训练功能。（PS:在fit函数中需要将预测时需要的概率保存到self.label_prob和self.condition_prob这两个变量中）
其中fit函数参数解释如下：

feature：训练集数据，类型为ndarray；
label：训练集标签，类型为ndarray；
return：无返回。

代码如下：

import numpy as np

class NaiveBayesClassifier(object):
    def __init__(self):
        '''
        self.label_prob表示每种类别在数据中出现的概率
        例如，{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333，类别1的概率为0.667
        '''
        self.label_prob = {}
        '''
        self.condition_prob表示每种类别确定的条件下各个特征出现的概率
        例如训练数据集中的特征为 [[2, 1, 1],
                              [1, 2, 2],
                              [2, 2, 2],
                              [2, 1, 2],
                              [1, 2, 3]]
        标签为[1, 0, 1, 0, 1]
        那么当标签为0时第0列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第1列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第2列的值为1的概率为0，值为2的概率为1，值为3的概率为0;
        当标签为1时第0列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第1列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第2列的值为1的概率为0.333，值为2的概率为0.333,值为3的概率为0.333;
        因此self.label_prob的值如下：
        {
            0:{
                0:{
                    1:0.5
                    2:0.5
                }
                1:{
                    1:0.5
                    2:0.5
                }
                2:{
                    1:0
                    2:1
                    3:0
                }
            }
            1:
            {
                0:{
                    1:0.333
                    2:0.666
                }
                1:{
                    1:0.333
                    2:0.666
                }
                2:{
                    1:0.333
                    2:0.333
                    3:0.333
                }
            }
        }
        '''
        self.condition_prob = {}

    def fit(self, feature, label):
        '''
        对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中
        :param feature: 训练数据集所有特征组成的ndarray
        :param label:训练数据集中所有标签组成的ndarray
        :return: 无返回
        '''

        row_num=len(feature)
        col_num=len(feature[0])
        unique_label_count=len(set(label))
        for c in label:
            if c in self.label_prob:
                self.label_prob[c]+=1
            else:
                self.label_prob[c]=1
        for key in self.label_prob.keys():
            self.label_prob[key]+=1
            self.label_prob[key]/=(unique_label_count+row_num)
            self.condition_prob[key]={}
            for i in range(col_num):
                self.condition_prob[key][i]={}
                for k in np.unique(feature[:,i],axis=0):
                    self.condition_prob[key][i][k]=1
        for i in range(len(feature)):
            for j in range(len(feature[i])):
                if feature[i][j] in self.condition_prob[label[i]]:
                    self.condition_prob[label[i]][j][feature[i][j]]+=1

        for label_key in self.condition_prob.keys():
            for k in self.condition_prob[label_key].keys():
                total =len(self.condition_prob[label_key].keys())
                for v in self.condition_prob[label_key][k].values():
                    total+=v
                for kk in self.condition_prob[label_key][k].keys():
                    self.condition_prob[label_key][k][kk]/=total

    def predict(self, feature):
        '''
        对数据进行预测，返回预测结果
        :param feature:测试数据集所有特征组成的ndarray
        :return:
        '''

        result = []

        for i, f in enumerate(feature):

            prob = np.zeros(len(self.label_prob.keys()))
            ii = 0
            for label, label_prob in self.label_prob.items():

                prob[ii] = label_prob
                for j in range(len(feature[0])):
                    prob[ii] *= self.condition_prob[label][j][f[j]]
                ii += 1

            result.append(list(self.label_prob.keys())[np.argmax(prob)])
        return np.array(result)

第5关：新闻文本主题分类

编程要求：
填写news_predict(train_sample, train_label, test_sample)函数完成新闻文本主题分类任务，其中：

train_sample：原始训练样本，类型为ndarray；
train_label：训练标签，类型为ndarray；
test_sample：原始测试样本，类型为ndarray。

代码如下：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer

def news_predict(train_sample, train_label, test_sample):
    '''
    训练模型并进行预测，返回预测结果
    :param train_sample:原始训练集中的新闻文本，类型为ndarray
    :param train_label:训练集中新闻文本对应的主题标签，类型为ndarray
    :param test_sample:原始测试集中的新闻文本，类型为ndarray
    :return 预测结果，类型为ndarray
    '''

    vec=CountVectorizer()
    train_sample=vec.fit_transform(train_sample)
    test_sample=vec.transform(test_sample)

    tfidf=TfidfTransformer()

    train_sample =tfidf.fit_transform(train_sample)
    test_sample=tfidf.transform(test_sample)
    mnb=MultinomialNB(alpha=0.01)
    mnb.fit(train_sample,train_label)
    predict=mnb.predict(test_sample)
    return predict

Original: https://blog.csdn.net/MrKingloveyou/article/details/121757564
Author: Pretend
Title: 头歌平台-机器学习-4.朴素贝叶斯分类器

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/667537/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

黑马程序员—三天快速入门Python机器学习（第一天）

机器学习入门一、机器学习概述 * 1.1 人工智能概述 – 1.1.1 机器学习与人工智能、深度学习 1.1.2 机器学习、深度学习能做什么 1.1.3 人工智能阶段…

人工智能 2023年7月3日
0063
web前端期末大作业【足球网页】学生网页设计作业源码

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年7月31日
0050
使用OpenCV、ONNXRuntime部署YOLOV7目标检测——记录贴

这两天想实现yolov5的tensort加速，小白一枚，领悟甚浅，只能记录一下，防止遗忘了。先记录一下yolov7： yolov7的OpenCV、ONNXRuntime部署分享…

人工智能 2023年7月9日
0078
pointnet复现-pytorch实现分割部分 from scratch

import numpy as np import matplotlib.pyplot as plt import torch import torch.nn as nn impo…

人工智能 2023年7月22日
0050
读论文之transformer系列-CvT：将卷积引入transformer

论文地址：https://arxiv.org/abs/2103.15808 代码地址：https://github.com/leoxiaobin/CvT https://githu…

人工智能 2023年5月26日
0073
[行人重识别论文阅读]DomainMix: Learning Generalizable Person Re-Identification Without Human Annotations

论文地址项目地址本篇论文解析引自 1.论文摘要 1.提出利用有标签的合成数据集A和无标签的真实数据集B训练出能泛化到未知场景C的模型。 2.为了实现A+B->C，论文提出了…

人工智能 2023年6月2日
0069
【pandas】空数据处理

目录 1、判断空值 .isna() 2、空值删除 .dropna() 3、空值替换 .dropna() 数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格…

人工智能 2023年7月7日
0053
python车牌识别ui界面识别黄牌蓝牌绿牌

1、整体思路首先附上本次识别的图片：（图片是我在百度上找的）基于OpenCV车牌号识别总体分为四个步骤：（1）提取车牌位置，将车牌从图中分割出来；（2）车牌字符的分割；（3）通过…

人工智能 2023年7月20日
0042
从零开始数据分析Kaggle项目—泰坦尼克号（三）

从零开始数据分析Kaggle项目—泰坦尼克号（三）本节主要内容如何利用Pandas进行排序、算术计算以及函数describe()的使用。 import numpy as np im…

人工智能 2023年7月8日
0050
HanLP-简单使用

目录简介轻量级RESTful API 海量级native API 多任务模型自定义任务删除任务自定义字典单任务模型自定义词典流水线组合 https://github…

人工智能 2023年5月27日
0070
stm32的语音识别_基于STM32实现孤立词语音识别系统

当接触或点击屏幕时，触摸控制器可读取触摸点位置，如此可通过屏幕直接接受用户的操作。相比较机械式按钮，触摸屏在操作上更加直观生动。综合考虑，本设计中采用2.5寸240×320分辨率的…

人工智能 2023年5月27日
0063
数据分析-深度学习-前馈神经网络-分类-Tensorflow

目录前馈神经 T ensorflow实现-分类前馈神经网络在前馈神经网络中，每层包含多个神经元，每层中的神经元接收上一层传输的神经元信号，并产生信号输出到下一层。从输入层，经…

人工智能 2023年5月24日
0058
Pandas对Excel进行写入操作

from genericpath import exists import pandas as pd import os file_dir = ‘D:/program/…

人工智能 2023年7月5日
00107
玩转儿童语音数据，打造儿童专属AI

根据国家统计局和咨询公司的最新数据，中国0-14岁的人口已达近2.5亿。 [En] According to the latest data from the National B…

人工智能 2023年5月27日
0076
基于深度学习的长江干线水位数据回归预测

简介：基于长江干线重点地区历史水位数据，回归预测分析指定地区水位信息，构建虚拟水文站。在水位监测设备故障情况下，及时预测水位信息。通过预测水位信息与实际水位信息对比，可间接反应水位…

人工智能 2023年6月18日
00103
Note:Anti-noise FCM image segmentation method based on quadratic polynomial

一、key-word FCM、quadratic polynomial 1.1 FCM 模糊C均值(Fuzzy C-means)算法简称FCM “模糊”-&…

人工智能 2023年6月2日
0085

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

头歌平台-机器学习-4.朴素贝叶斯分类器

第1关：条件概率

; 第2关：贝叶斯公式

第3关：朴素贝叶斯分类算法流程

第4关：拉普拉斯平滑

第5关：新闻文本主题分类

大家都在看