机器学习之朴素贝叶斯算法

2023年7月1日下午3:12 • 人工智能 • 阅读 87

概率的定义：一件事情发生的可能性(统计学中定义为一事件随着次数的增加发生频率的稳定值即为该事件发生的概率)，其取值位于[0,1]。
联合概率、条件概率与相互独立（统计学知识）
贝叶斯公式（朴素的含义：假设特征与特征之间是相互独立）

; 二、应用场景

朴素贝叶斯主要是用于文本分类或者文章的情感分析当中，因为针对文本可以将单词作为特征
以下面为例

这里比较P(C|Chinese,Chinese,Chinese,Tikyo,Japan)与P(非C|Chinese,Chinese,Chinese,Tikyo,Japan)的概率的大小，就能确定上述图片问号处为Yes还是No，显然前者大于后者则为yes而后者大于前者则为No。而两个概率的计算正是要是使用一里面所提到的贝叶斯公式来计算，具体计算方式就参考条件概率下的计算式表达式。

三、API

sklearn.naive_bayes.MultinomialNB(alpha=1.0)

朴素贝叶斯分类
alpha：拉普拉斯平滑系数

四、案列分析（⭐️）

20个新闻组数据集是大约20,000个新闻组文档的集合，平均分布在20个不同的新闻组中。该数据集已经成为机器学习技术的文本应用中的实验流行数据集合，例如文本分类和文本聚类。案列具体步骤如下：

获取数据
数据集的划分
特征工程—TFIDF进行特征的抽取
朴素贝叶斯预测
模型选择调优
模型评估

最后代码如下

from sklearn.datasets import load_iris,fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import ssl

def nb_news():
"""
    使用朴素贝叶斯进行分类
    1、获取数据
    2、数据集的划分
    3、特征工程--TFIDF进行文本特征的抽取
    4、使用朴素贝叶斯进行分类
    5、模型的选择与调优
    6、模型的评估
    :return:
"""

    "1）、获取数据"
    news = fetch_20newsgroups(subset="all")
    "2）、数据的划分:这一部分前面都是固定的"
    x_train,x_test,y_train,y_test = train_test_split(news.data,news.target)
    "3)、特征工程"
    transfer = TfidfVectorizer()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    "4)、朴素贝叶斯算法预估流程"
    estimator = MultinomialNB()
    estimator.fit(x_train,y_train)

    "5)、模型评估"
    """评估方法1：直接比对真实值和预测值"""
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    """评估方法2：计算准确率"""
    score = estimator.score(x_test, y_test)
    print("准确率：\n", score)

if __name__ == '__main__':

    ssl._create_default_https_context = ssl._create_unverified_context
    nb_news()

五、朴素贝叶斯算法的总结

优点
发源于古典数学理论，有稳定的分类效率；
对缺失数据不太敏感，算法比较简单，常用于文本分类
分类准确率高，速度快；
缺点
由于使用了样本属性独立性的假设，所以如果特征属性有关联时效果不好

Original: https://blog.csdn.net/weixin_43495948/article/details/123500088
Author: ccgkk
Title: 机器学习之朴素贝叶斯算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663555/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI上推荐之 AutoInt模型(Transformer开始玩特征交互)

1. 写在前面这段时间做优化模型的事情，正好和特征交互有关系，这个也是推荐系统里面一直探索的一个方向，从浅层模型的FM, FFM, HOFM, FwFM到深层模型的DNN, PN…

人工智能 2023年5月28日
0077
网络通信–AT_SURF案例No.24

网络通信–AT_SURF案例No.24 简介 AT32F437的以太网模块支持通过以太网收发数据(10/100Mbps)，符合IEEE 802.3-2002标准。以太网…

人工智能 2023年6月20日
0074
戴口罩情境下的人脸识别demo

@[TOC] 戴口罩情境下的人脸识别项目提示：如有问题请在评论区或者私聊我均可，希望共同交流;这个戴口罩的人脸识别项目是人脸识别部分用的s—算法，目前正在准备用CNN来进行识别，…

人工智能 2023年5月28日
0077
Parameter-Efficient Transfer Learning for NLP

对大型预训练模型进行 fine-tune 是 NLP 领域一个有效的迁移学习机制。然而在面临大量的下游任务是，fine-tuning 是 parameter inefficient…

人工智能 2023年5月28日
0059
cv2的函数没有代码提示，最详细解决办法（重启项目版），修改-ini_.py没效果

pycharm cv2 Cannot find declaration to go to numpy可以查看源代码，但cv2不可以查看源代码 cv2没有代码提示 ctrl+左键无法…

人工智能 2023年7月5日
0074
使用pandas去重，要求某两列对应的行不一样时才去重

import pandas as pd import numpy as np df_org = pd.DataFrame([[102, ‘2014/2/11 12:01’, ‘其他…

人工智能 2023年7月9日
0079
Mac m1 配置OpenCV (C++)

Mac m1 配置OpenCV (C++) 文章目录 Mac m1 配置OpenCV (C++) 一、安装Homebrew 二、安装Xcode、cmake、gcc 三、安装Open…

人工智能 2023年7月19日
0051
给无法连接外网或没有互联网的电脑、服务器离线配置anaconda、tensorflow、keras深度学习环境配置

目录问题描述安装流程问题描述电脑无法连接外网、电脑没有网，需要配置anaconda、tensorflow、keras 安装流程一、首先你需要在有网的电脑先配置好tenso…

人工智能 2023年5月25日
0089
MMDETECTION微调模型

在 COCO 数据集上预训练的检测器可以作为其他数据集（例如 CityScapes 和 KITTI 数据集）的良好预训练模型。本教程指导用户将Model Zoo 中提供的模型用于其…

人工智能 2023年7月12日
0058
比Tensorflow还强？

大家好，我是章北海 Python是机器学习和深度学习的首选编程语言，但绝不是唯一。训练机器学习/深度学习模型并部署对外提供服务（尤其是通过浏览器） JavaScript 是一个不错…

人工智能 2023年6月4日
00111
Ros知识【09】：功能包介绍

目录前言：一、ubuntu下安装好ros后二、功能包三、元功能包四、功能包对应的OS指令前言：一个功能包内部，包含若干个节点；每个功能包对外使用：topic、ser…

人工智能 2023年6月2日
0098
大年初十七，安装了一天的tensorflow gpu

1.安装anaconda 从清华的镜像网站找了一个2019的版本直接下载安装的，参考教程如下：【Anaconda教程01】怎么安装Anaconda3 – 知乎 (zh…

人工智能 2023年5月25日
0085
语义分割：使用BiSeNet(Pytorch版本)训练自己的数据集

目录下载BiSeNet源码数据集准备训练模型推理测试下载BiSeNet源码请点击此位置进行源码下载，或者采用以下命令下载。 git clone https://gith…

人工智能 2023年6月21日
0072
LIO-SAM代码学习——imuPreintegration.cpp

imuPreintegration.cpp（IMU预积分进程）主函数 int main(int argc, char **argv) { ros::init(argc, argv…

人工智能 2023年6月10日
0068
深度学习（3）——softmax回归

前言之前所讲的是利用线性回归来预测一个离散结果，例如波士顿房价的那个例子，当房价与房屋参数存在线性关系，那么可以在已知房屋参数的前提下利用线性回归来预测房价。那么现在的生活中可能…

人工智能 2023年6月17日
0078
【数据处理】dataframe转换成JSON；JSON转换成dataframe；python、pandas库如何进行转换

一、json 格式转为 dataframe from pandas.io.json import json_normalize import pandas as pd import…

人工智能 2023年7月6日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习之朴素贝叶斯算法

大家都在看