贝叶斯定理

2023年7月2日上午2:26 • 人工智能 • 阅读 83

1.贝叶斯定理

贝叶斯定理：P ( H ∣ X ) = P ( X ∣ H ) P ( H ) P ( X ) P(H|X)=\frac{P(X|H)P(H)}{P(X)}P (H ∣X )=P (X )P (X ∣H )P (H )

以上是一个特征的例子，如果特征多个的情况下会使得统计量巨大如下图所示的一组数据，如果需要计算办证对于垃圾邮件的影响，则需要计算办证+理财堆垃圾邮件的影响，办证+理财+投资对垃圾邮件的影响，计算办证+理财+投资+资讯对垃圾邮件的影响…… 总共需要计算2 n − 1 2^{n-1}2 n −1次，n是特征数。这样如果我们有很多特征的话，显然是无法完成计算的。

于是我们引入了朴素贝叶斯，假设X1，X2，X3……之间都是相互独立的
P ( H ∣ X ) = P ( X 1 ∣ H ) P ( X 2 ∣ H ) … … P ( X n ∣ H ) P ( H ) P ( X 1 ) P ( X 2 ) … … P ( X n ) P(H|X)=\frac{P(X1|H)P(X2|H)……P(Xn|H)P(H)}{P(X1)P(X2)……P(Xn)}P (H ∣X )=P (X 1 )P (X 2 )……P (X n )P (X 1 ∣H )P (X 2 ∣H )……P (X n ∣H )P (H )
但是显然各个特征之间不是相互独立的。就以上边的四个特征来说，投资和理财之间肯定不是相互独立的，投资可以说是理财的一种方式。但是由于我们假设相互独立计算出来的结果误差较小，就认为采用朴素贝叶斯来计算了。

; 2.集中贝叶斯模型

2.词袋模型

词袋模型（Bag of Words model(Bow model)最早出现在自然语言处理和信息检索领域。该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。Bow使用一组无序单词来表达一段文字或一个文档

通过词袋模型将不同长度的文章转换成相同长度的向量。

CountVectorize方法来构建单词的字典，每个单词实例被转换为一个特征向量的一个数值特征，每个元素是特定单词在文本中出现的次数

from sklearn.feature_extraction.text import CountVectorizer

texts=['dog cat finsih','dog fish dog','bird','monkey,dog']
model=CountVectorizer()
model_fit=model.fit_transform(texts)

print(model_fit)
print(model.get_feature_names_out())
print(model_fit.toarray())
print(model_fit.toarray().sum(axis=0))

  (0, 2)    1
  (0, 1)    1
  (0, 3)    1
  (1, 2)    2
  (1, 4)    1
  (2, 0)    1
  (3, 2)    1
  (3, 5)    1
['bird' 'cat' 'dog' 'finsih' 'fish' 'monkey']
[[0 1 1 1 0 0]
 [0 0 2 0 1 0]
 [1 0 0 0 0 0]
 [0 0 1 0 0 1]]
[1 1 4 1 1 1]

3.TF——IDF

提取文章关键字：
1.提取词频(Term Frequency，缩写TF).一篇文章中出现最多的词可能是”的，是，在”等对文章分类或者搜索没有帮助的停用词(stop words).

2.假设我们吧停用词都过滤掉了，只考虑有意义的词。可能会遇到这样一个问题，”中国”，”蜜蜂”，”养殖”这三个词的TF一样，作为关键词，他们的重要性是一样的吗？
3.显然不是这样。”中国”是很常见的词，相对而言，”蜜蜂”和”养殖”不是那么常见。如果这三个词在一篇文章中出现的次数一样多，有理由认为，”蜜蜂”和”养殖”的重要性大于”中国”，在关键词排序上”养殖”和”蜜蜂”应该排在中国的前面。
所以我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但它在这篇文章出现多次，那么他很可能就反应了这篇文章的特性，正是我们需要的关键词。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个”重要性”权重，最常见的词”的，是，在”给予最小的权重，较常见的词”中国”给予较小的权重。较少见的词”蜜蜂”，”养殖”给予较大的权重。这个权重叫做”逆文档频率”(Inverse Document Frequency)，缩写为IDF，他的大小与一个词的常见程度成反比。
计算词频的方法：

from sklearn.feature_extraction.text import TfidfVectorizer

text=['dog bird','dog cat','the ','fox']
model_tif=TfidfVectorizer(norm=None)
model_tif.fit(text)

print(model_tif.vocabulary_)
print(model_tif.idf_)
vector=model_tif.fit_transform(text)
print(vector.toarray())

{'dog': 2, 'bird': 0, 'cat': 1, 'the': 4, 'fox': 3}
[1.91629073 1.91629073 1.51082562 1.91629073 1.91629073]
[[1.91629073 0.         1.51082562 0.         0.        ]
 [0.         1.91629073 1.51082562 0.         0.        ]
 [0.         0.         0.         0.         1.91629073]
 [0.         0.         0.         1.91629073 0.        ]]

Original: https://blog.csdn.net/m0_51456926/article/details/122635526
Author: 是忘生啊
Title: 贝叶斯定理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664529/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

时间序列预测 | Python实现DeepAR模型时间序列预测

我可以回答这个问题。以下是一个使用Keras 实现_Transformer _时间序列预测模型_的 _Python_代码示例： _python_ import numpy as …

人工智能 2023年6月11日
00106
Go写文件的权限 WriteFile(filename, data, 0644)?

本文来自博客园，作者：阿伟的博客，转载请注明原文链接：https://www.cnblogs.com/cenjw/p/go-ioutil-writefile-perm.html 前…

人工智能 2023年6月4日
0081
机器学习真能产生智能决策吗？

作者 | 刘礼出品 | AI科技大本营（ID：rgznai100）历经三年时间，我们在2022年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授，美国国家科学院院士，被誉为…

人工智能 2023年6月23日
00102
图像处理之直方图均衡化

图像直方图 1.1 灰度直方图图像的灰度直方图是图像灰度级的函数，表示数字图像中每一灰度级与其出现频数（呈现该灰度的像素数目）之间的统计关系。通常，用横坐标表示灰度级（0 0 0…

人工智能 2023年6月18日
0096
PyTorch学习笔记(2)——randn_like()、layout、memory_format

1.randn_like() torch.randn_like(input, *, dtype=None, layout=None, device=None, requires_g…

人工智能 2023年7月24日
0066
单片机通用Bootloader框架-优化

单片机通用Bootloader框架-优化单片机通用Bootloader框架-优化定义一个标志位变量存储在不初始化的段 * 在IAR中定义在MDK中定义修改跳转接口这篇文章…

人工智能 2023年6月26日
0080
东北大学2020级数据科学基础（Matlab）非计算机类大作业——Titanic幸存者分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0091
分别使用全连接神经网络和卷积层神经网络进行多分类问题

使用全连接神经网络我们接下来就是要预测类似下面的图片中的数字是多少 ; 导入之后会用到的模块 import torch from torchvision import trans…

人工智能 2023年7月3日
0067
python的三种图像读取处理存储方法

python中常用的图像读取处理存储方法有三种，分别基于pillow、matplotlib和opencv库。本文分别使用这三种对同一张图片进行读取、灰度化、像素修改、显示、存储操作…

人工智能 2023年6月20日
00101
安装Anaconda/Python3.9/Tensorflow

安装Anaconda/Python3.9/Tensorflow · 安装Anaconda 官网安装，开梯子Download即可。打开下载好的安装包，按照提示，一路【Next】选择安…

人工智能 2023年6月16日
00124
AI实战：用Transformer建立数值时间序列预测模型开源代码汇总

Transformer是一个利用注意力机制来提高模型训练速度的模型。，trasnformer可以说是完全基于自注意力机制的一个深度学习模型，因为它适用于并行化计算，和它本身模型的复…

人工智能 2023年6月16日
00100
TensorFlow安装问题：Could not load dynamic library ‘*****.dll‘； dlerror: ********.dll not found

在tensorflow2.x版本安装成功后，在运行下段代码后： tf.config.list_physical_devices(‘GPU’) 总是会出现以下情况：（注意：一般会有…

人工智能 2023年5月26日
0084
利用python基础神经网络来实现鸢尾花的分类（AI人工智能，tensorflow,插入tensorflow图片）

配置环境在开始正式学习tensorflow时，我们需要先配置好相应的环境。如果大家电脑上装有Anaconda我们可以直接在pycharm中安装tensorflow,pandas,…

人工智能 2023年7月13日
0055
Android逆向基础入门

### 回答1：学习 Android 逆向_PDF这个过程需要一定的时间和专业知识。首先，你的兄弟需要了解 _Android_开发和 _Java_编程语言。他可以通过学习相关的教…

人工智能 2023年7月5日
0090
毕设题目：Matlab交通标志识别

1 案例背景交通标志识别技术是智能交通和自动驾驶领域中的一项关键性技术,如何建立一个准确性高、实时性好以及安全性佳的交通标志识别系统是当下一大研究热点。在简要介绍该系统框架和比较已…

人工智能 2023年6月20日
00109
计数数据分析模型:零膨胀负二项（ZINB）回归模型

1.计数统计模型 4.4 计数数据模型 – 百度文库https://wenku.baidu.com/view/2b488e62561252d380eb6eac.html…

人工智能 2023年6月16日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

贝叶斯定理

1.贝叶斯定理

; 2.集中贝叶斯模型

2.词袋模型

3.TF——IDF

大家都在看