朴素贝叶斯分类——【torch学习笔记】

2023年7月1日下午5:53 • 人工智能 • 阅读 72

朴素贝叶斯分类

引用翻译：《动手学深度学习》

在我们担心复杂的优化算法或GPU之前，我们已经可以部署我们的第一个分类器，只依靠简单的统计估计器和我们对条件独立性的理解。学习就是要做假设。如果我们想对一个从未见过的新数据点进行分类，我们就必须对哪些数据点是相互类似的做出一些假设。

y ^ = argmax y p ( y ∣ x ) \hat{y} = \text{argmax}_y > p(y | \mathbf{x})y ^=argmax y p (y ∣x )

不幸的是，这要求我们对𝑝(𝑦|𝐱)的每个值𝐱=𝑥1,…,𝑥𝑑进行估计。想象一下，每个特征可以取两个值中的一个。例如，特征𝑥1=1可能表示苹果这个词出现在一个给定的文件中，而𝑥1=0则表示它没有出现。如果我们有230个这样的二进制特征，这就意味着我们需要准备对输入向量𝐱的 2 d , ( d = 230 ) 2^d ,(d=230)2 d ,(d =2 3 0 )个（超过10亿个！）可能的值进行分类。

此外，如何进行模型学习呢？如果我们需要看到每一个可能的例子来预测相应的标签，那么我们就不是真正在学习一个模式，而只是在记忆数据集。幸运的是，通过对条件独立性的一些假设，我们可以引入一些归纳偏见，建立一个能够从相对较少的训练例子中归纳的模型。

首先，让我们使用贝叶斯定理，将分类器表示为

y ^ = argmax y p ( x ∣ y ) p ( y ) p ( x ) \hat{y} = \text{argmax}_y > \frac{p( \mathbf{x} | y) p(y)}{p(\mathbf{x})}y ^=argmax y p (x )p (x ∣y )p (y )

请注意，分母是归一化项𝑝（𝐱），它不依赖于标签𝑦的值。因此，我们只需要担心在不同的𝑦值之间比较分子的问题。即使计算分母是难以实现的，我们也可以忽略它，只要我们能评估分母就可以了。然而，幸运的是，即使我们想恢复归一化常数，我们也可以，因为我们知道∑𝑦𝑝(𝑦|𝐱)=1，因此我们总是能够恢复归一化项。现在，利用概率的连锁规则，我们可以把𝑝(𝐱|𝑦)这个项表示为

p ( x 1 ∣ y ) ⋅ p ( x 2 ∣ x 1 , y ) ⋅ . . . ⋅ p ( x d ∣ x 1 , . . . , x d − 1 y ) p(x_1 |y) \cdot p(x_2 | x_1, y) \cdot … \cdot p( x_d | x_1, …, x_{d-1} y)p (x 1 ∣y )⋅p (x 2 ∣x 1 ,y )⋅…⋅p (x d ∣x 1 ,…,x d −1 y )

就其本身而言，这个表达式并没有让我们取得任何进展。我们仍然必须估计大约 2 d 2^d 2 d个参数。然而，如果我们假设特征是有条件地相互独立的，给定的标签，那么我们的情况突然好了很多，因为这个术语简化为∏ i p ( x i ∣ y ) \prod_i p(x_i | y)∏i p (x i ∣y ) ，给了我们预测器

y ^ = argmax y = ∏ i p ( x i ∣ y ) p ( y ) \hat{y} = \text{argmax}_y > = \prod_i p(x_i | y) p(y)y ^=argmax y =i ∏p (x i ∣y )p (y )

估计∏ i p ( x i ∣ y ) \prod_i p(x_i | y)∏i p (x i ∣y )中的每个项，相当于只估计一个参数。因此，我们对条件独立性的假设使我们模型的复杂性（就参数数量而言）从对特征数量的指数依赖变为线性依赖。此外，我们现在可以对以前从未见过的例子进行预测，因为我们只需要估计术语𝑝(𝑥|𝑦)，这可以根据一些不同的文档来估计。

让我们仔细看看关键的假设，即在标签的情况下，属性都是相互独立的，即𝑝(𝐱|𝑦)=∏ i p ( x i ∣ y ) \prod_i p(x_i | y)∏i p (x i ∣y ) 。考虑将电子邮件分类为垃圾邮件和火腿。可以说，出现尼日利亚、王子、金钱、富人等词都有可能表明该邮件可能是垃圾邮件，而定理、网络、贝叶斯或统计学则很好地表明，该交流不太可能是精心策划的试图骗取你的银行账户号码的一部分。因此，我们可以对这些词中的每一个词的出现概率进行建模，给定各自的类别，然后用它来对一篇文章的可能性进行评分。事实上，在很长一段时间里，这正是许多所谓的贝叶斯式垃圾邮件过滤器的工作方式。

一、光学字符识别

由于图像更容易处理，我们将说明在MNIST数据集上区分数字的Naive Bayes分类器的工作情况。问题是，我们实际上并不知道𝑝(𝑦)和𝑝(𝑥|𝑦) 。因此，我们需要先在一些训练数据下对其进行估计。这就是所谓的训练模型。估计𝑝(𝑦)不是太难。因为我们只处理 10 个类，所以这很容易–只需计算每个数字的出现次数𝑛𝑦，然后除以总数据量𝑛。例如，如果数字8出现𝑛8=5,800次，而我们总共有𝑛=60,000张图片，那么概率估计为𝑝(𝑦=8)=0.0967。

现在来谈谈稍微困难的事情–p ( x i ∣ y ) p(x_i | y)p (x i ∣y ) 。由于我们选择了黑白图像，p ( x i ∣ y ) p(x_i | y)p (x i ∣y )表示像素𝑖在类𝑦中被开启的概率。就像以前一样，我们可以去计算n i y n_{iy}n i y 这样的事件发生的次数，然后将其除以y的总发生次数，即𝑛𝑦。但有一点令人不安：某些像素可能永远不会是黑色的（例如，对于裁剪得非常好的图像，角落的像素可能永远是白色的）。统计学家处理这个问题的一个方便方法是为所有出现的情况添加伪计数。因此，我们不使用n i y n_{iy}n i y ，而使用n i y + 1 n_{iy}+1 n i y +1；不使用n y n_y n y ，而使用n y + 1 n_{y} + 1 n y +1。这也被称为拉普拉斯平滑法。


%matplotlib inline
import tqdm
import numpy as np
from matplotlib import pyplot as plt
from IPython import display
display.set_matplotlib_formats('svg')
import torch
from torch import tensor
from torchvision import transforms, datasets

data_transform = transforms.Compose([transforms.Grayscale(), transforms.ToTensor(), transforms.Normalize(mean=[0],std=[1])])

mnist_train = datasets.MNIST(root='./data', train=True, download=False, transform=data_transform)
mnist_test  = datasets.MNIST(root='./data', train=False, download=False, transform=data_transform)

计算一些先验信息。如：

px是：每个类别的每个像素点平均值
py是：即每个类别的占比情况，即类别先验信息


xcount = torch.ones((784,10), dtype=torch.float32)
ycount = torch.ones((10), dtype=torch.float32)

for data, label in mnist_train:
    y = int(label)
    ycount[y] += 1
    xcount[:,y] += data.reshape((784))

py = ycount / ycount.sum()
px = (xcount / ycount.reshape(1,10))

py ：即每个类别的占比情况，

py
tensor([0.0987, 0.1124, 0.0993, 0.1022, 0.0974, 0.0904, 0.0986, 0.1044, 0.0975,
        0.0992])

px ：每一个子列表代表每个类别的每个像素点平均值

px
tensor([[0.0002, 0.0001, 0.0002,  ..., 0.0002, 0.0002, 0.0002],
        [0.0002, 0.0001, 0.0002,  ..., 0.0002, 0.0002, 0.0002],
        [0.0002, 0.0001, 0.0002,  ..., 0.0002, 0.0002, 0.0002],
        ...,
        [0.0002, 0.0001, 0.0002,  ..., 0.0002, 0.0002, 0.0002],
        [0.0002, 0.0001, 0.0002,  ..., 0.0002, 0.0002, 0.0002],
        [0.0002, 0.0001, 0.0002,  ..., 0.0002, 0.0002, 0.0002]])

px[0] ：每一个子列表代表着各类别对应index位置的平均值

px[0]
tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002,
        0.0002])

len(px) ：有784个子列表，即代表将28X28进行拉匀处理，即784个像素点

len(px)
784

现在，我们计算了所有像素的每像素出现次数，是时候看看我们的模型表现如何了。是时候绘制它了。这就是使用图像工作更方便的地方。将28x28x10的概率（每个类的每个像素）可视化，通常是一种徒劳的练习。然而，通过将它们绘制成图像，我们就可以快速了解情况。精明的读者现在可能已经注意到，这些数字看起来很糟糕…。


import matplotlib.pyplot as plt
fig, figarr = plt.subplots(1, 10, figsize=(10, 10))
for i in range(10):
    figarr[i].imshow(xcount[:, i].reshape((28, 28)).numpy(), cmap='hot')
    temp= xcount[:, i].reshape((28, 28)).numpy()
    figarr[i].axes.get_xaxis().set_visible(False)
    figarr[i].axes.get_yaxis().set_visible(False)

plt.show()
print('Class probabilities', py)

Class probabilities tensor([0.0987, 0.1124, 0.0993, 0.1022, 0.0974, 0.0904, 0.0986, 0.1044, 0.0975,
        0.0992])

temp: 即每个类别的平均像素点大小。

temp[15]   # &#x5B50;&#x5217;&#x8868;&#x6709;28&#x4E2A;&#x5143;&#x7D20;
array([1.0000000e+00, 1.0000000e+00, 1.2313726e+00, 2.1133335e+01,
       1.1228237e+02, 3.3093332e+02, 7.7862616e+02, 1.5395934e+03,
       2.4571760e+03, 3.0999353e+03, 3.2772087e+03, 3.2535369e+03,
       3.2645242e+03, 3.3113159e+03, 3.4684912e+03, 4.0935984e+03,
       4.8088276e+03, 4.5622769e+03, 3.0398655e+03, 1.4501147e+03,
       5.7821906e+02, 2.1316077e+02, 8.1450966e+01, 2.4717649e+01,
       3.6470592e+00, 1.8862746e+00, 1.4039216e+00, 1.0000000e+00],
      dtype=float32)

len(temp)
28

现在，我们可以根据模型计算出图像的可能性。这是统计学家对𝑝(𝑥|𝑦)的说法，即在某些条件下（如标签）看到一个特定图像的可能性。我们的Naive Bayes模型假设所有像素都是独立的，它告诉我们

p ( x ∣ y ) = ∏ i p ( x i ∣ y ) p(\mathbf{x} | y) = \prod_{i} p(x_i | y)p (x ∣y )=i ∏p (x i ∣y )

利用贝叶斯规则，我们可以通过以下方式计算出𝑝(𝑦|𝐱):

p ( y ∣ x ) = p ( x ∣ y ) p ( y ) ∑ y ′ p ( x ∣ y ′ ) p(y | \mathbf{x}) = \frac{p(\mathbf{x} | y) p(y)}{\sum_{y’} p(\mathbf{x} | y’)}p (y ∣x )=∑y ′p (x ∣y ′)p (x ∣y )p (y )

未加对数处理时：


data, label = mnist_test[0]
data = data.reshape((784,1))

xprob = (px * data + (1-px) * (1-data))

xprob = xprob.prod(0) * py
print('非标准化概率：', xprob)

xprob = xprob / xprob.sum()
print('标准化概率：', xprob)

此处有个prod函数：

torch.prod(input) → float

返回输入张量input所有元素的乘积。

参数：

input (Tensor) – 输入张量

&#x975E;&#x6807;&#x51C6;&#x5316;&#x6982;&#x7387;&#xFF1A; tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
&#x6807;&#x51C6;&#x5316;&#x6982;&#x7387;&#xFF1A; tensor([nan, nan, nan, nan, nan, nan, nan, nan, nan, nan])

其中根据公式计算可得：

xprob = (px * data + (1-px) * (1-data))
xprob[0]
tensor([0.9998, 0.9999, 0.9998, 0.9998, 0.9998, 0.9998, 0.9998, 0.9998, 0.9998,0.9998])

xprob = xprob.prod(0) * py
xprob
tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

这就出现了严重错误! 为了找出原因，我们来看看每个像素的概率。它们通常是0.001和1之间的数字。我们要把它们乘以784。在这一点上值得一提的是，我们是在电脑上计算这些数字的，因此指数的范围是固定的。发生的情况是，我们经历了数字下溢，也就是说，将所有的小数字相乘会导致更小的数字，直到四舍五入为零。在这一点上，我们得到的是除以零的结果。

为了解决这个问题，我们利用log𝑎𝑏=log𝑎+log𝑏这一事实，即我们改用对数求和。这将使我们得到对数空间中的非标准化概率。为了使条款正常化，我们利用以下事实

exp ⁡ ( a ) exp ⁡ ( a ) + exp ⁡ ( b ) = exp ⁡ ( a + c ) exp ⁡ ( a + c ) + exp ⁡ ( b + c ) \frac{\exp(a)}{\exp(a) + \exp(b)} = \frac{\exp(a + c)}{\exp(a + c) + \exp(b + c)}exp (a )+exp (b )exp (a )=exp (a +c )+exp (b +c )exp (a +c )

特别是，我们可以选择𝑐=-max(𝑎,𝑏)，这样可以保证分母中至少有一个项是1。


logpx = torch.log(px)
logpxneg = torch.log(1-px)
logpy = torch.log(py)

def bayespost(data):

    logpost = logpy.clone()

    logpost += (logpx * data + logpxneg * (1-data)).sum(0)

    logpost -= torch.max(logpost)

    post = torch.exp(logpost).numpy()
    post /= np.sum(post)
    return post

fig, figarr = plt.subplots(2, 10, figsize=(10, 3))

ctr = 0
label_list = []
for data, label in mnist_test:
    x = data.reshape((784,1))
    y = int(label)
    post = bayespost(x)
    label_list.append(y)

    figarr[1, ctr].bar(range(10), post)
    figarr[1, ctr].axes.get_yaxis().set_visible(False)
    figarr[0, ctr].imshow(x.reshape((28, 28)).numpy(), cmap='hot')
    figarr[0, ctr].axes.get_xaxis().set_visible(False)
    figarr[0, ctr].axes.get_yaxis().set_visible(False)
    ctr += 1
    if ctr == 10:
        break
plt.show()


label_list
[7, 2, 1, 0, 4, 1, 4, 9, 5, 9]


post
array([0.0000000e+00, 0.0000000e+00, 0.0000000e+00, 0.0000000e+00,
           4.1934492e-13, 5.4348684e-28, 0.0000000e+00, 1.6375950e-03,
           6.4475615e-23, 9.9836236e-01], dtype=float32)

正如我们所看到的，这个分类器在许多情况下工作得相当好。然而，倒数第二位显示，它既可以不称职，也可以对其错误的估计过于自信。也就是说，即使它错得很离谱，它产生的概率也接近于1或0。现在我们已经不应该经常使用这种分类器了。为了看看它的整体表现如何，让我们计算一下分类器的整体准确性。


ctr = 0
err = 0

for data, label in mnist_test:
    ctr += 1
    x = data.reshape((784,1))
    y = int(label)

    post = bayespost(x)

    if (post[y] < post.max()):
        err += 1

print('错误率：', err/ctr)

现代深度网络的错误率低于0.01。虽然Naive Bayes分类器在80年代和90年代曾经很流行，例如用于垃圾邮件过滤，但它们的鼎盛时期已经过去了。性能不佳是由于我们在模型中做了不正确的统计假设：我们假设每一个像素都是独立产生的，只取决于标签。这显然不是人类书写数字的方式，这个错误的假设导致了我们过于天真的（贝叶斯）分类器的垮台。是时候开始构建深度网络了。

Summary

Naive Bayes是一个易于使用的分类器，它使用的假设是p ( x ∣ y ) = ∏ i p ( x i ∣ y ) p(\mathbf{x} | y) = \prod_i p(x_i | y)p (x ∣y )=∏i p (x i ∣y )。
这个分类器很容易训练，但它的估计值可能是非常错误的。
为了解决过于自信和无意义的估计，对概率𝑝(𝑥|𝑦)进行平滑处理，例如用拉普拉斯平滑法。也就是说，我们在所有计数中加入一个常数。
Naive Bayes分类器并不利用观察结果之间的任何相关性。

Exercises

设计一个Naive Bayes回归估计器，其中𝑝(𝑥𝑖|𝑦)是一个正常分布。Naive Bayes在哪些情况下起作用？一个目击者确信，如果他再次遇到犯罪者，他能以90%的准确率认出他。

1.如果只有5个嫌疑人，这个说法有用吗？

2.如果有50个，它还有用吗？

Original: https://blog.csdn.net/weixin_43180762/article/details/124026555
Author: 一个语文不好的NLPer
Title: 朴素贝叶斯分类——【torch学习笔记】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663776/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas进阶–Series的apply方法

apply方法介绍方法形式为apply(func, convert_dtype=True, args=(), **kwargs)，返回Series或Dataframe，对Seri…

人工智能 2023年6月11日
0065
pytorch–常用激活函数使用方法（21个）

1、torch.nn.ReLU() 数学表达式 ReLU的函数图示如下: 优点：（1）收敛速度比 sigmoid 和 tanh 快；（梯度不会饱和，解决了梯度消失问题）（2）计算复…

人工智能 2023年6月23日
0089
CV深度学习项目调试开发过程中报错记录【持续更新】

1、加载读取本地数据集报错：can’t open/read file: check file path/integrity can’t open/read file: …

人工智能 2023年6月16日
00110
直击数据管理四大痛点，指标中台创新打造企业数字化经营体系新能力 | 爱分析洞见

调研：黄勇洪逸群撰写：黄勇洪逸群指标是指衡量目标的量化参数。在现代企业的经营管理中，为避免单纯依靠人的经验做决策带来的偏差，运用量化的方式来对业务经营目标进行管理是一种普遍实…

人工智能 2023年7月17日
0059
【Unity入门计划】基本概念(6)-精灵渲染器 Sprite Renderer

目录官方文档 1 Sprite 精灵 2 Sprite Renderer 精灵渲染器 2.1 Sprite 精灵 2.2 Color 着色 2.3 Filp 翻转 2.4 Dra…

人工智能 2023年7月29日
0097
Python机器学习期末总复习

目录人工智能基本概念 KNN分类算法 K-NN源代码 K-means分类算法 K-means源代码推荐算法概述回归分析神经网络基础模型 BP神经网络（Back Propag…

人工智能 2023年6月3日
0057
Python之Numpy扩展包学习与使用——数组数据处理

写在前面：👀python小白，关于numpy包的学习总结🌲希望大家多多支持，欢迎评论交流🍀 Numpy是一个高性能科学计算与数据分析的Python软件包，也是很多其他Python包…

人工智能 2023年6月11日
0080
java百度语音识别_百度语音识别报这个错误

08-23 11:15:39.728 23355-23475/com.vitection.anew E/AndroidRuntime: FATAL EXCEPTION: msg-o…

人工智能 2023年5月27日
0062
零基础学kubernetes（k8s）必看教程，带你10分钟快速实战入门k8s

一、前言作为一个工作十余年，拥有比较丰富的计算机网络运维、主机运维、云计算平台运维、自动化运维开发经验的老鸟，我来说说我当初刚接触Kubernetes时的一些感受以及学习技巧。 …

人工智能 2023年6月19日
0080
基于质心的聚类(Centroid-based clustering)– k均值（k-means）

基于质心的聚类中，该聚类可以使用聚类的中心向量来表示，这个中心向量不一定是该聚类下数据集的成员。当聚类的数量固定为k时，k-means聚类给出了优化问题的正式定义：找到聚类中心并将…

人工智能 2023年6月2日
0062
DNN硬件加速器设计2 — Survey of DNN Development Resouces and DNN Hardware（MIT）

2.1 Survey of DNN Development Resources 这里介绍一些基本的神经网络结构。它们是:在1998年提出的LeNet, 在2012年提出的AlexN…

人工智能 2023年7月14日
0073
距离函数汇总

设，X与Y之间的距离或相似性可以通过不同的公式计算得到。 1. 闵科夫斯基距离(Minkowski Distance) [TencentCloudSDKException] cod…

人工智能 2023年6月2日
0068
第3例基于卷积神经网络AlexNet的猫狗分类

最近在积攒粉丝500，大家帮帮忙，动动小手指关注、点赞、收藏…🙏🙏🙏🙏🙏🙏 第一个典型的CNN是LeNet5网络结构，但是第一个引起大家注意的网络却是AlexNet，…

人工智能 2023年7月1日
0081
（已解决）Solving environment: failed with initial frozen solve. Retrying with flexible solve.

文章目录 * – + 背景 + 原因 + 解决方案 + 解决方案2 背景在安装一个新的包的时候报上述错误： conda install pytorch-lightni…

人工智能 2023年7月20日
0093
数据一致性离不开的checkpoint机制

checkpoint 如果系统每次收到写入请求后，等待数据完全写入持久化存储再返回结果，这样数据丢失的可能性大大减少，但是一般持久化操作都是磁盘IO操作(甚至网络IO操作），处理的…

人工智能 2023年6月27日
0063
DataFrame基本操作

其实代码就是按照人的思维编写的底层，所有的函数都是按照人类的认知定义的。 1、读取表，设置类索引和行索引 2、格式化函数 .format() 3、日期的转化函数（import ti…

人工智能 2023年7月7日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

朴素贝叶斯分类——【torch学习笔记】

一、光学字符识别

Summary

Exercises

大家都在看