分类——生成模型

2023年7月1日上午12:02 • 人工智能 • 阅读 60

分类：概率生成模型

Classification: Probabilistic Generative Model

回归做分类？NO！

——用Regreesion强制做Classification

—— NO！！！！

以二分类举例的情况下，如果回归的数值越接近于1，则我们认为是正类；否则为负类。

在这样的训练集上进行回归，某种程度上是能够拟合出一个较好的分界，使得上述成立。

但是，也有可能是，属于某个正类的回归预测值非常非常大，这样的情况下，它会error地得到另一个分界

因为 回归定义分界的好坏是(Loss Function)，是点到线的距离差的平方和（某种Loss Function）

而 这种定义对分类来说，是不适用的

而且，这种情况下， 相当于默认了某种Class的关系

比如，在多分类问题里：

——我们将Class 1 means the target is 1; Class 2 means the target 2;Class 3 means the target 3;…

在这种情况下，我们有可能会认为第二类与第三类比较近，第四类和第三类比较远，但实际上， 我们的类上并不存在这样的关系。

; 做法

Function(Model) 输入x后，若f(x)>0 则输出类型1；否则输出类型2
Loss Function
L ( f ) = ∑ n δ ( f ( x n ) ≠ y ^ n ) L(f)=\sum_n\delta(f(x^n)\neq \hat{y}^n)L (f )=n ∑δ(f (x n )=y ^n )
我们希望它预测错误的次数越少越好
Find the best function:
Example:Perceptron,SVM

生成模型

利用 条件概率——贝叶斯公式进行分类

假设给我一个x，那么这个x属于Class 1的几率就为
P ( C 1 ∣ x ) = P ( C 1 ∗ x ) P ( x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P(C_1|x)=\frac{P(C_1x)}{P(x)}=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}P (C 1 ∣x )=P (x )P (C 1 ∗x )=P (x ∣C 1 )P (C 1 )+P (x ∣C 2 )P (C 2 )P (x ∣C 1 )P (C 1 )
属于哪个类的概率越大，则x属于这个类*

——如何得到P ( x ∣ C 1 ) P(x|C_1)P (x ∣C 1 )

高斯分布

假设说，我们 没有见过这个x，那么在训练集上，这个P ( x ∣ C 1 ) P(x|C_1)P (x ∣C 1 )的概率就是显而易见为0——这是不正确的！

因为这个x其实是—— 特征向量（A feature vector）

我们可以理解为——我们的训练集是， 从一个Gaussian的分布里（也可能是别的分布），采样出来的点，我们 通过研究采样的点，来找到Gaussian的分布

——高斯分布（即正态分布）——也可能是别的密度分布函数

——本质上，我们 输入一个vector(特征向量)，那么 在分布里，我们就能找到，采样到这个向量的可能性（即分布中常提到的密度分布）

输入：vector x
输出：Sampling x的可能性

这个分布函数的形状，取决于 mean μ \mu μ 和 covariance matrix Σ \Sigma Σ

——即取决于均数和协方差矩阵

——注意， 这里的均数μ \mu μ 也是一个vector

f μ , Σ ( x ) = 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f_{\mu,\Sigma}(x)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))f μ,Σ(x )=(2 π)D /2 1 ∣Σ∣1/2 1 e x p (−2 1 (x −μ)T Σ−1 (x −μ))

; 如何找到 μ \mu μ 和 Σ \Sigma Σ

Maximum Likelihood

比如你有79个点，那么就 这个分布采样出这79个点的概率是最大的

——Likelihood Function

L ( μ , Σ ) = f μ , Σ ( x 1 ) f ( x 2 ) . . . f ( x 79 ) L(\mu,\Sigma)=f_{\mu,\Sigma}(x_1)f(x_2)…f(x_{79})L (μ,Σ)=f μ,Σ(x 1 )f (x 2 )…f (x 79 )

我们希望找到μ ∗ , Σ ∗ \mu^{},\Sigma^μ∗,Σ∗, 使得 a r g max ⁡ μ , Σ L ( μ , Σ ) arg\max_{\mu,\Sigma}L(\mu,\Sigma)a r g max μ,ΣL (μ,Σ)
μ ∗ = 1 79 ∑ n = 1 79 x n Σ ∗ = 1 79 ∑ n = 1 79 ( x n − μ ∗ ) ( x n − μ ∗ ) T \mu^=\frac{1}{79}\sum_{n=1}^{79}x^n\ \Sigma^=\frac{1}{79}\sum_{n=1}^{79}(x^n-\mu^)(x^n-\mu^)^T μ∗=79 1 n =1 ∑79 x n Σ∗=79 1 n =1 ∑79 (x n −μ∗)(x n −μ∗)T

Why Called 生成模型

我们可以计算出每个x出现的概率，我们就知道每一个x的分布，我们就可以用这个分布来产生x,采样x
P ( x ) = P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P(x)=P(x|C_1)P(C_1)+P(x|C_2)P(C_2)P (x )=P (x ∣C 1 )P (C 1 )+P (x ∣C 2 )P (C 2 )
—— 全概率公式

修改模型

不同的类其实可以 共用一个协方差矩阵

——因为协方差矩阵和特征size的平方成正比

因此协方差矩阵的增长非常快，如果不同的类给予不同的协方差矩阵

那么Model的 参数过多，参数太多则Variance就大，那么就 容易overfitting

How to Calculate

Find μ 1 , μ 2 , Σ \mu^1,\mu^2,\Sigma μ1 ,μ2 ,Σ maximizing the likelihood L ( μ 1 , μ 2 , Σ ) L(\mu^1,\mu^2,\Sigma)L (μ1 ,μ2 ,Σ)
L ( μ 1 , μ 2 , Σ ) = f μ 1 , Σ ( x 1 ) f μ 1 , Σ ( x 2 ) . . . f μ 1 , Σ ( x 79 ) ∗ f μ 2 , Σ ( x 80 ) . . . f μ 2 , Σ ( x 140 ) L(\mu^1,\mu^2,\Sigma)=f_{\mu^1,\Sigma}(x^1)f_{\mu^1,\Sigma}(x^2)…f_{\mu^1,\Sigma}(x^{79})*f_{\mu^2,\Sigma}(x^{80})…f_{\mu^2,\Sigma}(x^{140})L (μ1 ,μ2 ,Σ)=f μ1 ,Σ(x 1 )f μ1 ,Σ(x 2 )…f μ1 ,Σ(x 79 )∗f μ2 ,Σ(x 80 )…f μ2 ,Σ(x 140 )

μ 1 , μ 2 = 1 79 ∑ n = 1 79 x n \mu^1,\mu^2=\frac{1}{79}\sum_{n=1}^{79}x^n\μ1 ,μ2 =79 1 n =1 ∑79 x n

Σ = 79 140 Σ 1 + 61 140 Σ 2 \Sigma=\frac{79}{140}\Sigma^1+\frac{61}{140}\Sigma^2 Σ=140 79 Σ1 +140 61 Σ2

——选用所有特征之后的结果

; 朴素贝叶斯做法

不同模型的选择

——你永远可以选择你喜欢的

你选择参数少的——Bias大，Variance小

你选择参数多的——Bias小，Variance大

——对于 二值特征，你不会假设它为高斯分布，因为没有办法使得它合理

而是 假设其为伯努利分布

——假设所有的特征都是独立同分布的很切合实际

那么朴素贝叶斯就会表现得非常好

后验概率

P ( C 1 ∣ x ) = P ( C 1 ∗ x ) P ( x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) = 1 1 + P ( x ∣ C 2 ) P ( C 2 ) P ( x ∣ C 1 ) P ( C 1 ) = 1 1 + e x p ( − z ) = σ ( z ) P(C_1|x)=\frac{P(C_1*x)}{P(x)}=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}\ =\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=\frac{1}{1+exp(-z)}=\sigma(z)P (C 1 ∣x )=P (x )P (C 1 ∗x )=P (x ∣C 1 )P (C 1 )+P (x ∣C 2 )P (C 2 )P (x ∣C 1 )P (C 1 )=1 +P (x ∣C 1 )P (C 1 )P (x ∣C 2 )P (C 2 )1 =1 +e x p (−z )1 =σ(z )

其中 z = l n P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 2 ) P ( C 2 ) 其中z=ln\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)}其中z =l n P (x ∣C 2 )P (C 2 )P (x ∣C 1 )P (C 1 )

1 1 + e x p ( − z ) 称之为 S i g m o i d f u n c t i o n \frac{1}{1+exp(-z)}称之为Sigmoid\,\,\,function 1 +e x p (−z )1 称之为S i g m o i d f u n c t i o n

P ( C 1 ∣ x ) = σ ( w ∗ x + b ) P(C_1|x)=\sigma(w*x+b)P (C 1 ∣x )=σ(w ∗x +b )

而你会发现，你在生成模型这里，我们需要从训练集中估计出N1，N2，μ 1 \mu^1 μ1 , μ 2 \mu^2 μ2, Σ \Sigma Σ ，然后去拥有 w 和 b

那么我们为什么不直接找到w 和 b呢？

—— w是一个vector

——敬请期待下一章

—— 逻辑斯特回归

Original: https://blog.csdn.net/Hacker_ccc/article/details/127078228
Author: Caaaaaan
Title: 分类——生成模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662328/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

当前T2I模型的一大限制就是如何有效地融合文本和图像信息？目前常用的有特征拼接（features concatenation）、跨模态注意（cross-modal attenti…

人工智能 2023年6月24日
00194
TensorFlow和CUDA、cudnn、Pytorch以及英伟达显卡对应版本对照表

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月23日
0089
pytorch中LSTM参数详解（一张图帮你更好的理解每一个参数）

对LSTM网络的理解对LSTM网络不理解的请看这篇博客，对新手比较友好，也很容易理解，只有理解了LSTM，才知道下面要讲的参数分别对应什么 LSTM参数列表 Pytorch中创建…

人工智能 2023年7月13日
0090
常用自然语言处理NLP模型原理

一、文本处理流程文本清洗：html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息预处理：去除停用词、加载自定义词库（实体词库、垂直领域词库）、分…

人工智能 2023年6月1日
0090
基于树莓派4B的智能无人巡逻小车设计

计算机工程实训报告题目智能警用无人巡逻小车视频演示地址：树莓派暑期工程实训-模拟警用无人巡逻小车_哔哩哔哩_bilibili 一、实验内容与要求 1.1 实验内容本实验使用…

人工智能 2023年6月24日
00203
PySpark Dataframe 添加新列

spark dataframe 添加新列 spark dataframe add column spark dataframe add new column 为spark data…

人工智能 2023年6月2日
0078
python-LASSO回归模型

https://zhuanlan.zhihu.com/p/76055830 LASSO回归模型的应用 ①可视化方法确定值 import pandas as pd import n…

人工智能 2023年6月18日
00108
Recognition算法中常用的评估指标是什么

评估Recognition算法的常用指标 Recognition算法的评估指标是用来衡量算法的性能和准确性的重要参数。常用的评估指标包括准确率、召回率、F1分数等。本文将详细介绍这…

人工智能 2024年1月3日
0034
基于知识图谱的推荐系统场景应用与前景解读

一：基于知识图谱的推荐系统–1.辅助系统做出精准的推荐结合推荐系统中用户与物品的交互数据，扩展用户和物品间的隐藏连通关系，从而更精准地建模用户偏好，提高推荐效果2.阐述…

人工智能 2023年6月1日
00105
GPU计算能力（Compute Capability）那些事儿

每日一歌，分享好心情：你莫走关于nvidia计算能力的一切，看完这篇文章足够用了… 一、常见gpu卡计算能力查询 https://developer.nvidia.c…

人工智能 2023年5月23日
00102
基于决策树算法对良/恶性乳腺癌肿瘤预测

本人数据结构课程设计如题所示，现给出该课设的具体设计思路及代码演示，供大家学习，交流，共同学习（部分代码借鉴GitHub大佬）内容简介：决策树(Decision Tree）是在…

人工智能 2023年7月27日
0083
python数据分析实战：用LSTM模型预测时间序列（以原油价格预测为例）

文章目录 1. 背景 2. 模型搭建 * 2.1 定义LSTM 2.2 LSTM层的输入和输出 2.3 网络建立 3. 时序数据处理 * 3.1 三种输入模式 3.2 归一化与反归…

人工智能 2023年7月5日
0063
景联文科技：语音识别技术有哪些应用场景？

近年来，全球各行业都受到新冠肺炎疫情的影响，越来越多的企业致力于研发新技术，为疫情防控贡献力量。目前，市场上已经推出了语音识别智能电梯系统，通过语音识别技术和电梯控制系统的结合，可…

人工智能 2023年5月25日
0072
声控红外实验

一、实验简介个人学习制作的一个小实验，功能为用一块板子的语音和红外功能去控制另一块板子的LED灯亮灭以及蜂鸣器响应。二、所用模块 1.STM32F4系列板子2个 2.LD332…

人工智能 2023年5月25日
00107
python爬虫——世界排名前1000大学

一、目标爬取QS 世界大学排名前 1000 名的数据信息，最终保存到Excel文档中，如下图：因审核问题，自行查找爬取网址，下面可参考方法！ ; 二、爬虫的认识 1、定义网络爬…

人工智能 2023年7月17日
0067
机器学习实战分享：用 Python 进行信用卡欺诈检测

本文旨在使用 XGBoost、随机森林、KNN、逻辑回归、SVM 和决策树解决分类问题，内容较长，建议收藏、关注、点赞。案例简介假设你受雇于帮助一家信用卡公司检测潜在的欺诈案…

人工智能 2023年6月16日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31