机器学习算法系列（十二）-二次判别分析算法（Quadratic Discriminant Analysis Algorithm）

2023年6月15日下午2:43 • 人工智能 • 阅读 73

阅读本文需要的背景知识点：线性判别分析、一丢丢编程知识

一、引言

前面两节介绍了线性判别分析在不同角度下的实现方式，一种是根据费舍尔”类内小、类间大”的角度，另一种则是从概率分布的角度。本节来介绍另一种判别分析——二次判别分析算法1（Quadratic Discriminant Analysis Algorithm / QDA）

二、模型介绍

同线性判别分析一样，从概率分布的角度来得到二次判别分析，区别在于线性判别分析假设每一种分类的协方差矩阵相同，而二次判别分析中每一种分类的协方差矩阵不同。

（1）同线性判别分析一样，我们的目的就是求在输入为 x 的情况下分类为 k 的概率最大的分类，所以我们可以写出假设函数如下图（1）式
（2）对其概率取对数，不影响函数的最后结果
（3）带入上面的 P ( k ∣ x ) P(k|x)P (k ∣x ) 的表达式，由于 P ( x ) P(x)P (x ) 对最后结果也没有影响，也可以直接去掉
（4）带入多元正态分布的概率密度函数表达式，注意这里与线性判别分析的不同，协方差矩阵在每一种类型下是不同的
（5）将（4）式中的对数化简得到
（6）这时就不能和线性判别分析一样去掉第二项了，而是要保留其中协方差矩阵行列式的部分，得到最后的结果
h ( x ) = argmax ⁡ k P ( k ∣ x ) ( 1 ) = argmax ⁡ k ln ⁡ P ( k ∣ x ) ( 2 ) = argmax ⁡ k ln ⁡ f k ( x ) + ln ⁡ P ( k ) ( 3 ) = argmax ⁡ k ln ⁡ ( e − ( x − μ k ) T Σ k − 1 ( x − μ k ) 2 ∣ Σ k ∣ 1 2 ( 2 π ) p 2 ) + ln ⁡ P ( k ) ( 4 ) = argmax ⁡ k − 1 2 ( x − μ k ) T Σ k − 1 ( x − μ k ) − ln ⁡ ( ∣ Σ k ∣ 1 2 ( 2 π ) p 2 ) + ln ⁡ P ( k ) ( 5 ) = argmax ⁡ k − 1 2 ( x − μ k ) T Σ k − 1 ( x − μ k ) − 1 2 ln ⁡ ( ∣ Σ k ∣ ) + ln ⁡ P ( k ) ( 6 ) \begin{aligned} h(x) &=\underset{k}{\operatorname{argmax}} P(k \mid x) & (1)\ &=\underset{k}{\operatorname{argmax}} \ln P(k \mid x) & (2)\ &=\underset{k}{\operatorname{argmax}} \ln f_{k}(x)+\ln P(k) & (3) \ &=\underset{k}{\operatorname{argmax}} \ln \left(\frac{e^{-\frac{\left(x-\mu_{k}\right)^{T}{\Sigma_{k}^{-1}\left(x-\mu_{k}\right)}}{2}}}{\left|\Sigma_{k}\right|^{\frac{1}{2}}(2 \pi)^{\frac{p}{2}}}\right)+\ln P(k) & (4) \ &=\underset{k}{\operatorname{argmax}} -\frac{1}{2}\left(x-\mu_{k}\right)^{T} \Sigma_{k}^{-1}\left(x-\mu_{k}\right)-\ln \left(\left|\Sigma_{k}\right|^{\frac{1}{2}}(2 \pi)^{\frac{p}{2}}\right)+\ln P(k) & (5) \ &=\underset{k}{\operatorname{argmax}} -\frac{1}{2}\left(x-\mu_{k}\right)^{T} \Sigma_{k}^{-1}\left(x-\mu_{k}\right)-\frac{1}{2} \ln \left(\left|\Sigma_{k}\right|\right)+\ln P(k) & (6) \end{aligned}h (x )=k a r g m a x P (k ∣x )=k a r g m a x ln P (k ∣x )=k a r g m a x ln f k (x )+ln P (k )=k a r g m a x ln ⎝⎛∣Σk ∣2 1 (2 π)2 p e −2 (x −μk )T Σk −1 (x −μk )⎠⎞+ln P (k )=k a r g m a x −2 1 (x −μk )T Σk −1 (x −μk )−ln (∣Σk ∣2 1 (2 π)2 p )+ln P (k )=k a r g m a x −2 1 (x −μk )T Σk −1 (x −μk )−2 1 ln (∣Σk ∣)+ln P (k )(1 )(2 )(3 )(4 )(5 )(6 )

观察上面的（6）式，可知是关于 x 的二次函数，所以这也是该算法被称为二次判别分析算法的原因。

三、代码实现

使用 Python 实现二次判别分析（QDA）：

def qda(X, y):
"""
   二次判别分析（QDA）
   args:
       X - 训练数据集
       y - 目标标签值
   return:
       y_classes - 标签类别
       priors - 每类先验概率
       means - 每类均值向量
       sigmags - 每类协方差矩阵
       dets - 每类协方差矩阵行列式
"""

   y_classes = np.unique(y)

   priors = []

   means = []

   sigmags = []

   dets = []
   for idx in range(len(y_classes)):
       c = X[y==y_classes[idx]][:]

       prior = c.shape[0] / X.shape[0]
       priors.append(prior)

       mu = np.mean(c, axis=0)
       means.append(mu)

       sigma = c - mu
       sigma = sigma.T.dot(sigma) / c.shape[0]
       sigmags.append(np.linalg.pinv(sigma))

       dets.append(np.linalg.det(sigma))
   return y_classes, priors, means, sigmags, dets

def discriminant(X, y_classes, priors, means, sigmags, dets):
"""
   判别新样本点
   args:
       X - 数据集
       y_classes - 标签类别
       priors - 每类先验概率
       means - 每类均值向量
       sigmags - 每类协方差矩阵
       dets - 每类协方差矩阵行列式
   return:
       分类结果
"""
   ps = []
   for idx in range(len(y_classes)):
       x = X - means[idx]
       p = - 0.5 * (np.sum(np.multiply(x.dot(sigmags[idx]), x), axis=1) + np.log(dets[idx])) + priors[idx]
       ps.append(p)
   return y_classes.take(np.array(ps).T.argmax(1))

四、第三方库实现

scikit-learn2 实现线性判别分析：

from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

qda = QuadraticDiscriminantAnalysis()

qda.fit(X, y)

qda.predict(X)

sklearn 的实现并没有像上面的实现一样直接去计算协方差矩阵的逆矩阵，而是通过奇异值分解（SVD）的方式避免直接求协方差矩阵的逆矩阵，计算复杂度会小很多，具体可参考 sklearn 文档3 中对协方差矩阵的估计算法。

五、示例演示

下图展示了存在二种分类时的演示数据，其中红色表示标签值为 0 的样本、蓝色表示标签值为 1 的样本：

机器学习算法系列（十二）-二次判别分析算法（Quadratic Discriminant Analysis Algorithm）

下面两张图分别展示了线性判别分析和二次判别分析拟合数据的结果，其中浅红色表示拟合后根据权重系数计算出预测值为 0 的部分，浅蓝色表示拟合后根据权重系数计算出预测值为 1 的部分：

可以很明显的看到两种判别分析的决策边界的不同，线性判别分析只能学习线性边界，而二次判别分析可以学习二次边界，因此具有更大的灵活性。

; 六、思维导图

七、参考文献

https://en.wikipedia.org/wiki/Quadratic_classifier#Quadratic_discriminant_analysis
https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis.html
https://scikit-learn.org/stable/modules/lda_qda.html#estimation-algorithms

完整演示请点击这里

注：本文力求准确并通俗易懂，但由于笔者也是初学者，水平有限，如文中存在错误或遗漏之处，恳请读者通过留言的方式批评指正

本文首发于—— AI导图，欢迎关注

Original: https://blog.csdn.net/sai_simon/article/details/122637369
Author: Saisimonzs
Title: 机器学习算法系列（十二）-二次判别分析算法（Quadratic Discriminant Analysis Algorithm）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614993/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【mAP】mean average precision 平均精度及其实现

用于评估对象检测模型。告诉我们检测的怎么样。。首先我们来了解一些前述知识：FN(false negatives)假阴性首先我们的预测是错误的，结果是负面的。就比如我们新冠检测是错的…

人工智能 2023年7月10日
0059
mysql 锁机制与原理详解

前言不管是数据库，还是很多后端编程语言，都存在锁的机制，锁的存在有效解决了并发情况下对共同资源的抢占，保证了数据的稳定性和一致性，在mysql中，锁是如何工作的呢？其底层的工作原…

人工智能 2023年7月30日
0057
TensorFlow、CUDA、cuDNN版本对应关系

Linux Windows macOS 版本Python 版本编译器构建工具cuDNNCUDAtensorflow-2.6.03.6-3.9GCC 7.3.1Bazel 3.7.2…

人工智能 2023年5月23日
0051
汇编逆向-Qt

Qt源码解析索引汇编逆向— 授权破解示例分析问题模拟运行环境 x64dbg Windows 10 Qt5.12.3 示例代码使用Qt显示当前时间，模拟一般授权软件的时间判…

人工智能 2023年7月30日
0056
数据分析与可视化概述

目录 1.数据分析 2.数据可视化 3.数据分析与可视化常用软件 1.Microsoft Excel 2.R语言 3.Python语言 4.SAS Enterprise Miner…

人工智能 2023年7月15日
0063
opencv(11):训练自己的opencv级联分类器

一采集数据并制作正负样本数据集 1.1 录制视频 1.2 将单个视频截取为指定分辨率的图像 1.3 处理负样本视频 1.4 本次训练正负样本数量选择与图片重编号二利用matl…

人工智能 2023年7月28日
0055
R语言回归模型残差可视化实战：残差拟合曲线图（residual vs. fitted plot）、QQ图、残差密度图

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0060
图像语义分割实战：TensorFlow Deeplabv3+ 训练自己数据集

文章目录前言一、环境配置二、训练过程 * 1.引入库 2.数据集准备 – 转换为 VOC 格式的数据集 Convert to 灰度图 Convert to tfr…

人工智能 2023年5月23日
0062
UMLS—记录一些使用

UMLS参考手册 https://www.ncbi.nlm.nih.gov/books/NBK9676/ MetaMap MetaMap是一个把生物医学文本与UMLS超级词表中的概…

人工智能 2023年5月30日
0073
Spark RDD、DataFrame和DataSet的区别

优点: 缺点: <span class="hljs-keyword">import org.apache.spark.sql.SQLContext …

人工智能 2023年6月2日
0061
使用Python对股票数据进行分析

最近越发痴迷研究金融产品,不仅仅是因为前段时间重新对板块进行了新的布局,也相信如果理财是一生都需要做的事也愿意花时间去好好研究一下.大部分人一致认为定投会受益,说的人多了大家也就不…

人工智能 2023年7月15日
0051
Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

导语 “慢品人间烟火色闲观人间岁月长” 🌙 遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得🌙。星光月夜烟花皆归你，我也归你。关于烟花🎇…

人工智能 2023年7月3日
0092
人工智能导论–基于神经网络的模式识别实验

实验3 基于神经网络的模式识别实验一、实验目的：理解BP神经网络和卷积神经网络的结构和原理，掌握反向传播学习算法对神经元的训练过程，了解反向传播公式。通过构建BP神经网络和卷积…

人工智能 2023年7月27日
0056
[GAN]CelebA&CelebAMask-HQ数据集

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月13日
0039
torchserve使用教程

官方文档地址：下载项目： git clone GitHub – pytorch/serve: Model Serving on PyTorch —&#82…

人工智能 2023年7月21日
0058
resnet18

前言在前篇vgg16之后，无法成功训练vgg16，发现是自己电脑可用的显存太低了，遂放弃。在2015 ILSVRC&COCO比赛中，何恺明团队提出的Resnet网络斩获…

人工智能 2023年7月13日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习算法系列（十二）-二次判别分析算法（Quadratic Discriminant Analysis Algorithm）

大家都在看