机器学习——PCA与LDA

2023年6月16日上午9:14 • 人工智能 • 阅读 75

机器学习——PCA与LDA

PCA
推导一个PCA
LDA
LDA的中心思想是什么
LDA的优缺点
LDA的步骤
推导LDA
PCA和LDA有什么区别
偏差与方差
SVD
伯努利分布和二项分布的区别

PCA

主成分分析（PCA）是一种多变量统计方法，它是最常用的降维方法之一，通过正交变换将一组可能存在相关性的变量数据转换为一组 线性不相关的变量，转换后的变量被称为 主成分

可以使用两种方法进行PCA，分别是特征分解或奇异值分解（SVD）。 PCA旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。
算法步骤
假设有m条n维数据

将原始数据按列组成n行m列矩阵X
将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
求出协方差矩阵C = 1 m X X T C=\frac{1}{m}XX^T C =m 1 X X T
求出 协方差矩阵的 特征值以及对应的特征向量
将特征向量按对应特征值大小从上到下按列排列成矩阵，取前k行组成矩阵P
Y = P X Y=PX Y =P X即为降维到k维后的数据

答案解析
PCA是比较常见的线性降维方法，通过 线性投影将 高维数据映射到低维数据中，所期望的是在投影的维度上，新特征自身的方差尽量大，方差越大特征越有效，尽量使产生的新特征间的相关性越小。

PCA算法的具体操作为对所有的样本进行 中心化操作，计算样本的 协方差矩阵，然后对协方差矩阵做 特征值分解，取最大的n个特征值对应的特征向量构造 投影矩阵。

PCA降维之后的维度怎么确定

可以利用交叉验证，再选择一个简单的分类器，来选择比较好的k值
可以设置一个比重阈值t，比如95%，然后选择满足阈值的最小的k:

说说PCA的优缺点
优点

仅仅需要以方差衡量信息量，不受数据集以外的因素影响
各主成分之间正交，可消除原始数据成分间的相互影响的因素
计算方法简单，主要运算是特征值分解，易于实现

缺点

主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强
方差小的非主成分也可能含有对样本差异的重要信息，因此降维丢弃可能对后续数据处理有影响
PCA属于有损压缩

推导一个PCA

定义初始变量：
假设有样本：X = [ x 1 , x 2 , . . . , x n ] T X=[x_1, x_2, …, x_n]^T X =[x 1 ,x 2 ,…,x n ]T
样本均值：x = 1 n ∑ i = 1 n x i x = \frac{1}{n}\sum^n_{i=1}x_i x =n 1 ∑i =1 n x i
样本沿w w w方向投影的均值：u = 1 n ∑ i = 1 n w T x i u = \frac{1}{n}\sum^n_{i=1}w^Tx_i u =n 1 ∑i =1 n w T x i
样本的协方差矩阵：c o v ( X ) = ∑ = 1 n ∑ i = 1 n ( x i − x ) ( x i − x ) T cov(X) = \sum=\frac{1}{n}\sum^n_{i=1}(x_i-x)(x_i-x)^T c o v (X )=∑=n 1 ∑i =1 n (x i −x )(x i −x )T
对样本投影后的方差进行推导化简:

σ 2 = 1 n ∑ i = 1 n ( w T x i − μ ) 2 \sigma^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(w^{T} x_{i}-\mu\right)^{2}σ2 =n 1 ∑i =1 n (w T x i −μ)2
= 1 n ∑ i = 1 n ( w T x i − 1 n ∑ i = 1 n w T x i ) 2 =\frac{1}{n} \sum_{i=1}^{n}\left(w^{T} x_{i}-\frac{1}{n} \sum_{i=1}^{n} w^{T} x_{i}\right)^{2}=n 1 ∑i =1 n (w T x i −n 1 ∑i =1 n w T x i )2
= 1 n ∑ i = 1 n ( w T x i − w T ( 1 n ∑ i = 1 n x i ) ) 2 =\frac{1}{n} \sum_{i=1}^{n}\left(w^{T} x_{i}-w^{T}\left(\frac{1}{n} \sum_{i=1}^{n} x_{i}\right)\right)^{2}=n 1 ∑i =1 n (w T x i −w T (n 1 ∑i =1 n x i ))2
= 1 n ∑ i = 1 n ( w T ( x i − x ˉ ) ) 2 \quad=\frac{1}{n} \sum_{i=1}^{n}\left(w^{T}\left(x_{i}-\bar{x}\right)\right)^{2}=n 1 ∑i =1 n (w T (x i −x ˉ))2
= 1 n ∑ i = 1 n ( w T ( x i − x ˉ ) ) ( w T ( x i − x ˉ ) ) T =\frac{1}{n} \sum_{i=1}^{n}\left(w^{T}\left(x_{i}-\bar{x}\right)\right)\left(w^{T}\left(x_{i}-\bar{x}\right)\right)^{T}=n 1 ∑i =1 n (w T (x i −x ˉ))(w T (x i −x ˉ))T
= 1 n ∑ i = 1 n w T ( x i − x ˉ ) ( x i − x ˉ ) T w =\frac{1}{n} \sum_{i=1}^{n} w^{T}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)^{T} w =n 1 ∑i =1 n w T (x i −x ˉ)(x i −x ˉ)T w
= w T [ 1 n ∑ i = 1 n ( x i − x ˉ ) ( x i − x ˉ ) T ] w =w^{T}\left[\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)^{T}\right] w =w T [n 1 ∑i =1 n (x i −x ˉ)(x i −x ˉ)T ]w
= w T Σ w \quad=w^{T} \Sigma w =w T Σw

因为w T ( x i − x ) w^T(x_i-x)w T (x i −x )的结果是一个实数，是一个1 x 1 1×1 1 x 1的矩阵，所以它自身等同于它的转置，也就是下一行变换的原因。而对于要求的w w w就是：
w = a r g m a x ( w T ∑ w ) w=argmax(w^T\sum{w})w =a r g m a x (w T ∑w )
当然，还要加上约束条件：w T w = 1 w^Tw=1 w T w =1

; LDA

线性判别分析是一种基于 有监督学习的 降维方式, 将数据集在低维度的空间进行投影，要使得投影后的 同类别的数据点间的距离尽可能的靠近，而 不同类别间的数据点的距离 尽可能的远

LDA的中心思想是什么

最大化类间距离和最小化类内距离

LDA的优缺点

优点

在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识
LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优

缺点

LDA不适合对非高斯分布样本进行降维，PCA也有这个问题
LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。
LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好
LDA可能过度拟合数据

LDA的步骤

假设有m条n维数据

计算类内散度矩阵S w S_w S w
计算类间散度矩阵S b S_b S b
计算矩阵S w − 1 S b S^{-1}_wS_b S w −1 S b
计算矩阵S w − 1 S b S^{-1}_wS_b S w −1 S b 的最大的d个特征值和对应的d个特征向量(w_1, w_2, … w_d)，得到投影矩阵W
对样本集中的每一个样本特征x i x_i x i ,转化为新的样本z i = W T x i z_i=W^Tx_i z i =W T x i
得到输出样本集D ′ = ( z 1 , y 1 ) , ( z 2 , y 2 ) , . . . , ( z m , y m ) D^{‘}=(z1,y1), (z2, y2),…, (zm, ym)D ′=(z 1 ,y 1 ),(z 2 ,y 2 ),…,(z m ,y m )

推导LDA

定义初始变量
假设有C 1 C_1 C 1 , C 2 C_2 C 2 两个类别的样本，两类的均值分别为：

我们希望投影之后两类之间的距离尽可能的大，距离表示为：

其中μ ~ 1 , μ ~ 2 \tilde{\mu}{1}, \tilde{\mu}{2}μ~1 ,μ~2 表示两类的中心在w方向上的投影向量：

因此需要优化的问题为：

容易发现当w方向与( μ 1 − μ 2 ) (\mu_1-\mu_2)(μ1 −μ2 )一致的时候，该距离达到最大值
构造目标函数
根据LDA的中心思想——最大化类间距离和最小化类内距离，我们将目标函数定义为类间距离和类内距离的比值：

其中w为单位向量，D 1 , D 2 D_1,D_2 D 1 ,D 2 分别表示两类投影后的方差：

因此J ( w ) J(w)J (w )可以写成：

; PCA和LDA有什么区别

相同点：

两者均可以对数据进行降维
两者在降维时均使用了矩阵特征分解的思想
两者都假设数据符合高斯分布

不同点：

LDA是有监督的降维方法，而PCA是无监督的降维方法
LDA降维最多降到类别数k-1的维数，PCA没有限制
LDA除了可以用于降维，还可以用于分类
LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向

偏差与方差

偏差：偏差衡量了模型的预测值与实际值之间的偏离关系。通常在深度学习中，我们每一次训练迭代出来的新模型，都会拿训练数据进行预测，偏差就反应在预测值与实际值匹配度上

方差：方差描述的是训练数据在不同迭代阶段的训练模型中，预测值的变化波动情况。从数学角度看，可以理解为每个预测值与预测均值差的平方和再求平均数。通常在深度学习训练中，初始阶段模型复杂度不高，为低方差；随着训练量加大，模型逐步拟合训练数据，复杂度开始变高，此时方差会逐渐变高。

SVD

奇异值分解是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。

SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个mxn的矩阵，那么我们定义 矩阵A的SVD为：A = U ∑ V T A=U\sum{V^T}A =U ∑V T，其中U是一个mxm的矩阵，∑ \sum ∑是一个mxn的矩阵，V是一个nxn的矩阵，U T U = I , V T V = I U^TU=I, V^TV=I U T U =I ,V T V =I, 那么A A T AA^T A A T的特征向量组成的就是我们SVD中的U矩阵

伯努利分布和二项分布的区别

伯努利分布：是假设一个事件只有发生或者不发生两种可能，并且这两种可能是固定不变的。那么，如果假设它发现的概率是p，那么它不发生的概率就是1-p
二项分布：是多次伯努利分布实验的概率分布

Original: https://blog.csdn.net/DCGJ666/article/details/124226434
Author: DCGJ666
Title: 机器学习——PCA与LDA

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622945/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

“领域知识图谱的构建与应用”讲座学习笔记

知识图谱是一种基于先进信息技术的型语义工具，它以实体或概念为节点，通过语义关系连接成大规模语义网络，可以帮助机器或信息系统理解语义、组织知识、发现知识，从而为人们提供知识、情报的智…

人工智能 2023年6月1日
0082
解决调用torch_geometric报错No module named ‘torch_sparse‘等问题，以及torch_sparse torch_scatter等的安装问题

出现的问题：torch_geometric报错会出现为torch_sparse torch_scatter等的问题最近又开始搞图神经网络方面的东西，要用到 torch_geom…

人工智能 2023年7月23日
0085
AlexeyAB DarkNet YOLOv3 Loss计算全解析

先附上AlexeyAB大神版本的DarkNet：github 一、前言目前还没有对yolo loss计算方法讲的很明白的资料，尤其是loss计算中是如何选取正负样本和忽略样本的。…

人工智能 2023年7月10日
00160
唯样商城：英飞凌 —— 一文弄懂IGBT驱动

我们都知道，电机驱动是IGBT的主要应用领域之一。有的同学可能会有这样的困惑： “IGBT本来就是驱动电机的，为什么它自己还需要一个驱动？IGBT驱动到底是做什么的？&…

人工智能 2023年6月2日
0089
kmeans 聚类误差_从零实现机器学习算法（十一）KMeans

1. KMeans简介 KMeans是一种简单的聚类方法，它使用每个样本到聚类中心的距离作为度量来决定簇。其中 [TencentCloudSDKException] code:Fa…

人工智能 2023年6月2日
0083
Python调用C++（实战篇）

内容主要参照该博文：https://blog.csdn.net/qq_44843469/article/details/122116098流程为：创建c++工程（含配置）——使用C…

人工智能 2023年7月5日
0085
ML1 单变量线性回归

文章目录 * – 有监督学习与无监督学习 – + 1.有监督学习 + 2.无监督学习 – 代价函数 – 梯度下降算法 –…

人工智能 2023年6月17日
00110
Nerf项目LLFF 解决新场景pose生成的问题

文章目录 LLFF项目了解 * 尝试利用llff为自己的数据集生成pose。 MIP是什么？几个重要的链接地址 github-llff :https://github.com/f…

人工智能 2023年7月28日
0088
Pandas学习笔记

Pandas学习笔记导入库 import pandas as pd 读取文件数据 df = pd.read_csv("data/dogName.csv") S…

人工智能 2023年7月8日
0089
机器学习十大算法案例

机器学习十大算法与案例实现监督学习 * 1. 线性回归 2. 逻辑回归 3. 神经网络 4. SVM支持向量机 5. K邻近 6. 贝叶斯 7. 决策树 8. 集成学习(Adab…

人工智能 2023年6月12日
0058
【Matlab 六自由度机器人】运动学逆解（附MATLAB机器人逆解代码）

【Matlab 六自由度机器人】求运动学逆解往期回顾前言正文 * 一、运动学逆解 – 1. Pieper 法 2. 《机器人学》常规求解二、代码实现 &#821…

人工智能 2023年7月25日
0079
【目标检测实战学习】数据增强的几种方法：cutout，mixup，mosaic，rotate，HSV，随机抖动实战

最近在学习数据增强方面的东西，简单做个记录首先需要强调的是，数据增强是目标检测流程中的一个过程，通常是在对数据集完成打标签之后，在划分数据集之前，为了增大数据集的数量，获取更多的…

人工智能 2023年7月27日
00158
yolov5模型问题解决SPPF找不到、yolov5smlx.pt文件下载、coco128文件下载、coco128yaml文件更改、coco128数据集not exist、BrokenPipeErro

问题一：运行detect.py 报错：AttributeError: Can’t get attribute ‘SPPF’ on import…

人工智能 2023年7月22日
0059
【教学类-13-01】20221112《数字色块图5*7*9》（中大班主题《》)

效果展示打印效果：（浅蓝色打印纸）背景需求：掌握了word表格单元格插入列表的方法，我想进一步制作”单元格色块填充”的”色盲图&#8221…

人工智能 2023年6月29日
0085
小组作业：糖尿病预测

提示：该Blog仅用于作业汇报展示，大佬请绕路文章目录一、作业介绍二、数据处理三、数据分析四、特征选择五、模型训练与评价六、模型优化七、与原模型进行对比八、作业总…

人工智能 2023年6月17日
00128
蚁群算法解决任务调度问题-Python

蚁群算法是一种启发式优化算法，也是一种智能算法、进化计算。和遗传算法、粒子群算法相比，蚁群算法所优化的内容是拓扑序（或者路径）的信息素浓度，而遗传算法、粒子群算法优化的是某一个个体…

人工智能 2023年6月4日
00162

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习——PCA与LDA

机器学习——PCA与LDA

大家都在看