机器学习之降维方法PCA与因子分析

2023年6月11日上午9:41 • 人工智能 • 阅读 149

上期内容：

上期讲到朴素贝叶斯模型，它适合于数据量小，或者特征间相互独立，若遇到特征间的相关系数较大，我们可以对特征进行降维，减少特征数量。今天我们就来讲讲机器学习中的降维方法：主成分分析(PCA)和因子分析。文章重在python实现，不是数学推导。喜欢推到的同学可以参考

文章目录

主成分分析(PCA)
*
1、原理
2、基本流程
3、优缺点
4、python实战
–
- 利用python实现
- 利用sklearn实现
附加：因子分析

主成分分析(PCA)

1、原理

主成分分析是一种常用的无监督学习方法，它利用正交变换将线性相关变量的观测数据转化为少数几个线性无关变量表示的数据，线性无关的变量叫做主成分。由于主成分比原数据个数少，因此被称为降维方法（减少维度）。
主成分分析中，首先将数据进行规范化(符合正态分布)。之后对数据进行正交变量，减少变量个数，使其线性无关。新变量是可能的正交变换中变量的方差的和最大的，方差表示新变量上存储的信息大小，根据方差大小，将新变量依次成为第一主成分、第二主成分等。这就是PCA的基本思想。

2、基本流程

去中心标准化
计算数据的协方差矩阵(n*n)及矩阵的特征值与特征向量
对特征值降序排序，保留最大的k个特征向量
将数据转换到k个特征向量构建的新空间中

3、优缺点

优点：
使得数据集更易使用；
降低算法的计算开销；
去除噪声；
使得结果容易理解；
完全无参数限制。
缺点：
如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高；
特征值分解有一些局限性，比如变换的矩阵必须是方阵；
在非高斯分布（正态分布）情况下，PCA方法得出的主成分可能并不是最优的。

4、python实战

利用python实现

为了更清楚明白PCA的详细过程，这里利用python语句进行一步一步的实现PCA


model_data = pd.read_csv("PCA数据集.csv",encoding='gbk',sep=',',index_col=0)

model_data['X1'] = model_data['X1'] - model_data['X1'].mean()
model_data['X2'] = model_data['X2'] - model_data['X2'].mean()
model_data['X3'] = model_data['X3'] - model_data['X3'].mean()
model_data['X4'] = model_data['X4'] - model_data['X4'].mean()
model_data['X5'] = model_data['X5'] - model_data['X5'].mean()

mtr_ju = model_data.cov()

import numpy as np
val, vec = np.linalg.eig(mtr_ju)

np.dot(np.array(vec[:,0:2]), np.array(model_data))

利用sklearn实现

import pandas as pd
from sklearn.decomposition import PCA
from sklearn import preprocessing

data = pd.read_csv("PCA数据集.csv",encoding='gbk',sep=',',index_col=0)

corr_matrix = data.corr(method='pearson')

data = preprocessing.scale(data)

'''说明：1、第一次的n_components参数应该设的大一点
   说明：2、观察explained_variance_ratio_和explained_variance_的取值变化，
   建议explained_variance_ratio_累积大于0.85，explained_variance_需要保留的最后一个主成分大于0.8，
'''
pca=PCA(n_components=2)
pca.fit(data)
newdata1=pca.fit_transform(data)
print(pca.explained_variance_)
print(pca.explained_variance_ratio_)

pca=PCA(n_components=1).fit(data)
newdata=pca.fit_transform(data)
'''通过主成分在每个变量上的权重的绝对值大小，确定每个主成分的代表性'''

pca.components_

附加：因子分析

因子分析和PCA的原理基本一致，都是适用于特征较多，相关性较大的数据集，降维分析方法。因子分析通过研究众多变量之间的内部依赖关系，用少数假想变量反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。（主成分分析中成为主成分）
区别：
在主成分分析中，新变量是原始变量的线性组合。在诸多主成分中，第一个主成分在方差中的占比最大，说明它综合原有变量的能力最强，越往后主成分在方差中的比重也小，综合原信息的能力越弱。重点在于解释各变量的总方差。
因子分析不是原有变量的线性组合，而是将变量进行分解，利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系，而这些少数因子分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子；特殊因子是每个原始变量独自具有的因子。重点放在解释各变量之间的协方差。

参考：
机器学习–主成分分析(PCA)算法的原理及优缺点
 因子分析
 因子分析与主成分分析的区别
统计学习方法李航著

Original: https://blog.csdn.net/m0_69435474/article/details/124523237
Author: 小磊要努力哟
Title: 机器学习之降维方法PCA与因子分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599654/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SiamFC论文解读及代码实现

SiamFC论文解读及代码实现 * – 1. 论文精华 – + 1.1 Introduction + 1.2 用于跟踪的深度相似性学习 + 1.3 全卷积孪…

人工智能 2023年6月26日
00109
【一文了解】经典图像的增强方法都有些什么？什么又是振铃现象？为什么图像会产生噪声？噪声又有什么分类？

CV_07 图像增强 & 图像噪声一. 什么是图像增强？图像增强其实就是有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征、扩大图像中不…

人工智能 2023年7月1日
0092
【OpenCV 例程200篇】79. 频率域图像滤波的基本步骤

【OpenCV 例程200篇】79. 频率域图像滤波的基本步骤欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系列，持续…

人工智能 2023年6月18日
00100
Pytorch模型如何转rknn模型（基于SSD的目标检测算法）

Pytorch模型（基于SSD的目标检测算法）如何转为rknn模型实践证明，瑞星微就是个lese！RKNN-Toolkit1.3之后是支持pytorch直接转rknn的，但是存在…

人工智能 2023年7月10日
0074
windows下载安装启动nexus

参考：https://blog.csdn.net/lovelife000/article/details/125880764https://blog.csdn.net/qq_362…

人工智能 2023年6月29日
0096
交互式医学影像标注器–MD.ai概述

今天给大家介绍一款交互式医学影像标注工具MD.ai，他的新颖之处在于一方面他是基于web模式的一款专业的医学影像标注工具，另一方面就是他是第一个创建的交互标注的工具，是一个多机构，…

人工智能 2023年6月20日
0099
基于Anaconda的matplotlib学习

基于Anaconda的matplotlib学习 * – matplotlib安装 – 入门小案例 – 入门小测试 matplotlib安装第一…

人工智能 2023年7月23日
0080
数字图像处理课程设计-疲劳检测系统

文章目录数字图像处理课程设计-疲劳检测系统 * 前言一、课程设计任务二、设计框图三、准备工作四、任务流程 – ４.１视频预处理 4.2图片分割五、结果六、…

人工智能 2023年5月26日
0079
Python安装Pytorch教程（图文详解）

最近人工智能等多门课需要复现论文，近两年的论文很多都是基于Pytorch环境做的实验，所以，这里总结一下Pytorch的安装教程，做好最快、最简单、最好地完成安装。本机环境Wi…

人工智能 2023年7月28日
00171
Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization 论文翻译

论文地址：arxiv.org技术报告视频GitHub地址 Actor-Context-Actor Relation Network for Spatio-Temporal Acti…

人工智能 2023年5月28日
0078
005-数码管的使用

实现数码管的控制及使用方式数码管的使用功能：实现数码管的控制及使用方式方案一：控制数码管1显示数字5 #include<reg52.h> sbit Ls1 = P…

人工智能 2023年6月6日
0076
基于OpenCV的RoboMaster装甲识别（Python,C++都有）

概述这篇文章简单的介绍了RoboMaster机器人的装甲识别。方法是通过边缘检测的方法将灯柱作为标识选中装甲板区域。在本篇博客中将提供坐标点，作为后续机甲调试使用。所使用到的技…

人工智能 2023年5月26日
0073
数据分析Power BI案例：产品与客户销售数据分析

文章目录一、产品与客户销售数据分析 * 1. 新建项目及数据源准备二、数据预处理 * 1. 产品表预处理 2. 员工表预处理 3. 销售表预处理 4. 计算实际业绩 &#821…

人工智能 2023年6月19日
0089
Python OpenCV配置CUDA以支持GPU加速 (不使用Visual Studio)

Welcome to My Blog 文章唯一地址：https://blog.csdn.net/REAL_liudebai/article/details/119356958 问题…

人工智能 2023年6月18日
00105
【PCL自学：ocTree】八叉树（octree）的原理及应用案例(点云压缩，搜索，空间变化)

PCL中八叉树（octree）的原理及应用案例一、什么是八叉树ocTree？ * 1.八叉树原理二、八叉树应用案例 * 1.点云压缩 2.用八叉树进行空间划分和搜索操作 3.无…

人工智能 2023年5月26日
00184
代理模型介绍大全

目录 1.代理模型简介 1.1代理模型的由来 1.2什么是代理模型 1.3代理模型的类别 2.如何构建代理模型 3.代理模型中的高低可信度模型 1.代理模型简介一次看文献的时候，…

人工智能 2023年7月25日
00110

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31