&#x6570;&#x636E;&#x5904;&#x7406;
import pandas as pd
import numpy as np

&#x7ED8;&#x56FE;
import seaborn as sns
import matplotlib.pyplot as plt
&#x56E0;&#x5B50;&#x5206;&#x6790;
from factor_analyzer import FactorAnalyzer

2.读取数据

df = pd.read_csv("D:\&#x684C;&#x9762;\demo.csv",encoding='gbk')
df

输出：

如果不想要城市那一列的话，可以在读取的时候就删除，也可以后面再删

比如，读取时删除

df = pd.read_csv("D:\&#x684C;&#x9762;\demo.csv", index_col=0,encoding='gbk').reset_index(drop=True)
df

然后我们查询一下， 数据的缺失值情况：

df.isnull().sum()

然后，我们可以针对的，对数据进行一次处理：

比如 删除无效字段的那一列

 &#x53BB;&#x6389;&#x65E0;&#x6548;&#x5B57;&#x6BB5;
df.drop(["&#x53D8;&#x91CF;&#x540D;1","&#x53D8;&#x91CF;&#x540D;2","&#x53D8;&#x91CF;&#x540D;3"],axis=1,inplace=True)

或者， 删除空值

&#x53BB;&#x6389;&#x7A7A;&#x503C;
df.dropna(inplace=True)

3.充分性检测

在进行因子分析之前，需要先进行充分性检测，主要是检验相关特征阵中各个变量间的相关性，是否为单位矩阵，也就是检验各个变量是否各自独立。

3.1 Bartlett’s球状检验

检验总体变量的相关矩阵是否是单位阵（相关系数矩阵对角线的所有元素均为1,所有非对角线上的元素均为零）；即检验各个变量是否各自独立。

如果不是单位矩阵，说明原变量之间存在相关性，可以进行因子分子；反之，原变量之间不存在相关性，数据不适合进行主成分分析

from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity

chi_square_value, p_value = calculate_bartlett_sphericity(df)
chi_square_value, p_value

3.2 KMO检验

检查变量间的相关性和偏相关性，取值在0-1之间；KOM统计量越接近1，变量间的相关性越强，偏相关性越弱，因子分析的效果越好。

通常取值从 0.6开始进行因子分析

#KMO&#x68C0;&#x9A8C;
from factor_analyzer.factor_analyzer import calculate_kmo
kmo_all,kmo_model=calculate_kmo(df)
kmo_model

通过结果可以看到 KMO大于0.6，也说明变量之间存在相关性，可以进行分析。

4.选择因子个数

方法： 计算相关矩阵的特征值，进行降序排列

4.1 特征值和特征向量

faa = FactorAnalyzer(25,rotation=None)
faa.fit(df)

&#x5F97;&#x5230;&#x7279;&#x5F81;&#x503C;ev&#x3001;&#x7279;&#x5F81;&#x5411;&#x91CF;v
ev,v=faa.get_eigenvalues()
print(ev,v)

4.2 可视化展示

将特征值和因子个数的变化绘制成图形：

 # &#x540C;&#x6837;&#x7684;&#x6570;&#x636E;&#x7ED8;&#x5236;&#x6563;&#x70B9;&#x56FE;&#x548C;&#x6298;&#x7EBF;&#x56FE;
plt.scatter(range(1, df.shape[1] + 1), ev)
plt.plot(range(1, df.shape[1] + 1), ev)

&#x663E;&#x793A;&#x56FE;&#x7684;&#x6807;&#x9898;&#x548C;xy&#x8F74;&#x7684;&#x540D;&#x5B57;
&#x6700;&#x597D;&#x4F7F;&#x7528;&#x82F1;&#x6587;&#xFF0C;&#x4E2D;&#x6587;&#x53EF;&#x80FD;&#x4E71;&#x7801;
plt.title("Scree Plot")
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")

plt.grid()  # &#x663E;&#x793A;&#x7F51;&#x683C;
plt.show()  # &#x663E;&#x793A;&#x56FE;&#x5F62;

从上面的图形中，我们明确地看到：选择2或3个因子就可以了

4.3 可视化中显示中文不报错

只需要在画图前，再导入一个库即可，见代码

import matplotlib as mpl

mpl.rcParams['font.sans-serif'] = ['SimHei']  # &#x6307;&#x5B9A;&#x9ED8;&#x8BA4;&#x5B57;&#x4F53;
mpl.rcParams['axes.unicode_minus'] = False  # &#x89E3;&#x51B3;&#x4FDD;&#x5B58;&#x56FE;&#x50CF;&#x662F;&#x8D1F;&#x53F7;'-'&#x663E;&#x793A;&#x4E3A;&#x65B9;&#x5757;&#x7684;&#x95EE;&#x9898;

5.因子旋转

5.1 建立因子分析模型

在这里选择，最大方差化因子旋转

&#x9009;&#x62E9;&#x65B9;&#x5F0F;&#xFF1A; varimax &#x65B9;&#x5DEE;&#x6700;&#x5927;&#x5316;
&#x9009;&#x62E9;&#x56FA;&#x5B9A;&#x56E0;&#x5B50;&#x4E3A; 2 &#x4E2A;
faa_two = FactorAnalyzer(2,rotation='varimax')
faa_two.fit(df)

ratation参数的其他取值情况：

varimax (orthogonal rotation)
promax (oblique rotation)
oblimin (oblique rotation)
oblimax (orthogonal rotation)
quartimin (oblique rotation)
quartimax (orthogonal rotation)
equamax (orthogonal rotation)

5.2 查看因子方差-get_communalities()

查看公因子方差

&#x516C;&#x56E0;&#x5B50;&#x65B9;&#x5DEE;
faa_two.get_communalities()

查看每个变量的公因子方差数据

pd.DataFrame(faa_two.get_communalities(),index=df.columns)

5.3 查看旋转后的特征值

faa_two.get_eigenvalues()

pd.DataFrame(faa_two.get_eigenvalues())

5.4 查看成分矩阵

查看它们构成的成分矩阵：

&#x53D8;&#x91CF;&#x4E2A;&#x6570;*&#x56E0;&#x5B50;&#x4E2A;&#x6570;
faa_two.loadings_

如果转成DataFrame格式，index就是我们的变量，columns就是指定的因子factor。转DataFrame格式后的数据：

pd.DataFrame(faa_two.loadings_,index=df.columns)

5.5 查看因子贡献率

通过理论部分的解释，我们发现每个因子都对变量有一定的贡献，存在某个贡献度的值，在这里查看3个和贡献度相关的指标：

总方差贡献：variance (numpy array) – The factor variances
方差贡献率：proportional_variance (numpy array) – The proportional factor variances
累积方差贡献率：cumulative_variances (numpy array) – The cumulative factor variances

我们来看一下总方差贡献吧

faa_two.get_factor_variance()

6.隐藏变量可视化

为了更直观地观察每个隐藏变量和哪些特征的关系比较大，进行可视化展示，为了方便取上面相关系数的绝对值：

df1 = pd.DataFrame(np.abs(faa_two.loadings_),index=df.columns)
print(df1)

然后我们通过热力图将系数矩阵绘制出来：

&#x7ED8;&#x56FE;

plt.figure(figsize = (14,14))
ax = sns.heatmap(df1, annot=True, cmap="BuPu")

&#x8BBE;&#x7F6E;y&#x8F74;&#x5B57;&#x4F53;&#x5927;&#x5C0F;
ax.yaxis.set_tick_params(labelsize=15)
plt.title("Factor Analysis", fontsize="xx-large")

&#x8BBE;&#x7F6E;y&#x8F74;&#x6807;&#x7B7E;
plt.ylabel("Sepal Width", fontsize="xx-large")
&#x663E;&#x793A;&#x56FE;&#x7247;
plt.show()

&#x4FDD;&#x5B58;&#x56FE;&#x7247;
plt.savefig("factorAnalysis", dpi=500)

7.转成新变量

上面我们已经知道了2个因子比较合适，可以将原始数据转成2个新的特征，具体转换方式为：

faa_two.transform(df)

转成DataFrame格式后数据展示效果更好：

df2 = pd.DataFrame(faa_two.transform(df))
print(df2)

五·、参考资料

1、Factor Analysis：Factor Analysis with Python — DataSklr

2、多因子分析：因子分析(factor analysis)例子–Python | 文艺数学君

3、 factor_analyzer package的官网使用手册：factor_analyzer package — factor_analyzer 0.3.1 documentation

4、浅谈主成分分析和因子分析：浅谈主成分分析与因子分析 – 知乎

Original: https://blog.csdn.net/qq_25990967/article/details/122566533
Author: 洋洋菜鸟
Title: 因子分析——python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/668391/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【树莓派不吃灰】基础篇⑱ 从0到1搭建docker环境，顺便安装一下emqx MQTT Broker、HomeAssistant、portainer

目录 * – 1. 前言 – 2. 搭建docker环境 – 3. docker简介 – + 3.1 docker解决什么问题？ +…

人工智能 2023年6月26日
0091
模型训练时的学习率默认设置为0.01。_Kaldi LF-MMI训练—脚本修改小技巧

最近组里面师弟师妹们在使用Kaldi LF-MMI脚本时问了我一些基本的脚本问题，这里把问题总结了一下，希望可以帮助大家更快上手Kaldi LF-MMI的脚本。注：这里以kaldi…

人工智能 2023年5月27日
0055
阿里云天池task4

数据分析首先task4是一个项目做一个数据分析的题目是关于2020美国选举的。数据集所有候选人信息 CAND_ID 候选人IDCAND_NAME 候选人姓名CAND_PTY_AF…

人工智能 2023年6月11日
0087
用pip安装cuda版本的torch

大佬可以跳过不看了，这里只是我试了后记录一下的。原因：在下载torch_parse这个包的时候，它不知道怎么抽风了，把我的GPU版本顶掉了。我的猜测是可能因为文件名的冲突，它觉得…

人工智能 2023年7月5日
0088
【知识图谱系列】基于Randomly Perturb的图谱预训练模型GraphCL

作者：CHEONG公众号：AI机器学习与知识图谱研究方向：自然语言处理与知识图谱本文介绍基于Randomly Perturb互信息最大化的图谱预训练模型GraphCL（NIPS …

人工智能 2023年6月1日
0083
使用python操作文件和文件夹

文件操作的作用：把一些内容（数据)存储起来，可以让程序下一次执行的时候直接使用，而不必重新制作一份，省时省力。文件操作步骤： 1.打开文件 2.读写操作 3.关闭文件（释放内…

人工智能 2023年6月30日
00124
课程笔记-三维点云处理03 ——Clustering聚类

课程笔记-三维点云处理03 ——Clustering聚类 [TencentCloudSDKException] code:FailedOperation.ServiceIsolat…

人工智能 2023年6月2日
0085
python kmeans聚类中心点_python – KMeans聚类后的聚类点(scikit learn)

import numpy as np from sklearn.cluster import KMeans from sklearn import datasets iris = …

人工智能 2023年6月2日
0068
毕设题目：Matlab语音识别

1 案例背景随着计算机技术的快速发展,语音交互已经成为了一种十分重要的人机交互手段。而语音识别的准确性和语音合成的音质在很大程度上受到语音特征参数准确性的影响,因此对语音特征参数进…

人工智能 2023年6月22日
0082
机器学习基础篇（4）滤波器

目录 1.卷积 1.1.何为卷积 1.2.卷积步长 1.3卷积填充 padding 1.4卷积大小 1.6卷积的API 1.7卷积的意义 2.滤波 2.1.方盒滤波与均值滤波 2….

人工智能 2023年7月20日
0067
机器学习课后练习题（期末复习题目附答案）

此为第一章绪论部分正确答案: A 下面哪种说法有关机器学习的认识是错误的?( ) A. 高质量的数据、算力和算法对一个机器学习项目是必不可少的。 B. 深度学习是机器学习的一类高…

人工智能 2023年7月25日
0044
filterin

问题描述在数据处理过程中，filtering（滤波）是一种常见的操作。给定一个数据集，我们希望去除其中的噪音或不相关的信息，保留感兴趣的信号。本文将介绍滤波的概念、常用算法原理以…

人工智能 2024年1月5日
0054
10-Day-Of-OpenCV-4

Image Processing|Day 4 * – 1. 颜色空间转换 – + 1.1 转换颜色空间 + 1.2 颜色跟踪 – 2. 几何变换…

人工智能 2023年7月10日
0046
机器学习应用篇（十）——工业蒸汽数据分析

机器学习应用篇（十）——工业蒸汽数据分析文章目录机器学习应用篇（十）——工业蒸汽数据分析 * 一、数据集二、数据分析 – 1 数据导入２数据特征探索（数据可视…

人工智能 2023年7月17日
0079
基于 docker 搭建 grafana+prometheus 监控资源之mysql+docker+alertmanager配置（二）（超详细版）

先去看第一篇（基础部署篇），看完后，才能接上本篇。基于 docker 搭建 grafana+prometheus 监控资源之mysql+docker+alertmanager配…

人工智能 2023年7月30日
0060
在Qt中使用OpenCV（简单例程）

第一次在Qt中配置好OpenCV之后，想要去测试一下配置是否成功具体操作如下：第一次记录，有不足的地方欢迎指出使用Qt Widgets Application模板choose，继…

人工智能 2023年6月19日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

因子分析——python

1.导入库