Python日记（7）——主成分分析

2023年8月27日上午8:01 • Python • 阅读 45

Python日记（7）——主成分分析
每天做一个Python小练习，顺便记录一些小技巧。
主成分分析（PCA）是一个比较常见的特征降维，在许多领域都被广泛运用。

主成分分析原理

主成分分析法(PCA)是一种高效处理多维数据的多元统计分析方法，将主成分分析用于多指标（变量）的综合评价较为普遍。笔者自从本科学习数学建模就开始接触该方法，但是一直没有系统地整理过，借这个机会总结一下，以备不时之需。

该方法的基本思想是运用较少的变量去解释原始数据中的大部分变异，通过对原始数据相关矩阵内部结构关系的分析和计算，产生一系列互不相关的新变量。根据需要从中选取比原始变量个数少的几个新变量，这些新的变量就是所谓的主成分，它们能够充分解释原始数据的变化。因此，主成分分析法本质上是一种降维方法，也多被用于高维数据的降维处理。

基本步骤
针对待分析数据X（n个特征），PCA的具体步骤如下：
（1）对向量X进行去中心化；
（2）计算X的协方差矩阵，自由度选择0或1；
（3）计算协方差矩阵的特征值和特征向量；
（4）选取最大的k个特征值及其特征向量（k

逐步用python实现PCA
（1）在某一目录下创建你好需要分析的数据文件（.txt)
data.txt

(2) 创建PCA.py
导入需要用到的Numpy库和数据

import numpy as np

X = np.loadtxt(f'./{data_name}', dtype=np.float32)

(3)转置之后去中心化


    X = X.T
    X = np.round(X-X.mean(axis=0), decimals=2)

(4)计算协方差矩阵


    X_cov = np.cov(X.T)

(5)计算协方差矩阵的特征值和特征向量


    eigenvalues, eigenvectors = np.linalg.eig(X_cov)

(6)选取前K个特征向量


    klarge_index = eigenvalues.argsort()[-K:][::-1]
    k_eigenvectors = eigenvectors[klarge_index]

(7)X和k个特征向量进行点乘


    X_pca = np.dot(X, k_eigenvectors.T)

可执行的函数文件

import numpy as np

def main(data_name, K):

    X = np.loadtxt(f'./{data_name}', dtype=np.float32)

    X = X.T
    X = np.round(X-X.mean(axis=0), decimals=2)

    X_cov = np.cov(X.T)

    eigenvalues, eigenvectors = np.linalg.eig(X_cov)

    klarge_index = eigenvalues.argsort()[-K:][::-1]
    k_eigenvectors = eigenvectors[klarge_index]

    X_pca = np.dot(X, k_eigenvectors.T)

    return X_pca

if __name__ == "__main__":
    data_name = 'data.txt'
    print(main(data_name='data.txt', K=1))

结果输出为

[[ 0.10749508  0.00155213 -0.46345628 -0.1521932   0.07311186 -0.2486332
   0.35670133  0.04641728  0.01776464  0.26124036]]

Original: https://blog.csdn.net/weixin_56960596/article/details/123583625
Author: June_Pyt
Title: Python日记（7）——主成分分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/760927/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

中秋节，华为云AI送上超级大月亮制作教程，体验赢开发者键鼠套装

摘要：一键”Run in ModelArts”，无需考虑计算资源、环境的搭建，简单运行代码，即可拥有你的超级大月亮，打造专属于你的梦幻中秋月夜。本文分享自…

Python 2023年10月29日
0047
Python中的Pandas模块

目录 Pandas Series 序列的创建序列的读取 DataFrame DataFrame的创建 DataFrame数…

Python 2023年5月25日
0084
lora和lorawan物联网无线传输技术

Lora联盟表示：”Lora设备和开放的LoRaWAN协议使智能物联网应用能够解决我们智慧城市建设面临的一些最大挑战：能源管理、自然资源减少、污染控制、基础设施效率、防…

Python 2023年10月25日
0025
新生入学管理系统

本科生毕业论文新生入学管理系统学生姓名学号指导教师所在学院专业名称班级摘要本毕业设计的内容是设计并且实现一个基于Python技术的新生入学管理系统。它是在Windows…

Python 2023年8月5日
0065
Python使用Numpy实现Kmeans算法

目录 Kmeans聚类算法介绍： 1.聚类概念： 2.Kmeans算法：定义：大概步骤： Kmeans距离测定方式： 3.如何确定最佳的k值(类别数)：手肘法： python…

Python 2023年8月26日
0050
设计模式—建造者模式

类型：创建型目的：创建对象时，提升属性设置的灵活性。灵活性类中定义了大量属性时，通常为了创建对象时属性初始设置的便利随之定义大量的构造方法。为了既不定义过多的构造方法，又保…

Python 2023年10月21日
0023
程序员必备的6个好习惯，成为更优秀的自己

如果你有机会跟一些技术大牛接触的话，你会发现别人不仅是技术上比一般人强很多，而且在做事方面也有许多不一样的习惯，在职场卷了这么多年依然保持的习惯，往往是值得我们借鉴和学习的。今天…

Python 2023年6月9日
0068
python iterrows_Pandas DataFrame.iterrows()用法示例

如果要遍历DataFrame以对每行执行一些操作, 则可以在Pandas中使用iterrows()函数。 Pandas使用三个函数来迭代DataFrame的行, 即iterrows…

Python 2023年8月17日
0034
数据分析之pandas的使用

pandas 为什么学习pandas numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢？ numpy能够帮助我们处理的是数值型的数据，当然在数据分析中…

Python 2023年10月30日
0046
dataframe 条件取非_python-Pandas DataFrame获取索引匹配特定条件的…

尝试这个： compare[compare.index.get_level_values(0).month.isin([5, 6, 7])] 演示： In [45]: import…

Python 2023年8月21日
0037
【Python爬虫】入门级爬虫案例，20行代码爬取网站图片（附源码）

知识点爬虫的步骤 requests parsel xpath数据解析爬虫四个步骤: 1.获取网页地址 (目标地址)2.发送请求3.数据解析4.保存本地【付费VIP完整版】只…

Python 2023年5月25日
0061
数据分析（2）Matplotlib绘制2D图表

文章目录 * – 一. 线型图 – + （一）绘制单条线型图 + （二）绘制多条线型图 + （三）绘制折线图 – 二. 直方图与密度图 &#82…

Python 2023年9月4日
0057
关于python unit测试套件引用suite时，还是执行了全部用例的解决办法

关于python unit测试套件引用suite时，还是执行了全部用例的解决办法先贴代码：先贴代码：我一共两个用例方法，一个是新增项目，另一个是查询项目，我尝试用一个套件给他…

Python 2023年9月11日
0044
NLP进阶，Bert+BiLSTM情感分析实战

Bert+BiLSTM做情感分析情感分析情感分析一类的任务比如商品评价正负面分析，敏感内容分析，用户感兴趣内容分析、甚至安全领域的异常访问日志分析等等实际上都可以用文本分类的方…

Python 2023年10月10日
0037
自己错题整理

关于numpy: 创建随机数组时候 np.random.rand(d0,d1…dn) ：rand函数根据给定维度生成半开区间[0,1)之间的数据，包含0，不包含1 np…

Python 2023年8月8日
0048
用python一键爬取几千张表情包斗图，分分钟征服朋友圈所有好友

现在年轻人聊天，不带点表情包都不好意思说自己是年轻人，表情包已然成为人与人聊天中不可缺少的部分。刚认识的朋友丢几个表情包出去分分钟拉进关系，女朋友生闷气了整两个表情包开心一下，…

Python 2023年11月9日
0023

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python日记（7）——主成分分析

主成分分析原理

可执行的函数文件

大家都在看