PCA及其实战学习

2023年7月7日上午6:02 • 人工智能 • 阅读 79

知识学习

整体思想就是根据重要特征（为主）附加其他特征（为辅）生成新的维度的特征

; 代码实战

学习视频链接：b站传送门
这里使用了来自视频教程的数据集：github传送门
数据集下载方式：CSDN传送门

首先是数据预处理部分：

过程中所需要使用的所有包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

获得原始数据并进行简要查看，可以借助info和head工具


traindata_0 = pd.read_csv(r'C:\Users\Administrator\Desktop\train_titanic.csv', index_col = 'PassengerId')

'''Pandas dataframe.info()函数用于获取 DataFrame 的简要摘要。在对数据进行探索性分析时，它非常方便。为了快速浏览数据集，我们使用dataframe.info()功能。
用法： DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None)
参数：verbose:是否打印完整的摘要。屏幕上将不显示任何内容。max_info_columns设置。 True或False会覆盖显示。max_info_columns设置。buf:可写缓冲区，默认为sys.stdoutmax_cols:确定是打印完整摘要还是简短摘要。屏幕上将不显示任何内容。max_info_columns设置。memory_usage:指定是否应显示DataFrame元素(包括索引)的总内存使用情况。屏幕上将不显示任何内容。memory_usage设置。 True或False会覆盖显示。memory_usage设置。 " deep"的值与True相同，具有自省性。内存使用情况以人类可读的单位(以2为基数的表示形式)显示。null_counts：是否显示非空计数。如果为None，则仅显示框架是否小于max_info_rows和max_info_columns。如果为True，则始终显示计数。如果为False，则从不显示计数。'''
print(traindata_0.info())
'''Pandas DataFrame head()方法返回DataFrame或Series的前n行，其中n是用户输入值。 head()函数用于获取前n行。这对于快速测试对象中的数据类型是否正确非常有用。对于n的负值，head()函数返回除最后n行之外的所有行，等效于df[:-n]。
句法:DataFrame.head(n=5) (n=5 is default we can set any value)
参量:python中的head()方法仅包含一个参数，即n。它是一个可选参数。通过设置它，我们固定了想要从DataFrame获得的行数。
返回值:head()函数从DataFrame返回n行。'''

traindata_0.head()

处理缺失数据

traindata = traindata_0.copy()

traindata.Sex = traindata.Sex.replace({'female':0, 'male':1})
traindata.Embarked = traindata_0.Embarked.replace({'C':0, 'Q':1, 'S':2})

traindata.Age.fillna(traindata.Age.mean(), inplace = True)
traindata.Embarked.fillna(method = 'ffill', inplace = True)

traindata.drop(columns = ['Survived', 'Name', 'Ticket', 'Cabin'], inplace = True)
traindata.info()
print(traindata.head())

traindata.to_csv(r'C:\Users\Administrator\Desktop\data_pca.csv')

然后是pca部分：

读入数据，得有一个矩阵x，维度为(m,n)，m个采样数据，每个数据有n个feature

data = pd.read_csv(r'C:\Users\Administrator\Desktop\data_pca.csv')
data.describe()

对x去均值、标准化

def norm_(x):
    xmean = np.mean(x, 0)
    std = np.std(x,0)
    return (x - xmean)/std
data_ = norm_(data)
data_.describe()

求 X T X X^TX X T X 或 C o v ( X T ) Cov(X^T)C o v (X T ) 的特征值 ( e w ) (ew)(e w ) 和特征向量 ( e v ) (ev)(e v ) ，其中维度： e w ( 1 , n ) ， e v ( n , n ) ew(1,n)，ev(n,n)e w (1 ,n )，e v (n ,n )

借助numpy工具提取特征值


ew, ev = np.linalg.eig(data_.T.dot(data_))
print(ew)
print(ev)
print('\n')

ew, ev = np.linalg.eig(np.cov(data_.T))
print(ew)
print(ev)
print('\n')

按照 e w ew e w 从大到小的顺序，取 e v ev e v 的对应的列。 e v ev e v 取前k列得到矩阵 V V V ，维度 ( n , k ) (n,k)(n ,k )

将特征值进行排序


'''在输出数据中可以看出有七个特征值（分别对应七个特征，但是没有按照顺序排布）'''
ew_order = np.argsort(ew)[::-1]

print(ew_order)
ew_sort = ew[ew_order]
ev_sort = ev[:,ew_order]
print(ew_sort)
print(ev_sort)

画图来直观认识一下特征向量:

pd.DataFrame(ew_sort).plot(kind='bar')

得到图片如下：

&#x6211;&#x4EEC;&#x5E0C;&#x671B;&#x4F7F;&#x5F97;&#x524D;k&#x4E2A;&#x7684;&#x6838;&#x8FDC;&#x5927;&#x4E8E;&#x540E;&#x51E0;&#x4E2A;&#xFF0C;&#x80FD;&#x8FBE;&#x5230;&#x603B;&#x6838;&#x7684;95%&#x5C31;&#x662F;&#x6700;&#x7406;&#x60F3;&#x7684;&#xFF0C;&#x8FD9;&#x6837;&#x7684;&#x8BDD;&#x4E3B;&#x6210;&#x5206;&#x63D0;&#x53D6;&#x5C31;&#x4F1A;&#x6548;&#x679C;&#x6BD4;&#x8F83;&#x597D;&#x3002;
&#x56E0;&#x4E3A;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x5C06;&#x539F;&#x59CB;&#x7684;7&#x4E2A;feature&#x964D;&#x5230;&#x51E0;&#x4E2A;feature&#x53BB;&#x4EE3;&#x8868;&#x89C2;&#x5BDF;&#xFF0C;&#x8FD9;&#x91CC;&#x7684;&#x8BDD;&#x524D;&#x4E24;&#x4E2A;&#x53EF;&#x4EE5;&#x8FD1;&#x4F3C;&#x4EE3;&#x8868;&#x89C2;&#x5BDF;&#x3002;

于是我们提取关键特征

V = ev_sort[:,:2]

有 X n e w = X ∗ V X_{new}=X * V X n e w =X ∗V ，维度： X n e w ( m , k ) X_{new}(m,k)X n e w (m ,k )

X_new = data_.dot(V)
print(x_new.shape)

前k个 e v ev e v 即主成分（主方向）。因为前k个很重要，就实现了从n维到k维的降维

此时可以画图查看一下（不知道为什么我画的图和教程不是特别一致）


print(type(X_new))
%matplotlib notebook

sc = plt.scatter(X_new.iloc[:,0], X_new.iloc[:,1],s=5, c = traindata_0.Survived,cmap = plt.cm.coolwarm)
plt.xlabel('PC 0')
plt.ylabel('PC 1')
plt.colorbar(sc)

Original: https://blog.csdn.net/m0_52414727/article/details/123465803
Author: m0_52414727
Title: PCA及其实战学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675623/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python：global的使用

简介： 1、global是Python中的全局变量关键字。2、全局变量是编程术语中的一种，源自于变量之分。3、变量分为局部与全局，局部变量又可称之为内部变量。4、由某对象或某个函数…

人工智能 2023年7月4日
0088
cepstra

问题：关于cepstra的问题介绍在语音处理中，Cepstra（倒谱系数）是用于表示声音信号的频谱信息的一种特征。Cepstra被广泛用于许多应用领域，如声音识别、语音合成和说…

人工智能 2024年1月3日
0047
【实战 01】心脏病二分类数据集

目录 1. 获取数据集 2. 数据集介绍 3. 数据预处理 4. 构建随机森林分类模型 5. 预测测试集数据 6. 构建混淆矩阵 7. 计算查全率、召回率、调和平均值 8. ROC…

人工智能 2023年6月23日
00181
论文导读：CoAtNet是如何完美结合 CNN 和 Transformer的

这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes。（2021…

人工智能 2023年5月28日
00150
《模型轻量化-剪枝蒸馏量化系列》YOLOv5无损剪枝（附源码）

今天文章代码不涉密，数据不涉密，使用的是网上开源代码，做了修改，主要介绍如何实现的，另外，数据使用开放数据VisDrone的小部分数据来测试~ 今天的文章很短，主要附带一个视频讲解…

人工智能 2023年6月12日
0078
Anaconda虚拟环境安装GPU版本的pytorch

1. 首先安装好Anaconda 2. 安装完之后Anaconda默认是没有桌面快捷方式的，需要点击【开始】，找到Anaconda，点击Anaconda Prompt 3. Ana…

人工智能 2023年7月27日
0071
Docker:基于Docker对中间件进行配置、安装和使用操作合集

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、rabbitmq * 启动rabbitmq 设置rabbitmq用户 – + 进入…

人工智能 2023年7月29日
0074
【Apollo点云分割模型之】训练BCNN网络操作

简述 Apollo激光感知模块主要分为几个部分，一部分是直接对 3D点云进行检测输出目标框。例如： PointPillars算法或 MaskPillars算法等。另一部分主要是通过…

人工智能 2023年5月31日
0080
基于Java+Vue+uniapp微信小程序实现餐厅校园订餐平台

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

人工智能 2023年7月1日
0082
python 继承（史上最详细版本）

目录继承继承简介继承是一种创建新类的方式，新建的类可称为子类或派生类，父类可称为基类或超类 python支持多继承，新建的类可以支持一个或多个父类 ”’单继承和多继承简单定…

人工智能 2023年7月4日
00107
pycharm读取excel中的数据，文章中含有源码

我们首先通过打开pycharm,首先准备个excel，然后将数据读取到文件中** 提取excel中特定的行或者列 ** import xlrd A=[] xx=xlrd.open_…

人工智能 2023年7月7日
0083
-React学习-基础介绍，项目目录说明，jsx基础，列表渲染，条件渲染，样式处理，

npm install yarnyarn start 目标任务: 了解什么是React以及它的特点一个专注于构建用户界面的 JavaScript 库，和vue和angular并称…

人工智能 2023年7月30日
0059
AI创作教程之 Stable Diffusion 为何是人工智能新时代艺术创作的基石

我们的人脑在当今人类产生的技术进步中发挥着最大的作用。在这种智能的基础上，人类创造了各种各样的产品，但不必说每一个都改变了人类生活的本质。随着模型权重的公开发布以保持稳定性，世界将…

人工智能 2023年7月30日
0054
vs2015编译纯ASM文件

x86: 创建一个 C++ 的空项目。 2.解决方案管理器 – 目标项目名 – 右键 – 生成依赖项 – 生成自定义 (VS2015…

人工智能 2023年6月6日
0088
知识图谱小综述

概述知识图谱，是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过将数据粒度从document级别降到data级别，聚合大量知识，从而实现知识的快速响应和推理。 …

人工智能 2023年6月1日
0083
海康VisionMaster配合机械手九点标定

文章目录一、图像源二、标定板标定三、N点标定四、标定转换总结一、图像源添加图像源，在图像源里添加标定板图片 ; 二、标定板标定拖入标定板标定右键点击标定板标定，在运…

人工智能 2023年7月28日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31