第一章 UCI数据集wine.data主成分分析PCA

2023年6月19日下午3:14 • 人工智能 • 阅读 134

文章目录

前言
一、什么是PCA？
二、PCA算法流程
二、使用步骤
*
1.引入库
2.读入数据
3.数据标准化（规范化）
4.主成分分析PCA
5.PCA可视化
总结（拓展）

前言

学习数据挖掘，用于记录练习和回顾

一、什么是PCA？

经典主成分分析（Classical Principal Component Analysis）的核心思想： PCA的思想是将n维特征映射到k维上（k

二、PCA算法流程

1.按列计算数据集X的均值Xmean，然后令Xnew=X−Xmean
2. 求解矩阵Xnew的 协方差矩阵，并将其记为Cov
3.计算协方差矩阵Cov的 特征值和相应的 特征向量
4.将特征值按照从大到小的排序，选择其中 最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵Wnxk
5. 计算XnewW，即将数据集Xnew 投影到选取的特征向量上，这样就得到了我们需要的已经降维的数据集XnewW

二、使用步骤

1.引入库

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import numpy as np
import matplotlib.pyplot as plt

2.读入数据

代码如下（示例）：


df_wine = pd.read_csv('./UCI/wine/wine.data', header=None)
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3, random_state=0)

3.数据标准化（规范化）

如果数据特征在不同的范围上，要先对数据集标准化。下面3行代码把数据集标准化为均值0方差1,避免异常值对结果造成影响


sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.fit_transform(X_test)

4.主成分分析PCA


cov_mat = np.cov(X_train_std.T)

eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)

"""求出的特征值的意义就是特征向量的大小，因此只要找出最大特征值所对应的特征向量就可以知道哪个方向保留的方差最大。"""

"""
下面的代码都是绘图的，涉及的参数建议去查看官方文档
计算统计主成分分析
"""

tot = sum(eigen_vals)
"""即每个主成分捕捉多少方差,描述样本的贡献值"""
var_exp = [(i / tot) for i in sorted(eigen_vals, reverse=True)]

plt.bar(range(len(eigen_vals)), var_exp, width=1.0, bottom=0.0, alpha=1, label='individual explained variance')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.legend(loc='best')
plt.show()

5.PCA可视化

选取前两个主成分和前三个主成分分别做二维和三维分布图


eigen_pairs =[(np.abs(eigen_vals[i]),eigen_vecs[:,i]) for i in range(len(eigen_vals))]
eigen_pairs.sort(reverse=True)

"""选出前2对来构建映射矩阵，但是在实际应用中，应该权衡计算效率和分类器之间的性能来选择恰当的主成分数量"""
first = eigen_pairs[0][1]
second = eigen_pairs[1][1]
third = eigen_pairs[2][1]
first = first[:,np.newaxis]
second = second[:,np.newaxis]
third = third[:,np.newaxis]

w = np.hstack((first,second,third))

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
X_train_pca = X_train_std.dot(w)
colors = ['r', 'b', 'g']
markers = ['s', 'x', 'o']
for l, c, m in zip(np.unique(y_train), colors, markers):
    plt.scatter(X_train_pca[y_train==l, 0], X_train_pca[y_train==l, 1], c=c, label=l, marker=m)
plt.xlabel('PCA 1')
plt.ylabel('PCA 2')
plt.legend(loc='upper right')

"""3d展示主成分"""
fig =plt.figure()
ax = fig.add_subplot(111,projection='3d')
for l, c, m in zip(np.unique(y_train), colors, markers):
    ax.scatter(X_train_pca[y_train==l, 0], X_train_pca[y_train==l, 1],X_train_pca[y_train==l, 2], c=c, label=l, marker=m)
plt.show()

总结（拓展）

参考文章：Blessy_Zhu https://blog.csdn.net/weixin_42555080

Original: https://blog.csdn.net/Bigbosszcf/article/details/123465950
Author: Big波斯
Title: 第一章 UCI数据集wine.data主成分分析PCA

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639575/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[YOLO专题-27]：YOLO V5 小目标检测遇到的问题与常见解决办法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0076
深度强化学习-DDPG算法原理与代码

深度强化学习-DDPG算法原理与代码引言 1 DDPG算法简介 2 DDPG算法原理 2.1 经验回放 2.2 目标网络 2.2.1 算法更新过程 2.2.2 目标网络的更新 2…

人工智能 2023年7月3日
0098
数据仓库建模

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0034
ICCV2019_Slimmable:(US-Nets)Universally Slimmable Networks and Improved Training Techniques

Institute：University of Illinois at Urbana-Champaign Author：Jiahui Yu, Thomas Huang GitHub…

人工智能 2023年6月4日
0068
【CVPR2022】VizWiz-VQA Grounding Challenge冠军算法介绍–Aurora

一、简介之前从没接触过多模态方向，这次和在字节的师兄一起参加了一个VQA相关的比赛，发现基于图像-文本的预训练是一个很火热的领域，比如BLIP，LAVT等。在此基础上，针对VQA…

人工智能 2023年5月27日
0062
欢度中秋节！从零开始实现一个月饼检测器

; 《欢度中秋节！从零开始实现一个月饼🥮检测器》文章目录《欢度中秋节！从零开始实现一个月饼🥮检测器》 * 第一步：准备一些月饼图片第二步：标注数据第三步：划分数据集第四步…

人工智能 2023年7月9日
0071
【python】录音&语音识别

MASR是一款基于Pytorch实现的自动语音识别框架，MASR全称是神奇的自动语音识别框架（Magical Automatic Speech Recognition），MASR致…

人工智能 2023年5月27日
00110
（12）目标检测_SSD主干网络基于pytorch搭建代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0081
K近邻(KNN)

算法原理 KNN是监督学习的一种，K近邻法假设给定一个训练数据集，其中的实例类别已定。分类时对新的实例，根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测。K值的选择、距…

人工智能 2023年7月2日
0061
如何让 ChatGPT 写短篇小说？

故事一请根据下面内容续写故事，要求800字。在一个晴朗的秋日下午，男主人 Jack 抱着他的妻子 Rose，两人坐在沙发上看着电视。这是，Jack对Rose说：”亲…

人工智能 2023年7月31日
0047
【深度学习】使用d2l包和相关环境配置的一些血泪心得

目录一引言 * 写给: 以下: 二关于anaconda的配置 * 1 anaconda的安装过程 2 d2l包和pytorch包的下载 – 1 创建新环境 2 添…

人工智能 2023年7月30日
0069
基于yolov5的mjpg-streamer服务器搭建

前言：使用onnxruntime 加载YOLOV5的onnx模型，基于python版本的http.server搭建mjpg-streamer服务器，使用opencv打开电脑摄像头或…

人工智能 2023年7月10日
0095
KG2E 论文笔记

Learning to Represent Knowledge Graphs with Gaussian Embedding – 预备知识 – Abstra…

人工智能 2023年6月10日
0086
opencv图像处理—背景建模

课程来自哔站唐宇迪【计算机视觉-OpenCV】唐宇迪博士教会了我大学四年没学会的OpenCV OpenCV计算机视觉实战全套课程（附带课程课件资料+课件笔记+源码）_哔哩哔哩_bi…

人工智能 2023年6月20日
0081
【图像分类案例】(9) MobileNetV3 癌症图像二分类，附Pytorch完整代码

大家好，今天和各位分享一下如何使用 Pytorch构建 MobileNetV3卷积神经网络，并基于权重迁移学习方法解决图像二分类问题，并且评价数据集的召回率、精准率、F1等。 …

人工智能 2023年7月1日
0089
TensorFlow安装教程

目录前言一）查看GPU是否支持CUDN 二）下载CUDA 三）下载cuDNN 四）设置环境变量五）下载并安装Anaconda 六）设置TensorFlow工作环境七）确认T…

人工智能 2023年5月23日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30