python实现PCA降维及可视化

2023年6月19日上午9:33 • 人工智能 • 阅读 85

实现功能：

python对数据清洗以及数据编码（具体实现方式可查看前两篇文章）后的变量进行PCA降维，并进行可视化展示。

实现代码：

# 导入需要的库
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn import preprocessing
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

def Read_data(file):
    dt = pd.read_csv(file)
    dt.columns = ['age', 'sex', 'chest_pain_type', 'resting_blood_pressure', 'cholesterol',
                  'fasting_blood_sugar', 'rest_ecg', 'max_heart_rate_achieved','exercise_induced_angina',
                  'st_depression', 'st_slope', 'num_major_vessels', 'thalassemia', 'target']
    data =dt
    pd.set_option('display.max_rows', None)
    pd.set_option('display.max_columns', None)
    pd.set_option('display.width', None)
    pd.set_option('display.unicode.ambiguous_as_wide', True)
    pd.set_option('display.unicode.east_asian_width', True)
    print(data.head())
    return data

def data_clean(data):
    # 数据清洗
    # 重复值处理
    print('存在' if any(data.duplicated()) else '不存在', '重复观测值')
    data.drop_duplicates()

    # 缺失值处理
    # print(data.isnull())
    # print(data.isnull().sum())   #检测每列中缺失值的数量
    # print(data.isnull().T.sum())    #检测每行缺失值的数量
    print('不存在' if any(data.isnull()) else '存在', '缺失值')
    data.dropna()  # 直接删除记录
    data.fillna(method='ffill')  # 前向填充
    data.fillna(method='bfill')  # 后向填充
    data.fillna(value=2)  # 值填充
    data.fillna(value={'resting_blood_pressure': data['resting_blood_pressure'].mean()})  # 统计值填充

    # 异常值处理
    data1 = data['resting_blood_pressure']
    # 标准差监测
    xmean = data1.mean()
    xstd = data1.std()
    print('存在' if any(data1 > xmean + 2 * xstd) else '不存在', '上限异常值')
    print('存在' if any(data1 < xmean - 2 * xstd) else '不存在', '下限异常值')
    # 箱线图监测
    q1 = data1.quantile(0.25)
    q3 = data1.quantile(0.75)
    up = q3 + 1.5 * (q3 - q1)
    dw = q1 - 1.5 * (q3 - q1)
    print('存在' if any(data1 > up) else '不存在', '上限异常值')
    print('存在' if any(data1 < dw) else '不存在', '下限异常值')
    data1[data1 > up] = data1[data1 < up].max()
    data1[data1 < dw] = data1[data1 > dw].min()
    # print(data1)
    return data

def data_encoding(data):
    #========================数据编码===========================
    data = data[["age", 'sex', "chest_pain_type", "resting_blood_pressure", "cholesterol",
                 "fasting_blood_sugar", "rest_ecg","max_heart_rate_achieved", "exercise_induced_angina",
                 "st_depression", "st_slope", "num_major_vessels","thalassemia","target"]]
    Discretefeature=['sex',"chest_pain_type", "fasting_blood_sugar", "rest_ecg",
          "exercise_induced_angina",  "st_slope", "thalassemia"]
    Continuousfeature=["age", "resting_blood_pressure", "cholesterol",
                       "max_heart_rate_achieved","st_depression","num_major_vessels"]

    df = pd.get_dummies(data,columns=Discretefeature)
    print(df.head())

    df[Continuousfeature]=(df[Continuousfeature]-df[Continuousfeature].mean())/(df[Continuousfeature].std())
    print(df.head())
    df["target"]=data[["target"]]
    print(df)
    return df

def PCA_analysis(data):
    # X提取变量特征；Y提取目标变量
    X = data.drop('target', axis=1)
    y = data['target']
    pca = PCA(n_components=2)

    reduced_x = pca.fit_transform(X)  # 得到了pca降到2维的数据
    print(reduced_x.shape)
    print(reduced_x)

    yes_x, yes_y = [], []
    no_x, no_y = [], []

    for i in range(len(reduced_x)):
        if y[i] == 1:
            yes_x.append(reduced_x[i][0])
            yes_y.append(reduced_x[i][1])
        elif y[i] == 0:
            no_x.append(reduced_x[i][0])
            no_y.append(reduced_x[i][1])

    font = {'family': 'Times New Roman',
            'size': 16,
            }
    sns.set(font_scale=1.2)

    plt.rc('font',family='Times New Roman')
    plt.scatter(yes_x, yes_y, c='r', marker='o',label='Yes')
    plt.scatter(no_x, no_y, c='b', marker='x',label='No')
    plt.title("PCA analysis")  # 显示标题
    plt.legend()
    plt.show()
    print(pca.explained_variance_ratio_)  # 输出贡献率

if __name__=="__main__":
    data1=Read_data("F:\数据杂坛\\0504\heartdisease\Heart-Disease-Data-Set-main\\UCI Heart Disease Dataset.csv")
    data1=data_clean(data1)
    data2=data_encoding(data1)
    PCA_analysis(data2)

实现效果：

喜欢记得点赞，在看，收藏，

关注V订阅号：数据杂坛，获取完整代码和效果，将持续更新！

Original: https://blog.csdn.net/sinat_41858359/article/details/124941707
Author: 不再依然07
Title: python实现PCA降维及可视化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638618/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyTorch-1.10(三)–torch张量随机生成、采样

设置生成随机数的种子为非确定性随机数。torch.seed() 设置生成随机数的种子,返回Generator。torch.manual_seed(2022) 返回生成随机数的初始种…

人工智能 2023年7月22日
0066
【Transformer学习笔记】VIT解析

很久以前科学家做过一个生物实验，发现视觉神经元同样可以被训练来作听觉神经元之用。受此启发，不少计算机研究者也在寻找着机器学习领域的大一统–将CV任务和NLP任务使用相同或者类似的结…

人工智能 2023年5月28日
0087
Python中的排序函数

列表排序 sort函数： list.sort(cmp=None,key=None,reverse=False) 对原列表进行排序，完成排序后，原列表变为有序列表。 sorted函数…

人工智能 2023年7月8日
0053
【OpenCV学习】（七）图像滤波

【OpenCV学习】（七）图像滤波背景图像滤波的作用简单来说就是将一副图像通过滤波器得到另一幅图像；明确一个概念，滤波器又被称为卷积核，滤波的过程又被称为卷积；实际上深度学习就…

人工智能 2023年6月22日
0057
linux环境下查询主板、CPU、内存等硬件信息

如果是在windows系统下，查询电脑硬件会容易的多，可以通过电脑属性、计算机管理等多种图形化界面中查到，如果安装了各种电脑管家，那查询这类信息就更方便了，但如果在linux系统下…

人工智能 2023年6月26日
0096
❀数据集❀基于计算机视觉的情绪识别数据集

Expression in-the-Wild (ExpW)数据集用于面部表情识别，包含 91,793 张用表情手动标记的面部。每个人脸图像都被注释为七个基本表情类别之一：&#822…

人工智能 2023年6月17日
00123
应用线性回归预测医疗费用

公司为了赚钱，保险需要募集比花费在受益者的医疗服务上更多的年度保费，因此，保险公司投入了大量的时间和金钱来研发能精确预测医疗费用的模型。医疗费用很难估计，因为花费最高的情况是罕见…

人工智能 2023年6月19日
0076
机器学习03：使用logistic回归方法解决猫狗分类问题

机器学习03：使用logistic回归方法解决猫狗分类问题文章目录机器学习03：使用logistic回归方法解决猫狗分类问题 * – 前言 1. Logistic回…

人工智能 2023年7月2日
0074
《数字图像处理》题库4：简答题

前言这是我在学习数字图像处理这门课程时，从网络上以及相关书籍中搜集到的一些题目，这些题目主要是针对期末考试的。做题之前你需要注意以下几点：这篇文章整理了第4种题型，即简答题…

人工智能 2023年6月18日
0083
OpenCV图像几何变换专题(缩放、翻转、仿射变换及透视)【python-Open_CV系列（五）】

OpenCV图像几何变换专题(缩放、翻转、仿射变换及透视)(python为工具) 【Open_CV系列（五）】文章目录准备图片 1. 缩放 cv2.resize()方法 2. …

人工智能 2023年7月26日
0056
Python删除文件中的中文及中文符号

import os, sys import re soupath = "../src" os.chdir(os.path.abspath(os.path.dir…

人工智能 2023年6月29日
00114
图像处理技术（三）白平衡

在现实生活中，同学们经常会出旅游、去景点打卡，拍照，发个朋友圈，如果遇到阴雨天、雾霾天或者沙尘天气，那拍照的效果，可是让人头疼。好不容易去北京故宫玩一次，这不，遇到这种天气，哎，啥…

人工智能 2023年6月4日
0088
基于yoloV5-v6分类多检测头模型修改（多国车牌检测）

加我微信拉你进群交流：wu331376411 一修改背景基于yoloV5系列越来越强大，适用面越来越广泛，主要是由于训练简单，模型适配性好，推理速度快等优点，yoloV5系列适…

人工智能 2023年7月26日
00151
Tensor对象和NumPy数组之间有什么区别

Tensor对象和NumPy数组之间的区别 Tensor对象和NumPy数组是在不同框架下的数据结构，它们有一些区别。在本问题中，我们将详细介绍Tensor对象和NumPy数组之间…

人工智能 2024年1月1日
0039
多标签分类任务-服装分类

Multi-Label Classification 首先分清一下multiclass和multilabel：多类分类(Multiclass classification): 表…

人工智能 2023年7月3日
0094
pandas+datafram

Pandas的dataframe基本操作方法总结一.DataFram的基本结构： import pandas as pd import numpy as np df = pd.D…

人工智能 2023年7月8日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python实现PCA降维及可视化

大家都在看