从「降维打击」谈「降维」

2023年7月17日上午11:18 • 人工智能 • 阅读 58

生活中常常听到一个词：降维打击。

如何理解？

“王健林的小目标和我的小目标”就是最好的诠释。

对于数据来说，虽然不存在「打击」之说，但先对其降一波维，利用可视化的方式从整体上对数据有个事先的了解，再做后续分析，还是挺有用的，下面举两个例子。

示例1

现有如下数据，每一行代表一个国家，每一列代表一个特征（比如GDP、居民生活指数等），那么该如何在建模前分析这些数据呢？

我们知道，对数据先进行可视化操作，能够在一开始就把握数据的整体情况。然而，在这个问题中不可能把每一个特征当做一个维度进行可视化，因为只要超过3维就难以进行绘图，这个时候，降维就有用了： 通过特征转换，构造出两个特征z1、z2来概括这些特征，从而可以在二维坐标系里绘图（需要注意的是，我们需要弄清楚这两个特征大致是什么意思）：

图一

图二

假如图二中横坐标代表GDP，纵坐标代表人均GDP或个人经济活跃程度，那么可以看出，越靠右上的国家，GDP和个人经济活跃程度就越高，代表这个国家是比较发达的，同时个人的生活满意度也会比较高；越靠左下的国家，GDP和个人经济活跃程度就越低，可能是一些比较小的国家，同时居民的生活水平不会很高。

示例2

有时候拿到一些数据，但没有标签，从而不知道每个样本的属性是什么样的，那么，就需要利用诸如”聚类”的方法来初步探索数据，大概了解样本之间有没有什么共性。

在计算机视觉领域，有一个入坑选手一定玩过的数据集——mnist手写数字数据集，随便选取一个样本，看看长什么样：

def image_show(image):
    fig = plt.gcf()
    fig.set_size_inches(5,5)
    plt.imshow(image,cmap = 'binary')
    plt.show()

image_show(X_train[5]) # 这里的5不是数字5，而是第6个样本

输出：

上面是通过 .imshow( )函数可视化每个数字，如果直接输出这个样本，那么会得到一个长为784的向量：（更不可能通过这个来分析样本了）

下面看看如何通过降维，把784的维度降到2维，然后可视化这些样本：

导入要用到的库：
from keras.datasets import mnist
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.cluster import KMeans
from scipy.linalg import eigh
import seaborn as sns

#降维：
(X_train,Y_train),(X_test,Y_test) = mnist.load_data() # 加载数据
X = X_train[:10000] # 选取前10000个数据
X_train = X.reshape(10000,-1)
df = pd.DataFrame(X_train) # 生成数据框，更好看

s = StandardScaler() # 标准化
df1 = s.fit_transform(df)

cov = np.matmul(df1.T, df1) # 计算协差阵，cov.shape=(784, 784)
values, vectors = eigh(cov, eigvals = (782, 783)) # 计算特征值和特征向量
vectors = vectors.T # vectors.shape=(2, 784)
df2 = np.matmul(vectors, df1.T) # 和协差阵相乘，降维，df2.shape=(2, 10000)

final_dfT = np.vstack((df2, label)).T # 把标签加进去
dataFrame = pd.DataFrame(final_dfT, columns = ['pca_1', 'pca_2','label'])

绘图
g = sns.FacetGrid(dataFrame, hue = 'label',size=10)
g.map(sns.scatterplot, 'pca_1', 'pca_2')
g.add_legend()
plt.show()

最终：

由于上面是利用带标签的数据进行降维+可视化的，所以还少了点意思（真实情况可能没有标签，所以针对数据的先验知识是很有限的）。

下面就来看如何对没有标签的数据进行聚类+降维+可视化（尽管mnist中每个数字都带有标签，但我们假设所有数字是不带标签的）：

数据依然用前面的：
X_train_1 = X.reshape(10000,784)
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train_1) # 最大最小归一化

直接调用PCA函数进行降维，之前是手动降维
pca_1=PCA(n_components=2, copy = False)
X_reduce = pca_1.fit_transform(X_train_minmax) # X_reduce.shape=(10000, 2)

利用 k-means 聚类
reduced_data = X_reduce
kmeans = KMeans(n_clusters=10, n_init=4)
kmeans.fit(reduced_data)

绘图
h = 0.02
x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.figure(figsize=(8,8))
plt.clf()
plt.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)
plt.plot(reduced_data[:, 0], reduced_data[:, 1], "k.", markersize=2)
centroids = kmeans.cluster_centers_
plt.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="x",
    s=169,
    linewidths=3,
    color="w",
    zorder=10,
)
plt.title("K-means")
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

最终：

可以看出，在没有标签的情况下，利用聚类算法可以把类间相似的样本聚到一块儿，然后降成可在平面上绘图的二维数据。

小结：在解决一个新问题时，拿到手的数据往往是比较杂乱的，如果能降到二维/三维，然后对这些数据进行可视化，那么会更有利于后续特征的选取、模型的选取等工作。

如有新的想法，期待交流探讨

Original: https://blog.csdn.net/Wind_2028/article/details/123392069
Author: Dreamcatcher风
Title: 从「降维打击」谈「降维」

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698530/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python+opencv实现人脸微整形

目录一、前言二、主要原理三、算法实现 * （1）计算偏移量（2）考虑多个点影响（3）控制点的手动增加，删除功能四、总结一、前言表情捕捉驱动另一张脸或者3D人脸是元宇…

人工智能 2023年7月6日
0091
Yolov7-pose 训练body+foot关键点

一、Yolov7介绍： yolov7网络由三个部分组成：input，backbone和head，与yolov5不同的是，将neck层与head层合称为head层，实际上的功能的一样…

人工智能 2023年6月16日
0075
OpenCV中图像特征提取与描述

目录图像特征提取与描述 * 图像的特征 Harris和Shi-Tomas算法 – Harris角点检测 Shi-Tomasi角点检测小结 SIFT/SURF算法 &…

人工智能 2023年6月25日
0055
前方高能 | 如何优化企业“数据消费“策略

随着大数据时代的到来，企业的数据消费模式发生转变并不断升级。企业正在清晰地认识大数据的价值并加以利用，通过数据分析找出并满足消费者的需求，在这场数字变革中实现转型。因此，本文主要讨…

人工智能 2023年7月17日
0066
栈（扩容）的初始化、判满、扩容、入栈、获取栈顶元素且删除、获取栈顶元素不删除等等

#include typedef char ElemType; typedef struct Stack {ElemType base;ElemType* top;//栈顶指针,指…

人工智能 2023年6月30日
0074
TensorFlow 对数据集标记的xml文件解析记录

环境 Windows：10 Python 3.7.10 TensorFlow：2.3 matplotlib：3.3.4 lxml：4.7.1 最近要用TensorFlow做20种水…

人工智能 2023年5月25日
0064
手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换

系列文章目录手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spa…

人工智能 2023年6月16日
0074
ImportError: cannot import name ‘container_abcs‘ from ‘torch._six‘

我的报错如下：下面两个错误也可以参考这个解决办法 ImportError: cannot import name ‘container_abcs’ fro…

人工智能 2023年7月20日
0083
机器学习里的信息论

一.信息量信息论背后的原理是：从不太可能的事件中，能学到更多的信息，发生概率越小的事件信息量越大，独立事件包含额外的信息信息量又译为信息本体，由克劳德·香农提出，用来衡量单一事…

人工智能 2023年6月4日
0097
Inception V3

目录 0 回顾 1 介绍 2 设计原则 3 大filter size卷积的分解 * 3.1 分解为小卷积 3.2 分解为非对称卷积 4 辅助分类器的效用 5 feature map…

人工智能 2023年6月17日
0052
本白在树莓派上安装opencv及实现摄像头功能的经历

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月19日
0063
基于深度学习的手势识别系统（Python代码，UI界面版）

摘要：本文详细介绍基于深度学习的手势识别系统，在介绍手势识别算法原理的同时，给出了 P y t h o n_的实现代码以及 _P y Q _t_的UI界面。手势识别采用了基于Med…

人工智能 2023年6月4日
0072
手把手教你用ELMo模型提取文本特征（附代码实现细节）

说明：本文是A Step-by-Step NLP Guide to Learn ELMo for Extracting Features from Text（Prateek Jos…

人工智能 2023年5月23日
0099
动手学数据分析之 2数据清洗及特征处理

首先大致了解数据清洗。通常情况下我们拿到的数据是会存在缺少值或者有一些异常点等，需要经过一定的处理才能继续后边的分析或建模。所以拿到数据的第一步是进行数据清洗，将数据清洗成可以分析…

人工智能 2023年7月18日
0047
深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割

深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割 1. 项目简介 2. 3D医学图像分割的需求 3. 医学图像和MRI 4. 三维医学图像表示 5. 3D-Une…

人工智能 2023年6月16日
0086
野生yolov3在atlas200dk的部署

1.训练官方yolov3代码https://pjreddie.com/darknet/yolo/，进行训练2.因官方yolov3代码由C和cuda写的，train不起来就参照此篇博…

人工智能 2023年5月25日
00118

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

从「降维打击」谈「降维」

大家都在看