tSNE-python代码实现及使用讲解

2023年7月5日上午12:44 • 人工智能 • 阅读 84

在读基于深度学习的机械故障诊断论文时，不免会看到如下所示的t-SNE 可视化图，看着比较高级。那这个图又是如何绘制出来的呢？本文将通过mnist手写数据集来实现t-SNE

; 代码实现


"""t-SNE对手写数字进行可视化"""
from time import time
import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.manifold import TSNE

def get_data():
    digits = datasets.load_digits(n_class=6)
    data = digits.data
    label = digits.target
    n_samples, n_features = data.shape
    return data, label, n_samples, n_features

def plot_embedding(data, label, title):
    x_min, x_max = np.min(data, 0), np.max(data, 0)
    data = (data - x_min) / (x_max - x_min)

    fig = plt.figure()
    ax = plt.subplot(111)
    for i in range(data.shape[0]):
        plt.text(data[i, 0], data[i, 1], str(label[i]),
                 color=plt.cm.Set1(label[i] / 10.),
                 fontdict={'weight': 'bold', 'size': 9})
    plt.xticks([])
    plt.yticks([])
    plt.title(title)
    return fig

def main():
    data, label, n_samples, n_features = get_data()
    print('data.shape',data.shape)
    print('label',label)
    print('label中数字有',len(set(label)),'个不同的数字')
    print('data有',n_samples,'个样本')
    print('每个样本',n_features,'维数据')
    print('Computing t-SNE embedding')
    tsne = TSNE(n_components=2, init='pca', random_state=0)
    t0 = time()
    result = tsne.fit_transform(data)
    print('result.shape',result.shape)
    fig = plot_embedding(result, label,
                         't-SNE embedding of the digits (time %.2fs)'
                         % (time() - t0))
    plt.show(fig)

if __name__ == '__main__':
    main()

>>>输出结果
data.shape (1083, 64)
label [0 1 2 ... 4 4 0]
label中数字有 6 个不同的数字
data有 1083 个样本
每个样本 64 维数据
Computing t-SNE embedding
result.shape (1083, 2)

结果分析

由结果可知，需输入两个参数，data和label，其中data是一个2维数组（num，dim），label是1维数组，为对应的标签。
TSNE通过PCA降维之后输出的是result是一个2维数组(num, 2)。在这里将64维降到2维。最后绘图出来。

1DCNN加t-sne实践
1、先构建一个1DCNN，本次用的是多尺度卷积神经网络(MSCNN)

模型参数见论文：基于多尺度卷积神经网络的电机故障诊断方法研究_王威


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv1d(in_channels = 1,out_channels= 64,kernel_size = 32, stride = 8, padding = 12)
        self.pool1 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.BN = nn.BatchNorm1d(num_features=64)
        self.conv3_1 = nn.Conv1d(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.pool3_1 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv3_2 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1)
        self.pool3_2 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv3_3 = nn.Conv1d(in_channels=128, out_channels=256, kernel_size=3, stride=1, padding=1)
        self.pool3_3 = nn.MaxPool1d(kernel_size=2, stride=2)

        self.conv5_1 = nn.Conv1d(in_channels=64, out_channels=64, kernel_size=5, stride=1, padding=2)
        self.pool5_1 = nn.MaxPool1d(kernel_size=2 , stride=2)
        self.conv5_2 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=5, stride=1, padding=2)
        self.pool5_2 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv5_3 = nn.Conv1d(in_channels=128, out_channels=256, kernel_size=5, stride=1, padding=2)
        self.pool5_3 = nn.MaxPool1d(kernel_size=2, stride=2)

        self.conv7_1 = nn.Conv1d(in_channels=64, out_channels=64, kernel_size=7, stride=1, padding=3)
        self.pool7_1 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv7_2 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=7, stride=1, padding=3)
        self.pool7_2 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv7_3 = nn.Conv1d(in_channels=128, out_channels=256, kernel_size=7, stride=1, padding=3)
        self.pool7_3 = nn.MaxPool1d(kernel_size=2, stride=2)

        self.pool2 = nn.MaxPool1d(kernel_size=8, stride=1)
        self.fc = nn.Linear(in_features=256*3, out_features=4)
        self.softmax = nn.Softmax()

    def forward(self, x):
        x = self.conv1(x)
        x = self.pool1(x)

        x1 = self.conv3_1(x)
        x1 = self.pool3_1(x1)
        x1 = self.conv3_2(x1)
        x1 = self.pool3_2(x1)
        x1 = self.conv3_3(x1)
        x1 = self.pool3_3(x1)

        x2 = self.conv5_1(x)
        x2 = self.pool5_1(x2)
        x2 = self.conv5_2(x2)
        x2 = self.pool5_2(x2)
        x2 = self.conv5_3(x2)
        x2 = self.pool5_3(x2)

        x3 = self.conv7_1(x)
        x3 = self.pool7_1(x3)
        x3  = self.conv7_2(x3)
        x3 = self.pool7_2(x3)
        x3 = self.conv7_3(x3)
        x3 = self.pool7_3(x3)

        x1 = self.pool2(x1)
        x2 = self.pool2(x2)
        x3 = self.pool2(x3)

        Batch, Channel, Length = x1.size()
        x1 = x1.view(Batch, -1)
        Batch, Channel, Length = x2.size()
        x2 = x2.view(Batch, -1)
        Batch, Channel, Length = x3.size()
        x3 = x3.view(Batch, -1)

        x0 = torch.cat((x1, x2, x3), dim=1)

        x = self.fc(x0)
        return x, x0

2、测试一下模型

x = torch.rand(64, 1, 1024)
model = Net()
(y, y0) = model(x)
print(y.shape)
print(y0.shape)

output>>>
torch.Size([64, 4])
torch.Size([64, 768])

可以看出y的大小是[64, 4]，是4分类的预测结果
y0的大小是[64, 768]，是把3个尺度方向提取到的特征拼接在一起的结果。也可以把它理解为提取到的特征。

现在问题就是如何把它做t-sne图
从前面分析可知，做t-sne需输入两个参数，data和label，其中data是一个2维数组（num，dim），label是1维数组，为对应的标签。现在[64, 768]符合data大小要求，还差个label，这个用随机数生成一下。

label = torch.randint(low=0, high=4, size= (64, ))
print(label.shape)

>>>output
tensor([0, 3, 2, 2, 2, 0, 3, 2, 0, 0, 1, 3, 0, 3, 2, 2, 3, 2, 0, 1, 2, 1, 0, 2,
        0, 0, 1, 0, 2, 2, 1, 2, 1, 1, 3, 1, 0, 0, 0, 3, 3, 1, 3, 0, 0, 0, 3, 3,
        3, 1, 2, 3, 0, 2, 3, 0, 1, 0, 2, 0, 3, 1, 1, 2])

下面对y0和label做t-sne

tsne = TSNE(n_components=2, init='pca', random_state=0)
y0 = y0.detach().numpy()
label = label.detach().numpy()
result = tsne.fit_transform(y0)
fig = plot_embedding(result, label, title='tsne')
plt.show(fig)

输出图片：

因为数据都是随机生成的，所以数据分布也是随机的。然后其他每个类型的点用 * +这样标记还没研究。后续加上。

这样通过return y0，的确可以实现返回想要的层提取到的特征，但这样在实际应用中会遇到很多麻烦。

下面有个稍微简单一些的方法。


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv1d(in_channels = 1,out_channels= 64,kernel_size = 32, stride = 8, padding = 12)
        self.pool1 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.BN = nn.BatchNorm1d(num_features=64)
        self.conv3_1 = nn.Conv1d(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.pool3_1 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv3_2 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1)
        self.pool3_2 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv3_3 = nn.Conv1d(in_channels=128, out_channels=256, kernel_size=3, stride=1, padding=1)
        self.pool3_3 = nn.MaxPool1d(kernel_size=2, stride=2)

        self.conv5_1 = nn.Conv1d(in_channels=64, out_channels=64, kernel_size=5, stride=1, padding=2)
        self.pool5_1 = nn.MaxPool1d(kernel_size=2 , stride=2)
        self.conv5_2 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=5, stride=1, padding=2)
        self.pool5_2 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv5_3 = nn.Conv1d(in_channels=128, out_channels=256, kernel_size=5, stride=1, padding=2)
        self.pool5_3 = nn.MaxPool1d(kernel_size=2, stride=2)

        self.conv7_1 = nn.Conv1d(in_channels=64, out_channels=64, kernel_size=7, stride=1, padding=3)
        self.pool7_1 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv7_2 = nn.Conv1d(in_channels=64, out_channels=128, kernel_size=7, stride=1, padding=3)
        self.pool7_2 = nn.MaxPool1d(kernel_size=2, stride=2)
        self.conv7_3 = nn.Conv1d(in_channels=128, out_channels=256, kernel_size=7, stride=1, padding=3)
        self.pool7_3 = nn.MaxPool1d(kernel_size=2, stride=2)

        self.pool2 = nn.MaxPool1d(kernel_size=8, stride=1)
        self.fc = nn.Linear(in_features=256*3, out_features=4)
        self.softmax = nn.Softmax()

    def forward(self, x):
        x = self.conv1(x)
        x = self.pool1(x)

        x1 = self.conv3_1(x)
        x1 = self.pool3_1(x1)
        x1 = self.conv3_2(x1)
        x1 = self.pool3_2(x1)
        x1 = self.conv3_3(x1)
        x1 = self.pool3_3(x1)

        x2 = self.conv5_1(x)
        x2 = self.pool5_1(x2)
        x2 = self.conv5_2(x2)
        x2 = self.pool5_2(x2)
        x2 = self.conv5_3(x2)
        x2 = self.pool5_3(x2)

        x3 = self.conv7_1(x)
        x3 = self.pool7_1(x3)
        x3  = self.conv7_2(x3)
        x3 = self.pool7_2(x3)
        x3 = self.conv7_3(x3)
        x3 = self.pool7_3(x3)

        x1 = self.pool2(x1)
        x2 = self.pool2(x2)
        x3 = self.pool2(x3)

        Batch, Channel, Length = x1.size()
        x1 = x1.view(Batch, -1)
        Batch, Channel, Length = x2.size()
        x2 = x2.view(Batch, -1)
        Batch, Channel, Length = x3.size()
        x3 = x3.view(Batch, -1)

        x0 = torch.cat((x1, x2, x3), dim=1)

        x = self.fc(x0)

        self.x0 = x0
        return x

    def get_fea(self):
        return self.x0

x = torch.rand(64, 1, 1024)
label = torch.randint(low=0, high=4, size= (64, ))
model = Net()
y = model(x)
y_fea = model.get_fea()
print('y的shape为：',y.shape)
print('y_fea的shape为：',y_fea.shape)

>>>output
y的shape为： torch.Size([64, 4])
y_fea的shape为： torch.Size([64, 768])

可见该方法更方便，如果想要某一层中间特征时，只要改动get_fea()里面函数要返回的参数即可。

tsne = TSNE(n_components=2, init='pca', random_state=0)
y_fea = y_fea.detach().numpy()
label = label.detach().numpy()
result = tsne.fit_transform(y_fea)
fig = plot_embedding(result, label, title='tsne')
plt.show(fig)

输出图片

—-4.30更新——

前面出的图不是很漂亮，现在找了一个出图美观漂亮的程序，并定义了一个函数，大家使用的时候调用就好了，

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.manifold import TSNE

def plot_tsne(features, labels):
    '''
    features:(N*m) N*m大小特征，其中N代表有N个数据，每个数据m维
    label:(N) 有N个标签
    '''
    import pandas as pd
    tsne = TSNE(n_components=2, init='pca', random_state=0)
    import seaborn as sns

    class_num = len(np.unique(labels))
    latent = features
    tsne_features = tsne.fit_transform(features)
    print('tsne_features的shape:',tsne_features.shape)
    plt.scatter(tsne_features[:, 0], tsne_features[:, 1])
    plt.show()

    df = pd.DataFrame()
    df["y"] = labels
    df["comp-1"] = tsne_features[:,0]
    df["comp-2"] = tsne_features[:,1]

    sns.scatterplot(x="comp-1", y="comp-2", hue=df.y.tolist(),
                    palette=sns.color_palette("hls", class_num),
                    data=df).set(title="Bearing data T-SNE projection unsupervised")

if __name__ == '__main__':
    digits = datasets.load_digits(n_class=5)
    features, labels = digits.data, digits.target
    print(features.shape)
    print(labels.shape)
    plot_tsne(features, labels)

>>>输出结果
features的shape： (901, 64)
labels.shape:  (901,)
tsne_features的shape: (901, 2)

print(labels)

>>>
[0 1 2 3 4 0 1 2 3...1 4 0 3 1 4 4 2 2 2 4 4 0]

如果想把lengend换成对应的中文，则需要把[0,1,2,3,4]换成对应的中文标签

欢迎关注我的公众号： 《故障诊断与python学习》

Original: https://blog.csdn.net/m0_47410750/article/details/123119544
Author: 故障诊断与python学习
Title: tSNE-python代码实现及使用讲解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/670785/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大数据分析那点事

写在前文，首先声明博主对数据分析领域也在不断学习当中，文章中难免可能会出现一些错误，欢迎大家及时指正，博主在此之前也曾对不同量级、不同领域的数据进行过分析，但是在过程中总是感觉有…

人工智能 2023年6月19日
00118
2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

目录一、概述二、解题过程 * 2.1 数据 2.2 构建基线 2.3 进阶思路一 2.4 进阶思路二 2.5 进阶思路三 2.6 融合 2.7 调优提分过程 2.8 其他工作 …

人工智能 2023年6月19日
0087
AI：人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法)、分类/回归/聚类/降维算法模型选择思路、11类机器学习算法详细分类之详细攻略

AI：人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法)、分类/回归/聚类/降维算法模型选择思路、11类机器学习算法详…

人工智能 2023年6月18日
0080
编程实战（4）——python识别图像中的坐标点并保存坐标数据

编程实战（4）——python识别图像中的坐标点并保存坐标数据文章目录编程实战（4）——python识别图像中的坐标点并保存坐标数据 * – 综述代码思路 + 库…

人工智能 2023年5月26日
00104
【cartographer_ros】四：发布和订阅里程计odom信息

上一节介绍了激光雷达Scan传感数据的订阅和发布。本节会介绍里程计Odom数据的发布和订阅。里程计在cartographer中主要用于前端位置预估和后端优化。官方文档：http…

人工智能 2023年6月4日
0081
机器学习之聚类——从教授的等式到凸聚类

活动地址：CSDN21天学习挑战赛引子：大佬的等式在美国，有个牛逼的大学，叫华盛顿大学，其中有个牛逼的计算机科学教授，佩德罗·多明戈斯（Pedro Domingos），他…

人工智能 2023年6月3日
0080
Pandas 二十四：怎么处理日期索引的缺失？

Pandas 二十四：怎么处理日期索引的缺失？ * – 问题：如果缺失了索引该怎么填充？ – 方法1：使用pandas.reindex方法 – …

人工智能 2023年7月7日
0045
【数据分析】用户价值分析

RFM模型是衡星客户价值和客户创利能力的重要工具和手段。通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描该客户的价值状况。●R：最近一次消费时间(最近一次消费到…

人工智能 2023年7月7日
0043
fatal error: opencv2/opencv_modules.hpp: No such file or directory(linux系统,opencv4)

目的：在linux安装配置opencv2，出现了很多问题。总结一下。１安装过程：１）下载opencv 和opencv_contrib cd ~/<my_working_di…

人工智能 2023年6月19日
0068
逆透视变换(IPM)多种方式及代码总结

0.背景在自动/辅助驾驶中，车道线的检测非常重要。在前视摄像头拍摄的图像中，由于透视效应的存在，本来平行的事物，在图像中确实相交的。而IPM变换就是消除这种透视效应，所以也叫逆…

人工智能 2023年7月28日
0067
PyQT6的从零开始（一）：在Anaconda下安装PyQT6+在Pycharm中如何配置与使用

一、在Anaconda安装pyqt6 打开Anaconda Navigator如图创建一个新的环境，，我这里是pyqt，当然在控制台也可以创建，或者用已有的但Anaconda里并没…

人工智能 2023年7月6日
0087
通俗解读NLP中几种常见的注意力机制

1 前言注意力机制在NLP领域中有广泛的应用，诸如机器翻译、智能对话、篇章问答等。在模型设计中使用注意力机制，可以显著提升模型的性能。然而，对于初识注意力机制的朋友来说，可能会有…

人工智能 2023年5月27日
00124
python:多元线性回归总结

最近做的项目要用到多元线性回归，小结一下用python做多元线性回归要用到的代码和步骤：数据：因变量y,自变量x 1. 导入库导入包 import os import pand…

人工智能 2023年7月5日
00108
YOLOv5改进之四：添加ECA通道注意力机制

前言作为当前先进的深度学习目标检测算法YOLOv5，已经集合了大量的trick，但是在处理一些复杂背景问题的时候，还是容易出现错漏检的问题。此后的系列文章，将重点对YOLOv5的…

人工智能 2023年6月17日
0086
【花雕动手做】有趣好玩的音乐可视化系列小项目（14）—水杯水瓶灯

偶然心血来潮，想要做一个声音可视化的系列专题。这个专题的难度有点高，涉及面也比较广泛，相关的FFT和FHT等算法也相当复杂，不过还是打算从最简单的开始，实际动手做做试验，耐心尝试一…

人工智能 2023年5月27日
00112
基于Python构建机器学习Web应用

目录一、内容介绍 1.Onnx模型 ①skl2onnx库安装 2.Netron安装二、模型构建 1.数据加载 2.划分可训练特征与预测标签 3.训练模型 ①第三方库导入 ②数据…

人工智能 2023年6月15日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tSNE-python代码实现及使用讲解

—-4.30更新——

大家都在看