Python实验–手写KNN+PCA实现药品聚类和手写字识别

2023年5月31日上午10:19 • 人工智能 • 阅读 87

算法原理：

从D中随机取k个元素，作为k个簇的各自的中心；
分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇；
根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
将D中全部元素按照新的中心重新聚类。
重复第4步，直到聚类结果不再变化。
将结果输出

计算到中心的欧氏距离
def Distance(train, center, k):
    dist1 = []
    for data in train:
        diff = np.tile(data, (k,1)) - center
        squaredDiff = diff ** 2
        squaredDist = np.sum(squaredDiff, axis=1)
        distance = squaredDist ** 0.5
        dist1.append(distance)
    dist = np.array(dist1)
    return dist

集群分配
def classify(train, center, k):
    dist = Distance(train, center, k)  # 计算距离原中心的距离
    minDistIndices = np.argmin(dist, axis=1)  # 分簇
    newcenter = pd.DataFrame(train).groupby(minDistIndices).mean()  # 计算簇中所有元素的算数平均值
    newcenter = newcenter.values  # 更新中心

    changed = newcenter - center

    return changed, newcenter

def kmeans(train, k):
    center = random.sample(train, k)
    print('center：%s' % center)
    col = ['black', 'black', 'blue', 'blue']
    for i in range(len(train)):
        plt.scatter(train[i][0], train[i][1], marker='o', color=col[i], s=40, label='origin')
        for j in range(len(center)):
            plt.scatter(center[j][0], center[j][1], marker='x', color='red', s=50, label='center')
    plt.show()
    changed, newcenter = classify(train, center, k)
    while np.any(changed != 0):  # 直到中心不变化
        changed, newcenter = classify(train, newcenter, k)

    center = sorted(newcenter.tolist())

    classes = []
    dist = Distance(train, center, k)
    minDistIndices = np.argmin(dist, axis=1)
    for i in range(k):
        classes.append([])
    for i, j in enumerate(minDistIndices):  # enymerate()可同时遍历索引和遍历元素
        classes[j].append(train[i])

    return center, classes

主成分分析主要功能是以精度换速度，减少属性个数，提高算法运算速度

选择属性指标为每个指标对整体方差和的贡献率

计算原理：

1.去中心化

2.计算协方差矩阵

3.求解特征值和特征值向量

4.对特征值从大到小排序，选择最大的k个，然后将其对应的特征向量组成特征向量矩阵

5.反变换到原先向量空间

def pca(data, n_dim):

    data = data - np.mean(data, axis=0, keepdims=True)
    XTX = np.dot(data.T, data)
    eig_values, eig_vector = np.linalg.eig(XTX)   #特征值 特征向量
    indexs_ = np.argsort(-eig_values)[:n_dim]
    picked_eig_vector = eig_vector[:, indexs_]

    data_ndim = np.dot(data, picked_eig_vector) #坐标表示
    return data_ndim, picked_eig_vector

药品数据测试

数据为[(1, 1), (2, 2), (4, 3), (5, 4)]

要求分成两类

train =  [(1, 1),(2, 2),(4, 3),(5,4)]
    center, classes = kmeans(train, 2)
    print('center：%s' % center)
    print('classes：%s' % classes)
    col = ['black', 'black', 'blue', 'blue']
    for i in range(len(train)):
        plt.scatter(train[i][0], train[i][1], marker='o', color=col[i], s=40, label='row')
        for j in range(len(center)):
            plt.scatter(center[j][0], center[j][1], marker='x', color='red', s=50, label='center')
    plt.show()

结果：

手写字识别

数据集采用sklearn自带的digits数据集，包含0-9是个数字共1797个样本，每个样本为8*8的灰度图

要求一：利用sklearn实现PCA+KNN

data = load_digits().data
    labels = load_digits().target
    pca = PCA(n_components=15)
    data_new = pca.fit_transform(data)
    Xtrain, Xtest, Ytrain, Ytest = train_test_split(data_new, labels, test_size=0.3, random_state=10)

    clf = KNeighborsClassifier(n_neighbors=3, weights='uniform',
                               algorithm='auto', leaf_size=30,
                               p=2, metric='minkowski', metric_params=None,
                               n_jobs=None, )
    # train
    clf.fit(Xtrain, Ytrain)
    print(clf.score(Xtest, Ytest))

其中pca的保留属性数量选择15，总共的方差贡献率已超过98%

结果：

0.9833333333333333

要求二：实现手写PCA+KNN

KNN.py
def knn(train, label, k):
    n = len(train)
    classes = zeros(n)
    center = random.sample(train, k)

    changed, newcenter = classify(train, center, k)
    while np.any(changed != 0):
        changed, newcenter = classify(train, newcenter, k)

    center = sorted(newcenter.tolist())

    dist = Distance(train, center, k)  # 调用欧拉距离
    minDistIndices = np.argmin(dist, axis=1)
    for i, j in enumerate(minDistIndices):
        classes[i] = j # 每个值对应的类序号
    dic = {0:0, 1:0, 2:0, 3:0, 4:0, 5:0, 6:0, 7:0, 8:0, 9:0} # 类序号对应的标签
    vote = []
    for i in range(k):
        vote.append(zeros(k))
    for i in classes:
        vote[classes[i]][label[i]] += 1  # 统计每个类中每个标签的数量
    for i in range(k):
        index = vote[i].index(max(vote[i]))
        dic[i] = index  # 以每个类中最多的标签作为当前类对应的标签
    n_wrong = 0
    for i in classes:
        if label[i] != dic[classes[i]]:
            n_wrong += 1  # 统计分类错误

    acc = 1 - n_wrong/n
    return acc  # 返回acc

PCA.py
def PCA_KNN_hand():
    data = load_digits().data
    print(data.shape)
    labels = load_digits().target
    data_15d, picked_eig_vector = pca(data, 15)
    Xtrain, Xtest, Ytrain, Ytest = train_test_split(data_15d, labels, test_size=0.3, random_state=10)

    acc = KNN.knn(list(Xtrain), list(Ytrain), 10)
    print(acc)

其中重写了knn函数（KNN.py中），是因为原先的knn函数只实现了聚类，但是对于每个类别的标签没有涉及。这里采用投票制，将每个类中每中标签的个数统计之后，以票数最高的标签作为当前类别的标签值

结果：

0.9124900556881463

Original: https://blog.csdn.net/weixin_43909400/article/details/122401492
Author: 云龙弓手
Title: Python实验–手写KNN+PCA实现药品聚类和手写字识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550522/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLO Air一款面向科研小白的YOLO项目 | 包含大量改进方式教程

YOLO Air一款面向科研小白的YOLO项目|包含大量改进方式教程|适用YOLOv5,YOLOv7,YOLOX,YOLOv4,YOLOR,YOLOv3,transformer等算…

人工智能 2023年6月22日
00111
【考古-3】——Dynamic time warping(DTW)算法

1.Background: 在时间序列中，需要相似的两个时间序列的长度可能不相等，在语音识别领域，不同人的语音速度也不同。在这些复杂的情况下，使用传统的欧几里德距离不能有效地解决两…

人工智能 2023年5月27日
00101
情感计算-音频情感识别

深度神经网络DNN：原始语音信号分段输入到网络中，提取局部的情感信息，然后经过处理得到全局情感特征，送到分类器中，得到预测的概率类别。输入一段语音情感信号，可以得到每一段对…

人工智能 2023年5月27日
0097
pytorch导入自定义数据集

最近刚学图神经网络，数据集导入折腾了很久，终于开窍了一点。目前常用的数据导入方法主要有两种：（1）torchvision自带的导入方式:这种导入方式使用了torchvision自…

人工智能 2023年7月21日
0081
最全Python绘制饼形图（饼状图）

饼状图（pie chart）一般用于描述分类型数据的相对频数或百分数频数分布，呈现部分与总体的关系。 ; 一、导入绘图数据首先导入绘图所需的数据。 import os impor…

人工智能 2023年7月15日
0091
多种多模态图像融合方法

还是道歉啊有重复勿怪自己学习省事哦最近想到公司做的雷视融合,而且看了好多最近的各种展会写一下融合相关的多模态感知融合是自动驾驶的基础任务。但是，由于原始数据噪声大、信息利用…

人工智能 2023年6月24日
00103
LeetCode – 79 单词搜索

目录题目来源题目描述示例提示题目解析算法源码题目来源 79. 单词搜索 – 力扣（LeetCode）题目描述给定一个 m x n 二维字符网格 boa…

人工智能 2023年6月29日
0074
Excel、Python靠边站，这才是实现报表自动化最快的方法

最近在跟隔壁部门闲聊的时候，我发现会有这样的情况。他们跟我吐槽说，每天需要花很多时间做报表，但我发现其实他们80%的报表都是机械、重复式的手工操作，最夸张的一张报表需要花两个小时才…

人工智能 2023年7月15日
0075
【数字图像处理matlab】 (均值、中值、排序、众数、方差/协方差、相关系数、直方图/累计直方图)

【数字图像处理matlab】 (统计与描述) 一些数字图像处理，统计与描述相关代码，matlab编写文章目录【数字图像处理matlab】 (统计与描述) * – …

人工智能 2023年6月18日
0072
多模态语义分析_多模态数字人，5G时代下的人机交互

未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力，在人工智能更像人这个进程中更进一步。追一科技数字人本文为追一科技联合创始人、CTO刘云峰博士在腾讯5G+AI论坛演…

人工智能 2023年5月27日
00129
基于朴素贝叶斯和LSTM的两种新闻文本分类方法

新闻文本分类文章目录新闻文本分类 * 一、项目背景二、数据处理与分析三、基于机器学习的文本分类–朴素贝叶斯 – 1. 模型介绍 2. 代码结构 3….

人工智能 2023年7月2日
0083
数学建模（二）：优化

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0071
Magic Data入选亿欧智库2022中国语音交互车端应用产业图谱

Magic Data入选亿欧智库2022中国语音交互车端应用产业图谱以下文章来源于亿欧网，作者李浩诚 2022年3月18日，亿欧智库正式对外发布了《2022中国汽车智能化功能模…

人工智能 2023年5月25日
00114
【盒模型】css盒模型学习

盒模型 box:盒子，每个元素在页面中都会生产成一个矩形区域（盒子）盒子类型 1.行盒，display等于inline的元素 2.块盒，dipplay等于block的元素行盒在…

人工智能 2023年6月28日
00111
什么是目标检测？有哪些应用？终于有人讲明白了

导读：计算机视觉（Computer Vision，CV）是一门教计算机如何”看”世界的学科。计算机视觉包含多个分支，其中图像分类、目标检测、图像分割、目标跟…

人工智能 2023年6月24日
00100
【目标检测】YOLOV1详解

前言最近在公司实习，看到其实很多落地的模型都是基于yolo来改进的。在闲暇之余又重新温故了一下yolo系列，并想着将它们进行一个总结。今天就从V1下手，接下来的几个系列也会分别进…

人工智能 2023年7月12日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python实验–手写KNN+PCA实现药品聚类和手写字识别

大家都在看