聚类算法学习——kernel K-means及实现过程

2023年6月15日下午9:34 • 人工智能 • 阅读 65

聚类算法学习

接着上一个博客的学习，这篇对改进算法kernel K-means进行了整理记录。

第二节核空间聚类学习

文章目录

聚类算法学习
前言
一、kernel是什么？
二、核聚类学习
*
1.问题描述
2.代码实现
3.结果展示
总结

前言

物以类聚，人以群分。
以下为学习笔记整理

一、kernel是什么？

相信刚接触核空间思想的小伙伴，在搜索帖子学习的过程中，脑海里不止一次会想到”Kernel is a shit！！！”，但是但是但是，核空间太厉害了好吗，它确确实实是低维空间映射到高维的核武器。

“kernel方法是一类用于模式分析或识别的算法，其最知名的使用是在支持向量机（SVM）。模式分析的一般任务是在一般类型的数据（例如序列，文本文档，点集，向量，图像等）中找到并研究一般类型的关系（例如聚类，排名，主成分，相关性，分类）图表等）。内核方法将数据映射到更高维的空间，希望在这个更高维的空间中，数据可以变得更容易分离或更好的结构化。对这种映射的形式也没有约束，这甚至可能导致无限维空间。然而，这种映射函数几乎不需要计算的，所以可以说成是在低维空间计算高维空间内积的一个工具。”——一段高大上的介绍。
下面通俗的讲一下什么是kernel：

如图所示，左面的图为为原空间，右面的图为映射后的空间，从图中可以看出来，左面图不能线性分割，而右面的图要用一个超平面就可以分割开，原空间点左边为（x1,x2）,经过某个函数或者某种计算方法，转化为特征空间上点坐标为(z1,z2,z3)，所以说将低维空间转化到高维空间大概率可以对其中的点进行线性分割。

这样，我们第一步就理解了，就是在低维空间上的点通过某一函数转化为高维空间上，更有助于线性分类。

映射关系通常不好找，因此借助核函数来避免这个映射关系。上图所使用的核函数为

即内积平方，为什么对应的映射是这样呢，这里可以验证：
聚类算法学习——kernel K-means及实现过程

目前我还是存在一些困惑，有待进一步理解学习。
首先核函数的选取非常的困难，所举的例子由于数据的特殊性，较容易选择对应的核函数。
在机器学习中常用的核函数，一般有这么几类，也就是LibSVM中自带的这几类：

1）线性：

2）多项式：

3）Radial basis function(RBF径向基函数)：

4）Sigmoid：

更多关于核函数的整理可以参见
https://www.cnblogs.com/infinite-h/p/10723853.html
更详细关于内积解释可以参见
https://www.cnblogs.com/damin1909/p/12955240.html

; 二、核聚类学习

1.问题描述

首先生成上述图片类似的线性不可分的人工数据集

更新了比前一个更方便的K-means算法（可以实现三维聚类和效果显示）

核函数分别实现了多项式核和高斯核

关于高斯核的解释强烈推荐这篇博客：
https://blog.csdn.net/weixin_42137700/article/details/86756365

2.代码实现

(完整源码可评论我分享）

首先生成人工数据集

def get_data():
    fig = plt.figure()
    x, y1 = make_circles(n_samples=100, factor=0.1, noise=0.1)
    plt.scatter(x[:, 0], x[:, 1], marker='o', c=y1)
    plt.show()

    return x

然后低维空间到高维空间的映射函数

def process(x):
    '''
    映射到高维核空间
    :param data_point:
    :param data_noise:
    :return:
    '''
    Z = np.zeros([100, 3])

    Z[:, 0] = np.exp(-(_x[:, 0] ** 2)) * np.exp(-(_x[:, 1] ** 2))
    Z[:, 1] = 2 * _x[:, 0] * _x[:, 1] * np.exp(-(_x[:, 0] ** 2)) * np.exp(-(_x[:, 1] ** 2))
    Z[:, 2] = 2 * _x[:, 0] ** 2 * _x[:, 1] ** 2 * np.exp(-(_x[:, 0] ** 2)) * np.exp(-(_x[:, 1] ** 2))

    return Z

计算空间欧氏距离的函数

def euclidean_distance(one_sample, X):
    one_sample = one_sample.reshape(1, -1)
    X = X.reshape(X.shape[0], -1)
    distances = np.power(np.tile(one_sample, (X.shape[0], 1)) - X, 2).sum(axis=1)

    return distances

更新后的K-means聚类算法

class Kmeans():
    def __init__(self, k=2, max_iterations=500, varepsilon=0.0001):
        self.k = k
        self.max_iterations = max_iterations
        self.varepsilon = varepsilon

    def init_random_centroids(self, X):
        n_samples, n_features = np.shape(X)
        centroids = np.zeros((self.k, n_features))
        for i in range(self.k):
            centroid = X[np.random.choice(range(n_samples))]
            centroids[i] = centroid
        return centroids

    def _closest_centroid(self, sample, centroids):
        distances = euclidean_distance(sample, centroids)
        closest_i = np.argmin(distances)
        return closest_i

    def create_clusters(self, centroids, X):
        n_samples = np.shape(X)[0]
        clusters = [[] for _ in range(self.k)]
        for sample_i, sample in enumerate(X):
            centroid_i = self._closest_centroid(sample, centroids)
            clusters[centroid_i].append(sample_i)
        return clusters

    def update_centroids(self, clusters, X):
        n_features = np.shape(X)[1]
        centroids = np.zeros((self.k, n_features))
        for i, cluster in enumerate(clusters):
            centroid = np.mean(X[cluster], axis=0)
            centroids[i] = centroid
        return centroids

    def get_cluster_labels(self, clusters, X):
        y_pred = np.zeros(np.shape(X)[0])
        for cluster_i, cluster in enumerate(clusters):
            for sample_i in cluster:
                y_pred[sample_i] = cluster_i
        return y_pred

    def predict(self, X):

        centroids = self.init_random_centroids(X)

        for _ in range(self.max_iterations):

            clusters = self.create_clusters(centroids, X)
            former_centroids = centroids

            centroids = self.update_centroids(clusters, X)

            diff = centroids - former_centroids
            if diff.any() < self.varepsilon:
                break

        return self.get_cluster_labels(clusters, X)

3.结果展示

在高维特征空间聚类成功。

; 总结

这篇文章就先写到这里。下一次整理关于聚类效果的衡量标准。
祝大家都能写Pythonic，少写Cython

Original: https://blog.csdn.net/North_City_/article/details/113194193
Author: _Tunan
Title: 聚类算法学习——kernel K-means及实现过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617659/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

html实现个人空间（源码）

文章目录 1.个人空间设计 * 1.1 进入空间 1.2 空间顶部 1.3 空间内容 1.3 空间底部 1.3 空间整体 2.源码和完整效果展示 * 2.1 完整效果 2.2 主要…

人工智能 2023年6月26日
0062
Pytorch CIFAR10图像分类 MobileNet v1篇

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月2日
0066
网络爬虫知识 day07

三、案例开发分析我们已经学完了WebMagic的基本使用方法，现在准备使用WebMagic实现爬取数据的功能。这里是一个比较完整的实现。在这里我们实现的是聚焦网络爬虫，只爬取招…

人工智能 2023年7月18日
0059
python DataFrame数据分组统计groupby()函数，值得推荐

通过字典和 Series 对象进行分组统计 * 4.1通过一个字典 4.2通过一个Series groupby基本用法 ============================…

人工智能 2023年7月6日
0047
一，从零开始复现实时三维重建KInectFusion

一，从零开始复现实时三维重建KInectFusion 实时三维重建算法 * 【[本文代码](https://github.com/sky3139/KinectFusion_2022…

人工智能 2023年7月20日
0076
MotionNet 工程复现

MotionNet 工程复现 1. 下载工程和数据 1）通过下面的网站，注册下载software即可 https://www.merl.com/research/?research…

人工智能 2023年7月9日
0090
Python123 期末题库

前言本篇文章记录在 Python123 上面的题库，代码仅供参考，题量除了学校作业之外还去收集了一些。对有益处的同学可以收藏一下，把感受写在评论区，切勿关注，社恐谢谢！题库 1…

人工智能 2023年6月27日
00172
Python+Yolov5人脸口罩识别

程序示例精选Python+Yolov5人脸口罩识别如需安装运行环境或远程调试，见文章底部微信名片，由专业技术人员远程协助！前言 Yolov5比较Yolov4,Yolov3等其他识…

人工智能 2023年7月31日
0055
SPSS学习相关性分析

进行相关分析双变量相关计算变量之间 皮尔逊相关&#x7CF…

人工智能 2023年7月15日
0063
何恺明大神新作：一种用于目标检测的主流ViT架构，效果SOTA

链接：https://arxiv.org/abs/2203.16527 作者单位：Facebook AI Research 1导读 3月30日，何恺明大神团队在ArXiv上发布了最…

人工智能 2023年7月9日
00103
【OpenCV小练手】-仿造验证码去除干扰因子

🤖🤖🤖🤖 欢迎浏览本博客 🤖🤖🤖🤖😆😆😆😆😆😆😆我是：我菜就爱学😆😆😆😆😆😆😆一名刚刚入行OpenCV的小白👻👻👻👻🔔🔔我菜就爱学，分享有误，欢迎大佬指出🔔🔔 最近这几天一直在回顾…

人工智能 2023年6月20日
0063
机器学习模型的集成方法总结：Bagging, Boosting, Stacking, Voting, Blending

机器学习是人工智能的一个分支领域，致力于构建自动学习和自适应的系统，它利用统计模型来可视化、分析和预测数据。一个通用的机器学习模型包括一个数据集(用于训练模型)和一个算法(从数据学…

人工智能 2023年6月16日
0090
SparkStreaming升级版_结构化流

SparkStreaming升级版+上Flink处理eventtime功能 1. readStream 读流专用 readStream最简单的版本： SparkSQL读取strea…

人工智能 2023年7月8日
0044
windows下安装Tensorflow-gpu-2.5.0

windows下安装Tensorflow-gpu-2.5.0 1、安装Anaconda3虚拟环境官网下载过慢，因此使用清华大学的镜像安装网址： https://mirrors….

人工智能 2023年5月26日
0079
基于MindSpore的CycleGAN介绍和实现

前言我们这次介绍下著名的CycleGAN，同时提供了基于MindSpore的代码，方便大家运行验证。 CycleGAN的介绍 CycleGAN图像翻译模型，由两个生成网络和两个判…

人工智能 2023年7月13日
00105
C#，人工智能，深度学习，目标检测，OpenCV级联分类器数据集的制作与《层级分类器一键生成器》源代码

一、目标识别技术概述 1、摘要目标检测是计算机视觉中最基本和最具挑战性的问题之一，它试图从自然图像中的大量预定义类别中定位目标实例。深度学习技术已成为直接从数据中学习特征表示的强…

人工智能 2023年5月28日
0068

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

聚类算法学习——kernel K-means及实现过程

文章目录

1.问题描述

2.代码实现

3.结果展示

大家都在看