聚类算法汇总（附代码）

2023年6月2日下午1:12 • 人工智能 • 阅读 75

本次整理了聚类工程里面常见算法，以及给出合适的工程结构方便调用，编写常用的聚类指标当作聚类结果函数，并Github链接在文末，供大家交流学习。

“物以类聚，人以群分”
下面介绍几种聚类算法

这篇更新一个带有权重的Kmeans算法，我们有时候需要给特征规定不同的权重，这个可以根据特征重要性来判断，具体更新在欧氏距离的计算上：

def euclidean_distance(one_sample, X):
    '''

    :param one_sample: 一个样本点输入
    :param X: 所有的聚类中心
    :return: 样本点距离每一个聚类中心的距离
    '''

    one_sample = one_sample.reshape(1, -1)
    X = X.reshape(X.shape[0], -1)
    distances = []
    w = [1, 0.2, 0.2]
    n = X.shape[0]
    for i in range(n):
        subs = one_sample - X[i]
        dimension2 = np.power(subs, 2)
        w_dimension2 = np.multiply(w, dimension2)
        w_distance2 = np.sum(w_dimension2, axis=1)[0]
        distances.append(w_distance2)

    return distances

AP聚类也叫亲和力（Affinity Propagation）聚类是2007年在Science杂志上提出的一种新的聚类算法。推荐论文阅读 Affinity Learning for Mixed Data Clustering

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:0ae8b849-d52b-41b8-b9fd-ded296d4b08e

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:3787af46-a03e-436c-bba1-4ec828e28f75

AP算法的优点是：
1）不需要制定最终聚类个数；

2）将已有数据点作为最终的聚类中心，而不是新生成聚类中心；

3）模型对数据的初始值不敏感，多次执行AP聚类算法，得到的结果是完全一样的，即不需要进行随机选取初值步骤（还是对比K-Means的随机初始值）；

4）对初始相似度矩阵数据的对称性没有要求；

5）与k中心聚类方法相比，其结果的平方差误差较小，相比于K-means算法，鲁棒性强、准确度较高，但算法复杂度高、运算消耗时间多。

具体思想是以S矩阵的对角线上的数值s (k, k)作为k点能否成为聚类中心的评判标准,这意味着该值越大,这个点成为聚类中心的可能性也就越大,这个值又称作参考度p ( preference) 。聚类的数量受到参考度p的影响,如果认为每个数据点都有可能作为聚类中心,那么p就应取相同的值。如果取输入的相似度的均值作为p的值,得到聚类数量是中等的。如果取最小值,得到类数较少的聚类。
主要代码部分如下：

def AP_clustering(data):
    '''
    :param data:
    :param labels_true:
    :return:
    '''
    center_num=[]
    for i in range(-20,-50,-5):
        ap = AffinityPropagation(preference=i).fit(data)
        cluster_centers_indices = ap.cluster_centers_indices_
        labels = ap.labels_
        n_clusters_ = len(cluster_centers_indices)
        center_num.append(n_clusters_)

    print('预测的聚类中心个数：%d' % n_clusters_)

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:ef5884f1-3d27-4c30-b531-e90d10792a0b

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:b21df779-7b79-4cbf-a05e-7f4c397a160a

谱聚类在python中的实现较容易，主要代码是用于参数寻优，具体聚类操作只需调用一个函数即可，代码如下：

def chose_para(X):

    scores = []
    s = dict()
    for index, gamma in enumerate((0.01, 0.1, 1, 10)):
        for index, k in enumerate((2, 3, 4)):
            y_pred = SpectralClustering(n_clusters=k,gamma=gamma).fit_predict(X.data)
            print("Calinski-Harabasz Score with gamma=", gamma, "n_cluster=", k, "score=",
                  calinski_harabasz_score(X.data, y_pred))
            tmp = dict()
            tmp['gamma'] = gamma
            tmp['n_cluster'] = k
            tmp['score'] = calinski_harabasz_score(X.data, y_pred)
            s[calinski_harabasz_score(X.data, y_pred)] = tmp
            scores.append(calinski_harabasz_score(X.data, y_pred))

    max_score = s.get(np.max(scores))
    print("max score:\n",max_score)

    gamma = list(max_score.values())[0]
    n_clusters = list(max_score.values())[1]

    y_pred = SpectralClustering(n_clusters=n_clusters,gamma=gamma).fit_predict(X)
    plt.title('SpectralClustering of blobs')
    plt.scatter(X[:, 0], X[:, 1], marker='.',c=y_pred)
    plt.show()

    return y_pred

Original: https://blog.csdn.net/North_City_/article/details/117996724
Author: _Tunan
Title: 聚类算法汇总（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561024/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一个简单的逻辑回归多分类例子与代码（python-sklearn实现）

目录一.问题二.流程与代码 (一) 流程 (二)代码 (三)模型表达式 sklearn逻辑回归多分类有两种模式： ovr与multinomial。在multi_class设为…

人工智能 2023年6月30日
0070
C++_CUDA入门

简单的一个例子：创建2个大数组，然后相同位置元素相加放入数组2的同一位置；该例子在cpu上执行； #include #include void add(int n, float *…

人工智能 2023年5月28日
00145
web前端期末大作业 html+css+javascript汽车介绍网页设计实例企业网站制作（带报告3490字）

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月26日
0073
难受啊，139天备战字节跳动，一个疏忽让我前功尽弃…

面试是走的内推途径，因为内推的简历通过率远高于其他方式;我的内推的途径有：联系我在字节跳动工作的一个大学学长。在线面试，有个线上文本编辑器，类似leetcode那种，可以在线编程…

人工智能 2023年7月29日
0044
如何用Python读写Excel文件

目录前言从文件读数据 * 读取xls文件 – 打开工作簿获取工作表读取行读取列读取单元格读取xlsx文件 – 打开工作簿获取工作表读取行数…

人工智能 2023年7月14日
0088
数据挖掘 —— 有监督学习（分类）

数据挖掘 —— 有监督学习（分类） 1. KNN分类算法 2. 决策树分类算法 3. SVM算法简介 4. 分类——集成算法 * 4.1 随机森林参数介绍 4.2 Adaboost…

人工智能 2023年7月1日
0094
Python自动化办公：27行代码实现将多个Excel表格内容批量汇总合并到一个表格

Python批量处理Excel表格序言准备工作代码实现效果序言老板最近越来越过分了，快下班了发给我几百个表格让我把内容合并到一个表格内去。还好我会Python，分分钟就…

人工智能 2023年7月16日
0067
[YOLO专题-8]：YOLO V5 – 简介与快速概览

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0043
二叉搜索树

1.需求分析：在n个动态的整数中搜索某个整数？解决的方案： 1.1动态数组：平均时间复杂度为O（n）; 1.2维护一个有序的动态数组，使用二分搜索最坏时间复杂度为O（log n）…

人工智能 2023年6月26日
0074
OpenCV图像处理学习十三，图像金字塔——高斯金字塔和拉普拉斯金字塔

一.图像金字塔概念我们在图像处理中常常会调整图像大小，最常见的就是放大(zoom in)和缩小（zoom out），尽管几何变换也可以实现图像放大和缩小，但是这里我们介绍图像金字…

人工智能 2023年6月18日
0077
相似文本聚类与调参

📢作者：小小明-代码实体📢博客主页：https://blog.csdn.net/as604049322📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论！之前我在《批量模糊匹配的三种方…

人工智能 2023年5月31日
0091
聚类分析的评价指标（性能度量）

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0092
【自适应模糊控制器】基于遗传算法的自适应模糊控制器matlab仿真

1.软件版本 matlab2013b 2.本算法理论知识设计一个对十字路口多功能控制的一个交通系统：包括基于遗传算法优化模糊控制器，车牌的自动识别技术。单十字路口：其中第一级…

人工智能 2023年6月17日
0078
pytorch LSTM 文本分类简单例子

3万文本，train val test 6 2 2. pytorch、sklearn、gensim的word2vec。word2vec嵌入句子进行表示，padding后，用LSTM…

人工智能 2023年7月3日
0080
【数据分析面试】字节跳动数据分析面试题（附答案解析）

更多优质干货内容可以look共粽号：【数据分析星球】，get海量数据分析资料！ 01写在前面数据分析SQL面试笔试题系列第6篇来啦！数据分析面试会重点考查候选人两方面的能力，一…

人工智能 2023年6月11日
0076
跑代码遇到问题汇总

linux跑python代码遇到的问题查看numpy的版本 ValueError: Parent directory of 路径 doesn’t exist pip更…

人工智能 2023年5月25日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类算法汇总（附代码）

大家都在看