[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:9db08ca3-1d54-4854-8557-7ba8669b6b3d

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:5ff3fa6d-02ee-4069-a43d-7ca0c7cc84c1

第1章指定聚类情况系的轮廓系数

1.1 非排序的轮廓系数

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

&#x6784;&#x5EFA;&#x6A21;&#x578B;&#x5E76;&#x8FDB;&#x884C;&#x5B66;&#x4E60;
n_clusters = 4
clusterer = KMeans(n_clusters=n_clusters, random_state=10)
clusterer = clusterer.fit(X)

&#x83B7;&#x5F97;&#x6240;&#x6709;&#x9884;&#x6D4B;&#x6807;&#x7B7E;
cluster_labels = clusterer.labels_

&#x83B7;&#x5F97;&#x6240;&#x6709;&#x6837;&#x672C;&#x7684;&#x5E73;&#x5747;&#x8F6E;&#x5ED3;&#x5206;&#x6570;
silhouette_avg = silhouette_score(X, cluster_labels)

print("For n_clusters =", n_clusters)
print("The average silhouette_score is :", silhouette_avg)

&#x83B7;&#x5F97;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x6240;&#x6709;&#x8F6E;&#x5ED3;&#x5206;&#x6570;
sample_silhouette_values = silhouette_samples(X, cluster_labels)
print("The sample silhouette_score is :", sample_silhouette_values.shape)

&#x53EF;&#x89C6;&#x5316;&#x6240;&#x6709;&#x7684;&#x6837;&#x672C;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x5206;&#x5E03;
x_data = np.linspace(0, 500, 500)
y_data = sample_silhouette_values
plt.scatter(x_data, y_data)
#fill_betweenx(y, x1, x2=0, where=None, step=None, interpolate=False, *, data=None, **kwargs)[source]
plt.fill_between(x_data, 0, y_data, facecolor='green', alpha=0.3)

For n_clusters = 4
The average silhouette_score is : 0.6505186632729437
The sample silhouette_score is : (500,)

[机器学习与scikit-learn-26]：算法-聚类-KMeans寻找最佳轮廓系数

1.2 轮廓系数排序后的展示–横向展示

&#x53EF;&#x89C6;&#x5316;&#x6240;&#x6709;&#x7684;&#x6837;&#x672C;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x5206;&#x5E03;(&#x6392;&#x5E8F;&#x540E;&#x7ED3;&#x679C;)
x_data = np.linspace(0, 500, 500)
y_data = sample_silhouette_values
y_data.sort()
plt.scatter(x_data,y_data)
plt.fill_between(x_data, 0, y_data, facecolor='green', alpha=0.3)

1.3 轮廓系数排序后的展示–纵向展示

&#x53EF;&#x89C6;&#x5316;&#x6240;&#x6709;&#x7684;&#x6837;&#x672C;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x5206;&#x5E03;(&#x6392;&#x5E8F;&#x540E;&#x7ED3;&#x679C;)
x_data = np.linspace(0, 500, 500)
y_data = sample_silhouette_values
y_data.sort()
plt.scatter(y_data,x_data)
plt.fill_between(y_data,0, x_data, facecolor='green', alpha=0.3)

第2章 cluster=4时候的轮廓系数（排序）

#1. &#x751F;&#x6210;&#x753B;&#x5E03;
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_size_inches(9+9, 7)
&#x6A2A;&#x5750;&#x6807;&#x662F;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#xFF0C;[-1, 1] ,&#x5B9E;&#x9645;&#x5728;[0,1]
ax1.set_xlim([-0.1, 1])

&#x7EB5;&#x5750;&#x6807;&#x8303;&#x56F4;
print("&#x6837;&#x672C;&#x4E2A;&#x6570;&#xFF1A;", X.shape[0])
ax1.set_ylim([0, X.shape[0] + (n_clusters + 1) * 10])

#2. &#x5206;&#x522B;&#x753B;&#x51FA;&#x6BCF;&#x4E2A;&#x805A;&#x7C7B;&#x7C7B;&#x522B;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;
&#x57FA;&#x7EBF;&#xFF0C;&#x9632;&#x6B62;&#x6BCF;&#x4E2A;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x8D34;&#x7740;X&#x8F74;
y_lower = 10
#
for i in range(n_clusters):
    # &#x83B7;&#x53D6;i&#x4E2A;&#x805A;&#x7C7B;&#x7C7B;&#x522B;&#x5BF9;&#x5E94;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;
    ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]

    # &#x83B7;&#x53D6;i&#x4E2A;&#x805A;&#x7C7B;&#x7C7B;&#x522B;&#x5BF9;&#x5E94;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x8FDB;&#x884C;&#x6392;&#x5E8F;&#xFF0C;&#x4EE5;&#x514D;&#x4E71;&#x5E8F;&#x663E;&#x793A;,
    ith_cluster_silhouette_values.sort()

    # &#x83B7;&#x53D6;&#x67D0;&#x4E00;&#x4E2A;&#x805A;&#x7C7B;&#x7C7B;&#x522B;&#x5BF9;&#x5E94;&#x7684;&#x6837;&#x672C;&#x6570;
    size_cluster_i = ith_cluster_silhouette_values.shape[0]
    print(size_cluster_i)

    # &#x8BBE;&#x7F6E;&#x6837;&#x672C;&#x7684;&#x4E0A;&#x7EBF;&#xFF1A;lower + &#x67D0;&#x4E2A;&#x805A;&#x7C7B;&#x7C7B;&#x522B;&#x7684;&#x6837;&#x672C;&#x6570;&#x5C31;&#x662F;&#x5B83;&#x7684;&#x4E0A;&#x7EBF;
    y_upper = y_lower + size_cluster_i

    # &#x628A;&#x65CF;&#x7684;&#x7C7B;&#x522B;&#x6620;&#x5C04;&#x6210;&#x67D0;&#x4E00;&#x79CD;&#x989C;&#x8272;
    color = cm.nipy_spectral(float(i)/n_clusters)

    # &#x5728;y&#x8F74;&#x7684;[y_lower, y_upper] &#x4E4B;&#x95F4;&#x586B;&#x5145;ith_cluster_silhouette_values
    ax1.fill_betweenx(np.arange(y_lower, y_upper)      # Y&#x8F74;&#x7684;&#x6570;&#x503C;
                      ,ith_cluster_silhouette_values   # X&#x8F74;&#x7684;&#x6570;&#x503C;
                      ,facecolor=color
                      ,alpha=0.7
                     )
    # &#x8BBE;&#x7F6E;Y&#x8F74;&#x6BCF;&#x4E2A;&#x805A;&#x7C7B;&#x5757;&#x7684;&#x6807;&#x7B7E;&#x540D;&#x79F0;
    ax1.text(-0.05 , y_lower + 0.5 * size_cluster_i , str(i))
    y_lower = y_upper + 10

&#x53EF;&#x89C6;&#x5316;&#x8FD0;&#x884C;&#x7ED3;&#x679C;
ax1.set_title("The silhouette plot for the various clusters.")
ax1.set_xlabel("The silhouette coefficient values")
ax1.set_ylabel("Cluster label")
#&#x753B;&#x51FA;&#x5E73;&#x5747;&#x503C;&#x7EBF;
ax1.axvline(x=silhouette_avg, color="red", linestyle="--")
&#x8BBE;&#x7F6E;y&#x8F74;&#x5750;&#x6807;
ax1.set_yticks([])
&#x8BBE;&#x7F6E;x&#x8F74;&#x5750;&#x6807;
ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

#3. &#x753B;&#x51FA;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x5B9E;&#x9645;&#x5206;&#x5E03;
colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
ax2.scatter(X[:, 0], X[:, 1] ,marker='o' ,s=8 ,c=colors)
centers = clusterer.cluster_centers_

Draw white circles at cluster centers
ax2.scatter(centers[:, 0], centers[:, 1], marker='x', c="red", alpha=1, s=200)
ax2.set_title("The visualization of the clustered data.")
ax2.set_xlabel("Feature space for the 1st feature")
ax2.set_ylabel("Feature space for the 2nd feature")
plt.suptitle(("Silhouette analysis for KMeans clustering on sample data ""with n_clusters = %d" % n_clusters),
             fontsize=14, fontweight='bold')
plt.show()

第3章不同聚类数情形下的轮廓系数展示

3.1 代码

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

&#x663E;&#x793A;&#x4E0D;&#x540C;&#x805A;&#x7C7B;&#x5206;&#x7C7B;&#x6570;&#x7684;&#x60C5;&#x5F62;&#x4E0B;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x5206;&#x5E03;&#x60C5;&#x51B5;
for n_clusters in [2,3,4,5,6,7]:
    # &#x805A;&#x7C7B;&#x7C7B;&#x522B;&#x6570;
    n_clusters = n_clusters

    # &#x51C6;&#x5907;&#x753B;&#x5E03;
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(18, 7)
    ax1.set_xlim([-0.1, 1])
    ax1.set_ylim([0, X.shape[0] + (n_clusters + 1) * 10])

    # &#x6A21;&#x578B;&#x8BAD;&#x7EC3;
    clusterer = KMeans(n_clusters=n_clusters, random_state=10).fit(X)

    #&#x6A21;&#x578B;&#x6807;&#x7B7E;
    cluster_labels = clusterer.labels_

    # &#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x5747;&#x503C;
    silhouette_avg = silhouette_score(X, cluster_labels)
    print("For n_clusters =", n_clusters, "The average silhouette_score is :", silhouette_avg)

    # &#x5728;&#x6307;&#x5B9A;&#x7C7B;&#x522B;&#x4E0B;&#xFF0C;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;
    sample_silhouette_values = silhouette_samples(X, cluster_labels)

    # &#x53EF;&#x89C6;&#x5316;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;
    y_lower = 10
    for i in range(n_clusters):
        ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]
        ith_cluster_silhouette_values.sort()
        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i
        color = cm.nipy_spectral(float(i)/n_clusters)
        ax1.fill_betweenx(np.arange(y_lower, y_upper)
                          ,ith_cluster_silhouette_values
                          ,facecolor=color
                          ,alpha=0.7
                         )
        ax1.text(-0.05
                 , y_lower + 0.5 * size_cluster_i
                 , str(i))
        y_lower = y_upper + 10

    # &#x8BBE;&#x7F6E;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#x5750;&#x6807;&#x503C;&#x53C2;&#x6570;
    ax1.set_title("The silhouette plot for the various clusters.")
    ax1.set_xlabel("The silhouette coefficient values")
    ax1.set_ylabel("Cluster label")

    # &#x7ED8;&#x5236;&#x4E2D;&#x8F74;&#x7EBF;
    ax1.axvline(x=silhouette_avg, color="red", linestyle="--")
    ax1.set_yticks([])
    ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])
    colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)

    # &#x7ED8;&#x5236;&#x4E0D;&#x540C;&#x805A;&#x7C7B;&#x65CF;&#x7684;&#x60C5;&#x5F62;&#x7684;&#x6837;&#x672C;&#x5206;&#x5E03;&#x56FE;
    ax2.scatter(X[:, 0], X[:, 1]
                ,marker='o'
                ,s=8
                ,c=colors
               )
    centers = clusterer.cluster_centers_
    # raw white circles at cluster centers
    ax2.scatter(centers[:, 0], centers[:, 1], marker='x',
                c="red", alpha=1, s=200)

    ax2.set_title("The visualization of the clustered data.")
    ax2.set_xlabel("Feature space for the 1st feature")
    ax2.set_ylabel("Feature space for the 2nd feature")
    plt.suptitle(("Silhouette analysis for KMeans clustering on sample data "
                  "with n_clusters = %d" % n_clusters),
                 fontsize=14, fontweight='bold')
    plt.show()

3.2 n_cluser=2

For n_clusters = 2 The average silhouette_score is : 0.7049787496083262

3.3 n_cluser=3

For n_clusters = 3 The average silhouette_score is : 0.5882004012129721

3.4 n_cluser=4

For n_clusters = 4 The average silhouette_score is : 0.6505186632729437

3.5 n_cluser=5

For n_clusters = 5 The average silhouette_score is : 0.56376469026194

3.6 n_cluser=6

For n_clusters = 6 The average silhouette_score is : 0.4504666294372765

3.7 n_cluser=7

For n_clusters = 7 The average silhouette_score is : 0.39092211029930857

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址： https://blog.csdn.net/HiWangWenBing/article/details/123515923

Original: https://blog.csdn.net/HiWangWenBing/article/details/123515923
Author: 文火冰糖的硅基工坊
Title: [机器学习与scikit-learn-26]：算法-聚类-KMeans寻找最佳轮廓系数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560726/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何使用ricequant量化平台进行落单和回测

如何使用ricequant量化平台进行落单和回测： def init(context):：context.s1 = “000001.XSHE”update_…

人工智能 2023年7月31日
0068
主成分分析（PCA）：通过图像可视化深入理解

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达主成分分析简介主成分分析（…

人工智能 2023年5月28日
0067
Python数据分析（一）matplotlib基础绘图和调整x轴刻度

每个红色的点是坐标，把5个点的坐标连接成一条线，组成一个折线图。假设一天中每个两个小时（range(2,26,2)）的气温分别是：[15，13，14.5，17，20，25，26…

人工智能 2023年7月5日
00115
计算机视觉入门知识一：数据分类基础（李飞飞斯坦福计算机视觉课程）

目录数据驱动方法第一个分类器：最近邻分类器（Nearest Neighbor）计算机如何比较两张图片的差别（L1距离比较法） KNN（K值最近邻算法）关于L1和L2范数…

人工智能 2023年7月1日
0088
hugging face 模型库的使用及加载 Bert 预训练模型

一、hugging face 模型库 Hugging face 是一个专注于 NLP 的公司，拥有一个开源的预训练模型库 Transformers ，里面囊括了非常多的模型例如 B…

人工智能 2023年7月21日
0059
前途无量的MEMS传感器技术

MEMS传感器即微机电系统（Micro-electro Mechanical Systems），是指将精密机械系统与微电子电路技术结合发展出来的一项工程技术，它的尺寸一般在微米量级…

人工智能 2023年6月4日
0093
数字图像处理与Python实现-Scikit-Image-图像特征（二）

文章目录 * – 7、Hessian 矩阵的特征值 – 8、定向梯度直方图 (Histogram of Oriented Gradients ,HOG) &…

人工智能 2023年6月22日
0072
Python中pd.to_datetime、groupby、range(len())

1 pd.to_datetime 2 groupby 2.1 groupby函数功能 2.3 举例 3 range(len()) 今日份笔记： 1 pd.to_datetime p…

人工智能 2023年7月7日
0064
机器学习及其MATLAB实现——BP神经网络

Multiply its output delta and input activation to get the gradient of the weight.、 Bring t…

人工智能 2023年6月23日
00118
是否可以使用深度学习来改进过滤算法的效果

问题：是否可以使用深度学习来改进过滤算法的效果？介绍随着网络技术的发展，互联网上数据的爆炸式增长给我们带来了巨大的挑战。在这些海量数据中，很多都是垃圾信息或者无用的广告。为了提…

人工智能 2024年1月4日
0029
图像处理——边缘提取

边缘提取基本原理图像边缘是图像最基本的特征，所谓边缘(Edge) 是指图像局部特性的不连续性。灰度或结构等信息的突变处称之为边缘。例如，灰度级的突变、颜色的突变,、纹理结构的…

人工智能 2023年6月17日
0059
机械臂手眼标定-calibrateHandEye()

机械臂手眼标定主要是为了获取机械臂与相机之间的相对位姿关系。本文主要利用opencv中的calibrateHandEye()函数进行标定。calibrateHandEye()函数 …

人工智能 2023年5月28日
0070
neo4j 关于日期和时间的操作

最近使用neo4j存储数据，其中包含了大量的时间数据，存储的时候都是以字符串的形式存储，如 ’11:07’，导致后期查询后的数值计算比较困难。中文的这方面笔…

人工智能 2023年6月10日
0066
【Pytorch教程】使用lr_scheduler调整学习率

torch.optim.lr_scheduler 模块提供了一些根据 epoch 迭代次数来调整学习率 lr 的方法。为了能够让损失函数最终达到收敛的效果，通常 lr 随着迭代次数…

人工智能 2023年7月22日
0045
python中删除字符串后面的零_Python从字符串中删除特定的零

您可以将^{}与^{}一起使用：df[[‘Date’, ‘Time’]] = df.DateTime.str.split(expan…

人工智能 2023年7月8日
0092
开源风暴吞噬AI界？从Stable Diffusion的爆火说起

近日，文本生成图像模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，估值达10亿美元，这家基于开源社区的”草根&#…

人工智能 2023年7月28日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[机器学习与scikit-learn-26]：算法-聚类-KMeans寻找最佳轮廓系数

前言：

第1章 指定聚类情况系的轮廓系数