手写算法-python代码实现Kmeans++以及优化

2023年6月3日上午5:14 • 人工智能 • 阅读 80

手写算法-python代码实现Kmeans++以及优化

聚类结果不稳定的优化方法
*
一次优化：kmeans++
二次优化：添加参数n_init
其他问题的优化方法

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:32358a52-f557-415c-9f1e-5e3fb60e2022

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:84d8afe0-44b2-4afb-9a72-dbf0e765b0fa

上篇文章，我们列举了Kmeans的不足之处，也用python代码实现了Kmeans聚类，但是跑出来的聚类结果不稳定，详情请看：
链接: 手写算法-python代码实现Kmeans
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:41b83176-f6fd-4bdf-a6f3-fb7e26cb9294

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:d6dc30a6-874c-478a-940a-1d2ff802bf3f

一次优化：kmeans++

问题点：随机选取k个数据，导致结果无法收敛。

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:744a0c52-603e-48ac-a62e-26c4af49b304

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:dbf1a3bc-605a-44ab-987f-8ad5687dc535

解决思路：
使用Kmeans++的方法初始质心，流程如下：
1、从输入的数据点集合中随机选择一个点作为第一个聚类中心；
2、对于数据集中的每一个点xi，计算它与已选择的聚类中心中最近聚类中心的距离D(x)；
3、选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；
4、重复b和c直到选择出k个聚类质心；
5、利用这k个质心来作为初始化质心去运行标准的K-Means算法；

按照上面的流程，我们来修改Kmeans代码，实现Kmeans++。

import numpy as np
from sklearn.datasets import make_blobs
from matplotlib import pyplot as plt

#&#x65E0;&#x76D1;&#x7763;&#x7B97;&#x6CD5;&#xFF0C;&#x5B66;&#x4E60;&#x8FC7;&#x7A0B;&#x5C31;&#x662F;&#x8BAD;&#x7EC3;&#x8D28;&#x5FC3;&#x7684;&#x4F4D;&#x7F6E;&#xFF0C;&#x8FDB;&#x884C;&#x805A;&#x7C7B;
class Kmeans:
    #&#x6DFB;&#x52A0;init&#x53C2;&#x6570;&#xFF0C;&#x9ED8;&#x8BA4;init = 'random'&#x5C31;&#x662F;&#x6807;&#x51C6;Kmeans&#xFF0C;init = 'Kmeans++'&#x5219;&#x4E3A;Kmeans++
    def __init__(self,k,init='random'):
        self.k = k
        self.init = init

    def calc_distance(self,x1,x2):
        diff = x1 - x2
        distances = np.sqrt(np.square(diff).sum(axis=1))
        return distances

    def fit(self,x):
        self.x = x
        m,n = self.x.shape

        if self.init == 'random':
            #&#x968F;&#x673A;&#x9009;&#x5B9A;k&#x4E2A;&#x6570;&#x636E;&#x4F5C;&#x4E3A;&#x521D;&#x59CB;&#x8D28;&#x5FC3;&#xFF0C;&#x4E0D;&#x91CD;&#x590D;&#x9009;&#x53D6;
            self.original_ = np.random.choice(m,self.k,replace=False)
            #&#x9ED8;&#x8BA4;&#x7C7B;&#x522B;&#x662F;&#x4ECE;0&#x5230;k-1
            self.original_center = x[self.original_]
        elif self.init == 'Kmeans++':
            first = np.random.choice(m)
            #&#x50A8;&#x5B58;&#x5728;&#x4E00;&#x4E2A;&#x5217;&#x8868;&#x4E2D;
            index_select = [first]
            #&#x7EE7;&#x7EED;&#x9009;&#x53D6;k-1&#x4E2A;&#x70B9;
            for i in range(1,self.k):
                all_distances = np.empty((m,0))
                for j in index_select:
                    #&#x8BA1;&#x7B97;&#x6BCF;&#x4E2A;&#x6570;&#x636E;&#x70B9;&#x5230;&#x5DF2;&#x9009;&#x62E9;&#x7684;&#x8D28;&#x5FC3;&#x7684;&#x8DDD;&#x79BB;
                    distances = self.calc_distance(self.x,x[j]).reshape(-1,1)
                    #&#x628A;&#x6BCF;&#x4E2A;&#x6570;&#x636E;&#x70B9;&#x5230;&#x5DF2;&#x9009;&#x62E9;&#x7684;&#x8D28;&#x5FC3;&#x7684;&#x8DDD;&#x79BB;&#x50A8;&#x5B58;&#x5728;&#x6570;&#x7EC4;&#x4E2D;&#xFF0C;&#x6BCF;&#x4E2A;&#x8D28;&#x5FC3;&#x4E00;&#x5217;
                    all_distances = np.c_[all_distances,distances]
                #&#x627E;&#x5230;&#x6BCF;&#x4E2A;&#x70B9;&#x5230;&#x5DF2;&#x9009;&#x62E9;&#x8D28;&#x5FC3;&#x7684;&#x6700;&#x5C0F;&#x8DDD;&#x79BB;
                min_distances = all_distances.min(axis=1).reshape(-1,1)
                #&#x5728;min_distances&#x91CC;&#x9762;&#x9009;&#x53D6;&#x8DDD;&#x79BB;&#x8F83;&#x5927;&#x7684;&#x70B9;&#x4F5C;&#x4E3A;&#x4E0B;&#x4E00;&#x4E2A;&#x8D28;&#x5FC3;&#xFF0C;&#x6211;&#x4EEC;&#x5C31;&#x9009;&#x6700;&#x5927;&#x7684;&#x70B9;
                index = np.argmax(min_distances)
                index_select.append(index)
            #&#x751F;&#x6210;Kmeans++&#x65B9;&#x6CD5;&#x7684;&#x521D;&#x59CB;&#x8D28;&#x5FC3;&#xFF0C;&#x9ED8;&#x8BA4;&#x7C7B;&#x522B;&#x662F;&#x4ECE;0&#x5230;k-1
            self.original_center = x[index_select]

        while True:
            #&#x521D;&#x59CB;&#x5316;&#x4E00;&#x4E2A;&#x5B57;&#x5178;&#xFF0C;&#x4EE5;&#x7C7B;&#x522B;&#x4F5C;&#x4E3A;key&#xFF0C;&#x8D4B;&#x503C;&#x4E00;&#x4E2A;&#x7A7A;&#x6570;&#x7EC4;
            dict_y = {}
            for j in range(self.k):
                dict_y[j] = np.empty((0,n))
            for i in range(m):
                distances =self.calc_distance(x[i],self.original_center)
                #&#x628A;&#x7B2C;i&#x4E2A;&#x6570;&#x636E;&#x5206;&#x914D;&#x5230;&#x8DDD;&#x79BB;&#x6700;&#x8FD1;&#x7684;&#x8D28;&#x5FC3;&#xFF0C;&#x5B58;&#x653E;&#x5728;&#x5B57;&#x5178;&#x4E2D;
                label = np.argsort(distances)[0]
                dict_y[label] = np.r_[dict_y[label],x[i].reshape(1,-1)]
            centers = np.empty((0,n))
            #&#x5BF9;&#x6BCF;&#x4E2A;&#x7C7B;&#x522B;&#x7684;&#x6837;&#x672C;&#x91CD;&#x65B0;&#x6C42;&#x8D28;&#x5FC3;
            for i in range(self.k):
                center = np.mean(dict_y[i],axis=0).reshape(1,-1)
                centers = np.r_[centers,center]
            #&#x4E0E;&#x4E0A;&#x4E00;&#x6B21;&#x8FED;&#x4EE3;&#x7684;&#x8D28;&#x5FC3;&#x6BD4;&#x8F83;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x53D1;&#x751F;&#x53D8;&#x5316;&#xFF0C;&#x5219;&#x505C;&#x6B62;&#x8FED;&#x4EE3;&#xFF08;&#x4E5F;&#x53EF;&#x8003;&#x8651;&#x6536;&#x655B;&#x65F6;&#x505C;&#x6B62;&#xFF09;
            result = np.all(centers == self.original_center)
            if result == True:
                break
            else:
                #&#x7EE7;&#x7EED;&#x66F4;&#x65B0;&#x8D28;&#x5FC3;
                self.original_center = centers

    def predict(self,x):
        y_preds = []
        m,n = x.shape
        for i in range(m):
            distances =self.calc_distance(x[i],self.original_center)
            y_pred = np.argsort(distances)[0]
            y_preds.append(y_pred)
        return y_preds

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:84de9f1a-193a-41fa-9daf-4f3cecc04cb8

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c0f0ccea-e35b-4b16-a117-041cc7ff9397

#&#x518D;&#x6B21;&#x7528;&#x5230;&#x6B64;&#x6570;&#x636E;&#x96C6;
x,y = make_blobs(centers=5,random_state=20,cluster_std=1)
plt.scatter(x[:,0],x[:,1])
plt.show()

model = Kmeans(k=5,init = 'Kmeans++')
model.fit(x)
y_preds = model.predict(x)
plt.scatter(x[:,0],x[:,1],c=y_preds)
plt.show()

可以看到，不管执行多少遍，聚类结果都是稳定的，证明我们修改的Kmeans++成功！

二次优化：添加参数n_init

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:08075a15-9b59-4020-86b0-4e5519445e96

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:305d188d-8915-4a43-b99a-1a9ea0a45bba

就是我执行n_init次，最终结果取最优的一次，最优怎么理解呢？
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:5c001860-952c-420f-aacb-8f3df903afff

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:d5419352-1e62-4669-b690-3942ab78bf1c

J = m i n ∑ i = 1 m ∣ ∣ x i − μ c i ∣ ∣ 2 J= min\sum_{i=1}^{m} ||x_i-\mu_c{^i}||^2 J =m i n i =1 ∑m ∣∣x i −μc i ∣∣2

在Kmeans++方法选取质心的基础上，再添加参数n_init，双重保险，万无一失！哈哈。。。

找到n_init次运行中，J最小时，对应的聚类质心，即为最优解。
继续修改代码如下：

#&#x65E0;&#x76D1;&#x7763;&#x7B97;&#x6CD5;&#xFF0C;&#x5B66;&#x4E60;&#x8FC7;&#x7A0B;&#x5C31;&#x662F;&#x8BAD;&#x7EC3;&#x8D28;&#x5FC3;&#x7684;&#x4F4D;&#x7F6E;&#xFF0C;&#x8FDB;&#x884C;&#x805A;&#x7C7B;
class Kmeans:
    #&#x6DFB;&#x52A0;init&#x53C2;&#x6570;&#xFF0C;&#x9ED8;&#x8BA4;init = 'random'&#x5C31;&#x662F;&#x6807;&#x51C6;Kmeans&#xFF0C;init = 'Kmeans++'&#x5219;&#x4E3A;Kmeans++
    def __init__(self,k,n_init,init='random'):
        self.k = k
        self.n_init = n_init
        self.init = init

    def calc_distance(self,x1,x2):
        diff = x1 - x2
        distances = np.sqrt(np.square(diff).sum(axis=1))
        return distances

    def fit(self,x):
        m,n = x.shape
        if self.init == 'random':
            #&#x968F;&#x673A;&#x9009;&#x5B9A;k&#x4E2A;&#x6570;&#x636E;&#x4F5C;&#x4E3A;&#x521D;&#x59CB;&#x8D28;&#x5FC3;&#xFF0C;&#x4E0D;&#x91CD;&#x590D;&#x9009;&#x53D6;
            self.original_ = np.random.choice(m,self.k,replace=False)
            #&#x9ED8;&#x8BA4;&#x7C7B;&#x522B;&#x662F;&#x4ECE;0&#x5230;k-1
            self.original_center = x[self.original_]
        elif self.init == 'Kmeans++':
            first = np.random.choice(m)
            #&#x50A8;&#x5B58;&#x5728;&#x4E00;&#x4E2A;&#x5217;&#x8868;&#x4E2D;
            index_select = [first]
            #&#x7EE7;&#x7EED;&#x9009;&#x53D6;k-1&#x4E2A;&#x70B9;
            for i in range(1,self.k):
                all_distances = np.empty((m,0))
                for j in index_select:
                    #&#x8BA1;&#x7B97;&#x6BCF;&#x4E2A;&#x6570;&#x636E;&#x70B9;&#x5230;&#x5DF2;&#x9009;&#x62E9;&#x7684;&#x8D28;&#x5FC3;&#x7684;&#x8DDD;&#x79BB;
                    distances = self.calc_distance(x,x[j]).reshape(-1,1)
                    #&#x628A;&#x6BCF;&#x4E2A;&#x6570;&#x636E;&#x70B9;&#x5230;&#x5DF2;&#x9009;&#x62E9;&#x7684;&#x8D28;&#x5FC3;&#x7684;&#x8DDD;&#x79BB;&#x50A8;&#x5B58;&#x5728;&#x6570;&#x7EC4;&#x4E2D;&#xFF0C;&#x6BCF;&#x4E2A;&#x8D28;&#x5FC3;&#x4E00;&#x5217;
                    all_distances = np.c_[all_distances,distances]
                #&#x627E;&#x5230;&#x6BCF;&#x4E2A;&#x70B9;&#x5230;&#x5DF2;&#x9009;&#x62E9;&#x8D28;&#x5FC3;&#x7684;&#x6700;&#x5C0F;&#x8DDD;&#x79BB;
                min_distances = all_distances.min(axis=1).reshape(-1,1)
                #&#x5728;min_distances&#x91CC;&#x9762;&#x9009;&#x53D6;&#x8DDD;&#x79BB;&#x8F83;&#x5927;&#x7684;&#x70B9;&#x4F5C;&#x4E3A;&#x4E0B;&#x4E00;&#x4E2A;&#x8D28;&#x5FC3;&#xFF0C;&#x6211;&#x4EEC;&#x5C31;&#x9009;&#x6700;&#x5927;&#x7684;&#x70B9;
                index = np.argmax(min_distances)
                index_select.append(index)
            #&#x751F;&#x6210;Kmeans++&#x65B9;&#x6CD5;&#x7684;&#x521D;&#x59CB;&#x8D28;&#x5FC3;&#xFF0C;&#x9ED8;&#x8BA4;&#x7C7B;&#x522B;&#x662F;&#x4ECE;0&#x5230;k-1
            self.original_center = x[index_select]

        while True:
            #&#x521D;&#x59CB;&#x5316;&#x4E00;&#x4E2A;&#x5B57;&#x5178;&#xFF0C;&#x4EE5;&#x7C7B;&#x522B;&#x4F5C;&#x4E3A;key&#xFF0C;&#x8D4B;&#x503C;&#x4E00;&#x4E2A;&#x7A7A;&#x6570;&#x7EC4;
            dict_y = {}
            for j in range(self.k):
                dict_y[j] = np.empty((0,n))
            for i in range(m):
                distances =self.calc_distance(x[i],self.original_center)
                #&#x628A;&#x7B2C;i&#x4E2A;&#x6570;&#x636E;&#x5206;&#x914D;&#x5230;&#x8DDD;&#x79BB;&#x6700;&#x8FD1;&#x7684;&#x8D28;&#x5FC3;&#xFF0C;&#x5B58;&#x653E;&#x5728;&#x5B57;&#x5178;&#x4E2D;
                label = np.argsort(distances)[0]
                dict_y[label] = np.r_[dict_y[label],x[i].reshape(1,-1)]
            centers = np.empty((0,n))
            #&#x5BF9;&#x6BCF;&#x4E2A;&#x7C7B;&#x522B;&#x7684;&#x6837;&#x672C;&#x91CD;&#x65B0;&#x6C42;&#x8D28;&#x5FC3;
            for i in range(self.k):
                center = np.mean(dict_y[i],axis=0).reshape(1,-1)
                centers = np.r_[centers,center]
            #&#x4E0E;&#x4E0A;&#x4E00;&#x6B21;&#x8FED;&#x4EE3;&#x7684;&#x8D28;&#x5FC3;&#x6BD4;&#x8F83;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x53D1;&#x751F;&#x53D8;&#x5316;&#xFF0C;&#x5219;&#x505C;&#x6B62;&#x8FED;&#x4EE3;&#xFF08;&#x4E5F;&#x53EF;&#x8003;&#x8651;&#x6536;&#x655B;&#x65F6;&#x505C;&#x6B62;&#xFF09;
            result = np.all(centers == self.original_center)
            if result == True:
                return dict_y,centers
                break
            else:
                #&#x7EE7;&#x7EED;&#x66F4;&#x65B0;&#x8D28;&#x5FC3;
                self.original_center = centers

    def select_optimal(self,x):
        #&#x50A8;&#x5B58;&#x6BCF;&#x6B21;&#x7684;J&#x503C;
        result = []
        #&#x50A8;&#x5B58;&#x6BCF;&#x6B21;&#x7684;&#x805A;&#x7C7B;&#x8D28;&#x5FC3;
        center = []
        for i in range(self.n_init):
            dict_y_i,center_i =self.fit(x)
            #&#x8BA1;&#x7B97;J&#x503C;
            for j in range(self.k):
                result_i = 0
                #&#x8BA1;&#x7B97;&#x7B2C;j&#x4E2A;&#x7C7B;&#x522B;&#x7684;&#x6837;&#x672C;&#x5230;&#x7C7B;&#x522B;&#x8D28;&#x5FC3;&#x7684;&#x8DDD;&#x79BB;&#x4E4B;&#x548C;
                distance_j = np.sum(self.calc_distance(dict_y_i[j],center_i[j]))
                result_i += distance_j
            result.append(result_i)
            center.append(center_i)
        #&#x627E;&#x5230;&#x6700;&#x5C0F;J&#x503C;&#xFF0C;&#x5BF9;&#x5E94;&#x7684;&#x805A;&#x7C7B;&#x8D28;&#x5FC3;
        index = np.argmin(result)
        self.original_center = center[index]

    def predict(self,x):
        y_preds = []
        m,n = x.shape
        for i in range(m):
            distances =self.calc_distance(x[i],self.original_center)
            y_pred = np.argsort(distances)[0]
            y_preds.append(y_pred)
        return y_preds

二次修改过后，我们再次测试，结果应该是更加稳定了，看有没有bug

model = Kmeans(k=5,n_init=10,init = 'Kmeans++')
model.select_optimal(x)
y_preds = model.predict(x)
plt.scatter(x[:,0],x[:,1],c=y_preds)
plt.show()

没有bug，结果也很稳定。
sklearn的效果上篇文章展示过，很稳定。

为什么sklearn的聚类结果这么稳定？
其实熟悉Kmeans的同学就应该清楚，我们这是复现了一部分sklearn里面KMeans的功能。

原因已经清楚了，sklearn里面的Kmeans，优化方法早就封装好了！

其他问题的优化方法

&#x4E00;&#x3001;k&#x503C;&#x7684;&#x9009;&#x53D6;&#x95EE;&#x9898;&#x3002;
&#x65B9;&#x6CD5;1&#x3001;&#x8098;&#x90E8;&#x56FE;&#x6CD5;&#xFF0C;&#x4E00;&#x4E2A;&#x6837;&#x672C;&#x96C6;&#xFF0C;k&#x503C;&#x8D8A;&#x5927;&#xFF0C;&#x805A;&#x7C7B;&#x7684;&#x7C7B;&#x522B;&#x8D8A;&#x591A;&#xFF0C;
&#x635F;&#x5931;&#x5C31;&#x8D8A;&#x5C0F;&#xFF0C;&#x8FD9;&#x91CC;&#x7684;&#x635F;&#x5931;&#x5C31;&#x662F;&#x6211;&#x4EEC;&#x4E0A;&#x9762;&#x8BF4;&#x7684;J&#x503C;&#xFF0C;&#x4F46;&#x662F;&#xFF0C;&#x5F53;k&#x503C;&#x5230;&#x8FBE;&#x67D0;&#x4E2A;&#x70B9;
&#x65F6;&#xFF0C;&#x7EE7;&#x7EED;&#x589E;&#x5927;k&#x503C;&#xFF0C;&#x635F;&#x5931;&#x7684;&#x51CF;&#x5C0F;&#x5C06;&#x53D8;&#x5F97;&#x7F13;&#x6162;&#xFF0C;&#x8FD9;&#x4E2A;&#x62D0;&#x70B9;&#x5BF9;&#x5E94;&#x7684;k&#x503C;&#x4E00;&#x822C;&#x800C;
&#x8A00;&#xFF0C;&#x5C31;&#x662F;&#x6700;&#x4F73;k&#x503C;&#x3002;

&#x65B9;&#x6CD5;2&#x3001;&#x4ECE;&#x7C07;&#x5185;&#x7684;&#x7A20;&#x5BC6;&#x7A0B;&#x5EA6;&#x548C;&#x7C07;&#x95F4;&#x7684;&#x79BB;&#x6563;&#x7A0B;&#x5EA6;&#x6765;&#x8BC4;&#x4F30;&#x805A;&#x7C7B;&#x7684;&#x6548;&#x679C;&#x3002;&#x5E38;&#x89C1;&#x7684;
&#x65B9;&#x6CD5;&#x6709;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;Silhouette Coefficient&#x548C;Calinski-Harabasz Index&#x3002;
sklearn&#x4E2D;&#x5DF2;&#x5C01;&#x88C5;&#x597D;&#xFF0C;sklearn.metrics.calinski_harabasz_score
&#x5F97;&#x5206;&#x8D8A;&#x9AD8;&#xFF0C;&#x805A;&#x7C7B;&#x6548;&#x679C;&#x8D8A;&#x597D;&#xFF0C;&#x5F97;&#x5206;&#x6700;&#x9AD8;&#x65F6;&#xFF0C;&#x5C31;&#x662F;&#x6700;&#x4F73;&#x7684;k&#x503C;&#x3002;

1、肘部图法示例：

这个就迭代一下k值，然后画一下图像，比较简单，由于篇幅的原因，大家自行去实现一下，看看效果，这里就不写代码了；

2、metrics.calinski_harabasz_score对应的公式如下：
s ( k ) = t r ( B k ) t r ( W k ) m − k k − 1 s(k) = \frac{tr(B_k)}{tr(W_k)} \frac{m-k}{k-1}s (k )=t r (W k )t r (B k )k −1 m −k
其中m为训练集样本数，k为类别数。Bk为类别之间的协方差矩阵，Wk为类别内部数据的协方差矩阵。tr为矩阵的迹。
score越大，代表类别内部数据的协方差越小，类别之间的协方差越大，也就是聚类效果越好。

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:2f28b37b-d493-4563-8729-9e80209fe810

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:be9f3207-e75a-462f-a68b-ce5eea889414

可以看到，K=5的时候，值最大，5就是我们要找的k值。

&#x4E8C;&#x3001;&#x6570;&#x636E;&#x91CF;&#x5F88;&#x5927;&#x65F6;&#xFF0C;&#x65F6;&#x95F4;&#x590D;&#x6742;&#x5EA6;&#x5F88;&#x9AD8;&#xFF0C;&#x8BA1;&#x7B97;&#x5F97;&#x5F88;&#x6162;&#x7684;&#x95EE;&#x9898;
1&#x3001;&#x5BF9;&#x8DDD;&#x79BB;&#x8BA1;&#x7B97;&#x7684;&#x4F18;&#x5316;&#xFF0C;elkan K-Means&#xFF0C;&#x5229;&#x7528;&#x4E86;&#x4E24;&#x8FB9;&#x4E4B;&#x548C;&#x5927;&#x4E8E;&#x7B49;&#x4E8E;&#x7B2C;&#x4E09;
&#x8FB9;,&#x4EE5;&#x53CA;&#x4E24;&#x8FB9;&#x4E4B;&#x5DEE;&#x5C0F;&#x4E8E;&#x7B2C;&#x4E09;&#x8FB9;&#x7684;&#x4E09;&#x89D2;&#x5F62;&#x6027;&#x8D28;&#xFF0C;&#x6765;&#x51CF;&#x5C11;&#x8DDD;&#x79BB;&#x7684;&#x8BA1;&#x7B97;&#x3002;&#x4F46;&#x662F;&#x5982;
&#x679C;&#x6837;&#x672C;&#x7684;&#x7279;&#x5F81;&#x662F;&#x7A00;&#x758F;&#x7684;&#xFF0C;&#x6709;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x8BDD;&#xFF0C;&#x8FD9;&#x4E2A;&#x65B9;&#x6CD5;&#x5C31;&#x4E0D;&#x4F7F;&#x7528;&#x4E86;&#xFF0C;&#x6B64;&#x65F6;&#x67D0;&#x4E9B;
&#x8DDD;&#x79BB;&#x65E0;&#x6CD5;&#x8BA1;&#x7B97;&#xFF0C;&#x5219;&#x4E0D;&#x80FD;&#x4F7F;&#x7528;&#x8BE5;&#x7B97;&#x6CD5;&#x3002;
Kmeans&#x91CC;&#x9762;&#x53C2;&#x6570;algorithm&#xFF1A;&#x6709;&#x201C;auto&#x201D;, &#x201C;full&#x201D; or &#x201C;elkan&#x201D;&#xFF0C;&#x201C;full&#x201D;&#x5C31;&#x662F;&#x666E;&#x901A;&#x7684;&#x6B27;&#x6C0F;&#x8DDD;&#x79BB;&#xFF0C;&#x9ED8;&#x8BA4;"auto"&#x3002;

2&#x3001;Mini Batch K-Means&#xFF0C;Mini Batch&#xFF0C;&#x4E5F;&#x5C31;&#x662F;&#x7528;&#x6837;&#x672C;&#x96C6;&#x4E2D;&#x7684;&#x4E00;&#x90E8;&#x5206;&#x7684;&#x6837;&#x672C;
&#x6765;&#x505A;K-Means&#xFF0C;&#x4E0D;&#x518D;&#x4F7F;&#x7528;&#x5168;&#x90E8;&#x6837;&#x672C;&#xFF0C;&#x8FD9;&#x6837;&#x53EF;&#x4EE5;&#x907F;&#x514D;&#x6837;&#x672C;&#x91CF;&#x592A;&#x5927;&#x65F6;&#x7684;&#x8BA1;&#x7B97;&#x96BE;
&#x9898;&#xFF0C;&#x7B97;&#x6CD5;&#x6536;&#x655B;&#x901F;&#x5EA6;&#x5927;&#x5927;&#x52A0;&#x5FEB;&#x3002;&#x5F53;&#x7136;&#x6B64;&#x65F6;&#x7684;&#x4EE3;&#x4EF7;&#x5C31;&#x662F;&#x6211;&#x4EEC;&#x7684;&#x805A;&#x7C7B;&#x7684;&#x7CBE;&#x786E;&#x5EA6;&#x4E5F;
&#x4F1A;&#x6709;&#x4E00;&#x4E9B;&#x964D;&#x4F4E;&#x3002;&#x4E00;&#x822C;&#x6765;&#x8BF4;&#x8FD9;&#x4E2A;&#x964D;&#x4F4E;&#x7684;&#x5E45;&#x5EA6;&#x5728;&#x53EF;&#x4EE5;&#x63A5;&#x53D7;&#x7684;&#x8303;&#x56F4;&#x4E4B;&#x5185;&#x3002;
sklearn&#x91CC;&#x9762;&#x76F4;&#x63A5;&#x5C01;&#x88C5;&#x6709;MiniBatchKMeans&#x3002;

这样，Kmeans算法的问题，基本上都写了一下，至于Kmeans只适合处理凸样本集，不适合处理非凸样本集，这个问题，怎么解决，我们下一篇文章再写。

Original: https://blog.csdn.net/weixin_44700798/article/details/111334986
Author: Dream-YH
Title: 手写算法-python代码实现Kmeans++以及优化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/563193/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多标签分类器（附pytorch代码）

多标签分类器多标签分类任务与多分类任务有所不同，多分类任务是将一个实例分到某个类别中，多标签分类任务是将某个实例分到多个类别中。多标签分类任务有有两大特点：类标数量不确定，有些…

人工智能 2023年6月15日
0077
VINS-Mono笔记01_VINS-Mono的编译运行

VINS-Mono笔记01_VINS-Mono的编译运行编译VINS-Mono * 安装ROS 安装OpenCV,Eigen3和Ceres 创建ROS工作空间导入ROS包编译…

人工智能 2023年6月2日
0086
基于卷积神经网络的密集人群估计/人群计数算法【内含教程和踩坑】

文章目录前言一、什么是密集人群估计二、实验前准备 * 1.Github开源项目——Awesome Crowd Counting 2.数据集下载 3.环境配置三、Shangh…

人工智能 2023年7月21日
0078
Leetcode 208 实现前缀树

Trie树（前缀树）是一种树形数据结构（多叉树），它可用于高效地存储和检索字符串数据集中的键。这一数据结构有相当多的应用情景，例如自动补完和拼写检查。请你实现 Trie 类： T…

人工智能 2023年6月4日
0093
【目标检测-YOLO】YOLO v5 训练自定义数据集

参考：https://github.com/ultralytics/yolov5 数据集格式： voc 1. 标注所需图像比如使用 labelimg 2. 数据组织成 VOC的格…

人工智能 2023年7月10日
0076
时域卷积网络与蒙特卡洛树搜索相结合的知识图补全模型研究

这个适合第三个方向。。。摘要在知识图谱补全 (KGC)和其他应用程序中，学习如何使用给定查询从源节点移动到目标节点是一个重要问题。它可以表述为给定状态下的强化学习 (RL) 问…

人工智能 2023年6月10日
0079
Python实现照片卡通化，一拳打破次元壁 | 机器学习

目录前言项目结构核心代码总结前言接着我上一篇开源机器学习的使用：如何将照片变成卡通图，animegan2-pytorch机器学习项目使用 | 机器学习_阿良的博客-CS…

人工智能 2023年6月17日
00101
人脸活体检测人脸识别：眨眼+张口

一： dlib 的shape_predictor_68_face_landmarks模型该模型能够检测人脸的68个特征点（facial landmarks），定位图像中的眼睛，眉…

人工智能 2023年7月5日
0082
Python爬取网上文章并发表到微信公众号

前言话说懒惰是人类进步的原动力，古人诚不欺我。最近在折腾一个微信公众号，开始的时候在网上找一些资源然后进行二次创作然后发表到微信公众号，但是这就要自己先把里面的图片下载下来然后文…

人工智能 2023年7月17日
0068
Atlas小车部署

Atlas小车部署制卡硬件准备 SD卡（建议64G）、读卡器、已在虚拟机中安装ubuntu-18.04桌面操作系统的PC机软件准备 Ubuntu服务器操作系统镜像包 ubun…

人工智能 2023年7月10日
0093
SOT-23和SOT-223三极管及MOS管封装区别以及示意图

SOT23封装三极管三极管为SOT23封装时，无论是NPN还是PNP。引脚分布1脚为基极(B)，2脚为发射极(E)，3脚为集电极©。 NPN PNP MOS管MOS管为SOT23封…

人工智能 2023年6月29日
0092
大数据项目实战——基于某招聘网站进行数据采集及数据分析（五）

大数据项目实战第五章数据分析文章目录大数据项目实战学习目标一、设计 Hive 数据仓库 * 1、事实表 ods_jobdata_origin 2、维度表 t_salar…

人工智能 2023年7月15日
0077
【NLP】动手实现一个句子生成器

本文主要介绍如何通过预先设定好的语法规则以及单词，通过Python来自动生成一些句子。文章目录 * – 解析语法 – 生成句子 – 小结解析…

人工智能 2023年5月28日
00101
在Premiere中使用OMF共享工作

许多视频编辑承担后期制作团队的所有角色，如动画、调色和音频混音。虽然在所有这些领域都有知识很重要，但要成为所有领域的专业人士是很难的。在预算允许的情况下，编辑有时会与其他拥有专门技…

人工智能 2023年5月25日
0069
基于Logistic回归模型对鸢尾花数据集的线性多分类

文章目录 * – + 一、实验说明 + 二、鸢尾花数据集线性多分类 + 三、参考🔗 一、实验说明实验环境Anaconda + python3.6 + jupyter …

人工智能 2023年7月2日
0099
深度学习原理—–逻辑回归算法

系列文章目录深度学习原理—–线性回归+梯度下降法深度学习原理—–逻辑回归算法深度学习原理—–全连接神经网络…

人工智能 2023年6月16日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

手写算法-python代码实现Kmeans++以及优化

手写算法-python代码实现Kmeans++以及优化

一次优化：kmeans++

二次优化：添加参数n_init

大家都在看