ISODATA算法 python实现

2023年5月31日上午7:04 • 人工智能 • 阅读 104

文章目录

前言
一、ISODATA的流程
*
1.流程图（这里按迭代的奇偶来判断分裂或者合并）
二、使用步骤
*
1.代码实现
2.迭代过程
3. 总结

前言

ISODATA经常被用来与Kmeans算法进行对比，其本质也是按照欧式距离来对样本进行分类，不同的是ISODATA可以根据一个大概的指定类别数去确定最终的聚类数（两者可能不同），而Kmeans指定聚类数是多少后，最终的聚类就一定是多少。

一、ISODATA的流程

本质上只有分裂和合并两个步骤加更新中心三个步骤。了解这个算法，核心需要解决下面的三个问题：

Question 1. 什么时候分裂？

现有的聚类数太少就进行分裂。你一开始指定100个聚类，现在只有2个，那就进行分裂。（大的分裂方向，还有细节见下面流程图）

Question 2. 什么时候合并？

现有的聚类数太多就进行分裂。你一开始指定100个聚类，现在上一次刚好裂成200个，那就进行合并。（大的合并方向，还有细节见下面流程图）

Question 3. 现在有的中心数不上不下怎么办？

如果是奇数次迭代，那就尝试去分裂吧（虽然最后不一定分裂了）
如果是偶数次迭代，那就尝试去合并吧（虽然最后不一定合并了）

1.流程图（这里按迭代的奇偶来判断分裂或者合并）

注意:

在流程图中，”合并”步骤并不一定执行了合并，只有满足在所有的中心中，存在一些中心的距离太近（这个距离低于了设定的阈值）才会真正的执行合并的操作，其余不执行合并的操作。而在分裂中，只有现有的中心数太少或者满足”类内的距离太大而且样本数太少”进行分裂的操作。其中类内的距离太大则表示了这个聚类太过于松散，再加上类的数量太少的话，才进行分裂。

分裂的细节：如何分裂？

计算需要分裂的这个簇在各个维度上的方差，如果最大的方差超过了特定的阈值，就在这个最大方差的维度上分裂成两个，其他维度的值保持不变。

比如现在有一个中心 (1, 3) ，对于属于这个中心的所有样本，我们计算其在第一个维度 (数值1的维度) 的方差，再计算其在第二个维度 (数值3的维度) 的方差。假设维度1计算的方差结果为 0.3，维度2计算的方差为1.5，预先设定的阈值为0.5；所以我们要在第二个维度上把中心分成2个：（1, 3 + 1.5 * k ), (1, 3 – 1.5 *k) ，其中k又是控制分裂远近的一个超参数，在代码中取0.5。由此，我们得到了新分裂的两个中心，并把原来的中心去掉。

合并的细节： 如何合并？

合并使用加权平均的方法，两个权重是两个中心控制的两簇样本的数量百分比，加权求和即可。

; 二、使用步骤

1.代码实现

Tips: 注意需要用到sklearn的库来产生数据集：


"""
@author:zsiming
@fileName:ISODATA.py
@Time:2022/1/9  12:33
"""
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.metrics import euclidean_distances

class ISODATA():
    def __init__(self, designCenterNum, LeastSampleNum, StdThred, LeastCenterDist, iterationNum):

        self.K = designCenterNum
        self.thetaN = LeastSampleNum
        self.thetaS = StdThred
        self.thetaC = LeastCenterDist
        self.iteration = iterationNum

        self.n_samples = 1500

        self.random_state1 = 200
        self.random_state2 = 160
        self.random_state3 = 170
        self.data, self.label = make_blobs(n_samples=self.n_samples, random_state=self.random_state3)

        self.center = self.data[0, :].reshape((1, -1))
        self.centerNum = 1
        self.centerMeanDist = 0

        sns.set()

    def updateLabel(self):
"""
            更新中心
"""
        for i in range(self.centerNum):

            distance = euclidean_distances(self.data, self.center.reshape((self.centerNum, -1)))

            self.label = np.argmin(distance, 1)

            index = np.argwhere(self.label == i).squeeze()
            sameClassSample = self.data[index, :]

            self.center[i, :] = np.mean(sameClassSample, 0)

        for i in range(self.centerNum):

            index = np.argwhere(self.label == i).squeeze()
            sameClassSample = self.data[index, :]

            distance = np.mean(euclidean_distances(sameClassSample, self.center[i, :].reshape((1, -1))))

            self.centerMeanDist += distance
        self.centerMeanDist /= self.centerNum

    def divide(self):

        newCenterSet = self.center

        for i in range(self.centerNum):

            index = np.argwhere(self.label == i).squeeze()
            sameClassSample = self.data[index, :]

            stdEachDim = np.mean((sameClassSample - self.center[i, :])**2, axis=0)

            maxIndex = np.argmax(stdEachDim)
            maxStd = stdEachDim[maxIndex]

            distance = np.mean(euclidean_distances(sameClassSample, self.center[i, :].reshape((1, -1))))

            if maxStd > self.thetaS:

                if self.centerNum  self.K//2 or \
                        sameClassSample.shape[0] > 2 * (self.thetaN+1) and distance >= self.centerMeanDist:
                    newCenterFirst = self.center[i, :].copy()
                    newCenterSecond = self.center[i, :].copy()

                    newCenterFirst[maxIndex] += 0.5 * maxStd
                    newCenterSecond[maxIndex] -= 0.5 * maxStd

                    newCenterSet = np.delete(newCenterSet, i, axis=0)

                    newCenterSet = np.vstack((newCenterSet, newCenterFirst))
                    newCenterSet = np.vstack((newCenterSet, newCenterSecond))

            else:
                continue

        self.center = newCenterSet
        self.centerNum = self.center.shape[0]

    def combine(self):

        delIndexList = []

        centerDist = euclidean_distances(self.center, self.center)
        centerDist += (np.eye(self.centerNum)) * 10**10

        while True:

            minDist = np.min(centerDist)
            if minDist >= self.thetaC:
                break

            index = np.argmin(centerDist)
            row = index // self.centerNum
            col = index % self.centerNum

            index = np.argwhere(self.label == row).squeeze()
            classNumFirst = len(index)
            index = np.argwhere(self.label == col).squeeze()
            classNumSecond = len(index)
            newCenter = self.center[row, :] * (classNumFirst / (classNumFirst+ classNumSecond)) + \
                        self.center[col, :] * (classNumSecond / (classNumFirst+ classNumSecond))

            delIndexList.append(row)
            delIndexList.append(col)

            self.center = np.vstack((self.center, newCenter))
            self.centerNum -= 1

            centerDist[row, :] = float("inf")
            centerDist[col, :] = float("inf")
            centerDist[:, col] = float("inf")
            centerDist[:, row] = float("inf")

        self.center = np.delete(self.center, delIndexList, axis=0)
        self.centerNum = self.center.shape[0]

    def drawResult(self):
        ax = plt.gca()
        ax.clear()
        ax.scatter(self.data[:, 0], self.data[:, 1], c=self.label, cmap="cool")

        ax.set_xlabel('x axis')
        ax.set_ylabel('y axis')
        plt.show()

    def train(self):

        self.updateLabel()
        self.drawResult()

        for i in range(self.iteration):

            if self.centerNum < self.K //2:
                self.divide()
            elif (i > 0 and i % 2 == 0) or self.centerNum > 2 * self.K:
                self.combine()
            else:
                self.divide()

            self.updateLabel()
            self.drawResult()
            print("中心数量：{}".format(self.centerNum))

if __name__ == "__main__":
    isoData = ISODATA(designCenterNum=5, LeastSampleNum=20, StdThred=0.1, LeastCenterDist=2, iterationNum=20)
    isoData.train()

2.迭代过程

1. 原始数据如下图所示，可以看见我在这儿比较明显的生成三个簇的数据（然后指定类别数为5）:

2. 从一个中心分裂成为两个中心（用颜色区分不同的聚类）：

3. 未到达指定类别数（2 < 5）继续分裂为4个中心:

4.中心贴得太近了，需要合并:

5. 更新中心的位置和分裂：

6.中心贴得太近了，合并

7.后面将不再变化。

; 3. 总结

个人觉得:

从参数的角度来看，相比于Kmeans，由一个超参数数变成了六个超参数，不能说是改进。只能说某些先验知识比较完善的情况下，可能适用于数据流形分布比较复杂的场景。

Original: https://blog.csdn.net/zsiming/article/details/122410398
Author: zsiming
Title: ISODATA算法 python实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549614/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

访问OpenCV中Mat某个像素点的数值的方法

这种方式在访问深度图中某个像素位置的深度很常用。由于一般深度图都是16位的，也就是 unsigned short的数据类型。如果访问的像素的坐标为 (x, y)，深度图的 Mat变…

人工智能 2023年7月20日
0046
基于Pytorch的卷积神经网络CNN实例应用及详解

基于Pytorch的卷积神经网络CNN实例应用及详解一、卷积神经网络CNN定义卷积神经网络（CNN，有时被称为 ConvNet）是很吸引人的。在短时间内，它们变成了一种颠覆性的…

人工智能 2023年7月22日
0066
智能宠物喂食器语音芯片应用设计方案（基于唯创语音芯片WT588E02-8S（C001）功能拓展）

智能宠物喂食器语音芯片应用设计方案（基于唯创语音芯片 WT588E02-8S（C001）功能拓展）概述本文主要通过使用唯创知音语音芯片扩展目录进行选型微定制，达到节省成本…

人工智能 2023年5月25日
00100
实验5 支持向量机分类实验

一、实验要求在计算机上验证和测试莺尾花数据的支持向量机分类实验，sklearn的支持向量机分类算法。实验目的 1、掌握支持向量机的原理 2、能够理解支持向量机分类算法； 3、掌…

人工智能 2023年7月2日
0087
（草履虫级别的精讲）卷积神经网络的基本组成结构

目录前言卷积神经网络的基本组成结构一.卷积层 1.标准卷积层 2.形变卷积 3.空洞卷积二.池化层 1.最大池化层 2.平均池化层三.激活函数 1.Sigmoid 2.T…

人工智能 2023年7月13日
00103
基于ESP32测温湿度上传到OneNET并通过微信小程序控制，查看，下发指令

项目背景目前，科学技术飞速发展，其渗透到各个行业和生活的方方面面，室内设计与高科技相结合的智能家居应运而生。所谓智能家居，就是以生活场所为平台，利用物联网、传感器和智能控制技术，…

人工智能 2023年5月27日
00109
R-CNN

候选区域方法：为目标检测提供了一种重要的思想 [En] candidate region method: provides an important idea for object…

人工智能 2023年5月24日
00133
anaconda环境下载安装GPU版本pytorch时遇到的问题及解决方法(cuda11.3)

毕设要使用pytorch，因为之前下载过tensoflow所以知道要找对应版本，就先看了一下自己需要下载的版本：查询链接：https://pytorch.org/get-star…

人工智能 2023年7月21日
0091
pandas计算方差，平均值，分位数，中位数

导入数据 import pandas as pd movie= pd.read_csv(‘movie.csv’) movie.head() RankTitleGenreDescri…

人工智能 2023年7月8日
0096
Elastic：使用 Elastic Stack 进行异常值检测 – airbnb 数据分析

在我之前的文章 “Elasticsearch：使用 Elastic 机器学习进行 data frame 分析” 里，我详细地讲述了如何使用 data fra…

人工智能 2023年7月16日
0084
图像分辨率+像素+尺寸+文件内存大小

图像分辨率 1、图像分辨率是指在计算机中保存和显示一幅数字图像所具有的分辨率，它和图像的像素有直接的关系。例如，一张分辨率为640×480像素的图片，其分辨率就达到了307200像…

人工智能 2023年5月28日
0055
python 深度学习环境安装（tensorflow-gpu）

文章目录一、安装Anaconda * 1.换源 2.常用指令二、安装cuda和cudnn * 1.对应版本 2.创建虚拟环境 3.激活虚拟环境 4.安装cuda 4.安装cud…

人工智能 2023年5月23日
0067
图像识别基础代码汇总（python+opencv）

为了方便复制粘贴，汇总一下基础图像处理代码（如有遗漏欢迎指出，后续再添加修改）没有原理讲解，我也是个小白，方便日后写代码直接复制使用做的笔记一、导入需要用的设置二、读入、显示、…

人工智能 2023年7月4日
0052
CVPR2022：局部和全局知识蒸馏用于目标检测（源代码开源）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/…

人工智能 2023年7月12日
0091
【语义分割】类别不平衡损失函数合集

在语义分割领域，我们会常常遇到类别不平衡的问题。比如要分割的目标（前景）可能只占图像的一小部分，因此负样本的比重很大，导致网络倾向于将所有样本判断为负样本。本文介绍了在数据不平衡时…

人工智能 2023年7月27日
0055
VIT实战总结：非常简单的VIT入门教程，一定不要错过

文章目录摘要项目结构计算mean和std 生成数据集数据增强Cutout和Mixup 导入项目使用的库设置全局参数图像预处理与增强读取数据设置模型定义训练和验证函…

人工智能 2023年7月21日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ISODATA算法 python实现

文章目录

1.流程图（这里按迭代的奇偶来判断分裂或者合并）

1.代码实现

2.迭代过程

大家都在看