single-pass聚类算法实现天气聚类

2023年6月30日下午9:26 • 人工智能 • 阅读 60

聚类算法

聚类算法介绍
*
（1）系统聚类法
（2）K-means聚类法
（3）single-pass聚类法
–
- 含义适用
- 处理步骤
样本描述
代码实现
*
定义类和函数
调用与画图
总结

聚类算法介绍

（1）系统聚类法

系统聚类法的基本思想是：距离近的样品先聚成类，距离远的后聚成类。

根据类间定义的不同，系统聚类法又可以分成最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法8种。

需要注意的是：

（1）该方法不需要事先指定聚类个数，而是根据最终的分类过程确定。

（2）为了直观的反映，可以把分类系统画成一张谱系图，所以系统聚类也称谱系分析。

（2）K-means聚类法

K-means聚类法是非常经典的聚类算法，有关资料很丰富，故本文不再赘述。

需要注意的是：

（1）该方法通过计算欧氏距离，比较样品间的相似度进行聚类。不过我也有看过，通过计算相关系数来聚类的。

（2）该法需要指定聚类个数，而K的确定是个难点，有很多针对K优化的方法。

（3）single-pass聚类法

含义适用

Single-pass clustering，中文名一般译作”单遍聚类”，它是一种简洁且高效的文本聚类算法。相比于常用的K-means聚类法，它的计算速度非常快，且不需要指定聚类个数，而是通过设定相似度阈值来限定。

Single-pass聚类算法同时是一种增量聚类算法（Incremental Clustering Algorithm），每个文档只需要流过算法一次，常用与文本主题的聚类中。它可以很好的应用于话题监测与追踪、在线事件监测等社交媒体大数据领域，特别适合流式数据（Streaming Data），比如微博的帖子信息等。

流数据:一组顺序、大量、快速、连续到达的数据序列。一般情况下，流数据可被视为一个随时间延续而无限增长的动态数据集合。
来源：百度百科

处理步骤

Single-pass算法顺序处理文本，以第一篇文档为种子，建立一个新主题。之后再进行新进入文档与已有主题的相似度，将该文档加入到与它相似度最大的、且大于一定阈值的主题中。如果与所有已有话题相似度都小于阈值，则以该文档为聚类种子，建立新的主题类别。其算法流程如下：

（1）以第一篇文档为种子，建立一个主题；

（2）将文档X向量化；

（3）将文档X与已有的所有话题均做相似度计算，可采用 欧氏距离或 余弦距离等距离度量方法

（4）找出与文档X具有最大相似度的已有主题；

（5）若相似度值大于阈值θ ，则把文档X加入到有最大相似度的主题中，跳转至（7）；

（6）若相似度值小于阈值θ ，则文档X不属于任一已有主题，需创建新的主题类别，同时将当前文本归属到新创建的主题类别中；

（7）聚类结束，等待下一篇文档进入

注：上述中讲相似度最大的划为一类，在实际代码中，所谓相似度最大大于某个阈值，也可以理解为距离最近（小）小于某个阈值。

样本描述

将样本信息保存至TXT文件中，截图后如上所示。

有多少行我没数，用python中describe()一下就知道了，列数是十列。

日期后面两类是最高温和最低温，最后两列表示该地的经度和纬度。

; 代码实现

定义类和函数

首先定义了一个簇单元 ClusterUnit ，定义了一个单类 OnePassCluster ，定义了向量a与b间的欧式距离euclidian_distance。


import numpy as np
from math import sqrt
import time
import matplotlib.pylab as pl

class ClusterUnit:
    def __init__(self):
        self.node_list = []
        self.node_num = 0
        self.centroid = None

    def add_node(self, node, node_vec):
"""
        为本簇添加指定节点，并更新簇心
         node_vec:该节点的特征向量
         node:节点
         return:null
"""
        self.node_list.append(node)
        try:
            self.centroid = (self.node_num * self.centroid + node_vec) / (self.node_num + 1)
        except TypeError:
            self.centroid = np.array(node_vec) * 1
        self.node_num += 1

    def remove_node(self, node):

        try:
            self.node_list.remove(node)
            self.node_num -= 1
        except ValueError:
            raise ValueError("%s not in this cluster" % node)

    def move_node(self, node, another_cluster):

        self.remove_node(node=node)
        another_cluster.add_node(node=node)

def euclidian_distance(vec_a, vec_b):
    diff = vec_a - vec_b
    return sqrt(np.dot(diff, diff))

class OnePassCluster:
    def __init__(self, t, vector_list):

        self.threshold = t
        self.vectors = np.array(vector_list)
        self.cluster_list = []

        t1 = time.time()
        self.clustering()
        t2 = time.time()
        self.cluster_num = len(self.cluster_list)
        self.spend_time = t2 - t1

    def clustering(self):
        self.cluster_list.append(ClusterUnit())
        self.cluster_list[0].add_node(0, self.vectors[0])
        for index in range(len(self.vectors))[1:]:
            min_distance = euclidian_distance(vec_a=self.vectors[index],
                                              vec_b=self.cluster_list[0].centroid)
            min_cluster_index = 0
            for cluster_index, cluster in enumerate(self.cluster_list[1:]):

                distance = euclidian_distance(vec_a=self.vectors[index],
                                              vec_b=cluster.centroid)
                if distance < min_distance:
                    min_distance = distance
                    min_cluster_index = cluster_index + 1
            if min_distance < self.threshold:
                self.cluster_list[min_cluster_index].add_node(index, self.vectors[index])
            else:
                new_cluster = ClusterUnit()
                new_cluster.add_node(index, self.vectors[index])
                self.cluster_list.append(new_cluster)
                del new_cluster

    def print_result(self, label_dict=None):

        print("***********  single-pass的聚类结果展示  ***********")
        for index, cluster in enumerate(self.cluster_list):
            print("cluster:%s" % index)
            print(cluster.node_list)
            if label_dict is not None:
                print(" ".join([label_dict[n] for n in cluster.node_list]))
            print("node num: %s" % cluster.node_num)
            print( "-------------")
        print( "所有节点的个数为： %s" % len(self.vectors))
        print("簇类的个数为：%s" % self.cluster_num)
        print("花费的时间为： %.9fs" % (self.spend_time / 1000))

运行之后，一共聚类十类，聚类个数从0-9。

如下图为第八个类别所包含的城市以及他们对应的索引：

整体运行结果如下：

调用与画图

之后通过实例化类和调用函数，来实现聚类


temperature_all_city = np.loadtxt('data1.txt', delimiter=",", usecols=(3, 4),encoding='utf-8')
xy = np.loadtxt('data1.txt', delimiter=",", usecols=(8, 9),encoding='utf-8')
f = open('data1.txt', 'r',encoding='utf-8')
lines = f.readlines()
zone_dict = [i.split(',')[1] for i in lines]

f.close()

clustering = OnePassCluster(vector_list=temperature_all_city, t=9)
clustering.print_result(label_dict=zone_dict)
print(temperature_all_city)

fig, ax = pl.subplots()
fig = zone_dict
c_map = pl.get_cmap('jet', clustering.cluster_num)
c = 0

for cluster in clustering.cluster_list:
    for node in cluster.node_list:

        ax.scatter(xy[node][0], xy[node][1])
    c += 1

pl.savefig('./map.jpg')
pl.show()

根据样本中经纬度的信息，并结合聚类算法的结果，可画图如下：

总结

本文主要给出single-pass聚类算法的实例，该例很好复现。希望对各位兄弟姐妹们有所帮助。

参考：https://blog.csdn.net/maqian5/article/details/107333316

本文数据与代码均引用他处，如未标注来源，请联系我更改加上。

需要本文数据和代码，可在本文评论区留言。希望对各位兄弟姐妹们有所帮助。

Original: https://blog.csdn.net/golden_knife/article/details/124434270
Author: 不想秃头的夜猫子
Title: single-pass聚类算法实现天气聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662092/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Visual Studio 2019 从依赖包开始手动编译opencv

1.1 准备工具 1.2 安装CUDA工具包英特尔集成性能基元可用于提高OpenCV库的颜色转换、Haar训练和DFT函数的性能。请注意这不是一项免费服务。在名称[Name (…

人工智能 2023年7月20日
0068
知识图谱框架DeepKE简单使用+关系抽取+小小bug修复

一、关系抽取知识图谱里面主要涉及两个很重要的领域：实体识别、关系抽取。当然，一般来说实体识别是关系抽取的前提条件，实体识别是序列标注的一种，通过将语句中的各种词的词性进行标注作为…

人工智能 2023年6月1日
0060
四.STM32F030C8T6 MCU开发之利用 TIM1+ADC1+DMA1 实现5路（3路外部电压模拟信号+内部2路信号）采集

四.STM32F030C8T6 MCU开发之利用 TIM1+ADC1+DMA1 实现5路（3路外部电压模拟信号+内部2路信号）采集文章目录四.STM32F030C8T6 MCU…

人工智能 2023年6月26日
00140
分类模型——Softmax回归

分类模型——Softmax回归第一章机器学习是什么第二章深度学习是什么第三章前馈神经网络第四章卷积神经网络第五章交叉熵函数文章目录分类模型——Softmax回归前…

人工智能 2023年6月17日
0060
亲测有效解决torch.cuda.is_available()返回False的问题（分析+多种方案），点进不亏

文章目录解决torch.cuda.is_available()返回False * 出现返回False的原因 – 问题1：版本不匹配问题2：错下成了cpu版本的（小编…

人工智能 2023年7月26日
0056
关于深度学习神经网络模型训练，参数过大，导致显卡内存溢出问题的总结

实验是利用CIFAR10模型,计算将图片分成10个分类的误差。一开始采用cpu模型来训练，迭代一个epoch需要50分钟，所以换成GPU模型，GPU有4G内存，结果刚加载模型显卡内…

人工智能 2023年5月25日
0089
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv

论文地址：https://arxiv.org/pdf/2208.03641v1.pdf代码地址：https://github.com/labsaint/spd-conv 卷积神经网…

人工智能 2023年7月28日
00125
Python数据分析入门笔记4——数据预处理之重复值

系列文章目录 Python数据分析入门笔记1——学习前的准备Python数据分析入门笔记2——pandas数据读取Python数据分析入门笔记3——数据预处理之缺失值 Python…

人工智能 2023年7月6日
0087
系统(层次)聚类

概念系统聚类的合并算法通过计算两类数据点间的距离，对最为接近的两类数据点进行组合，并反复迭代这一过程，直到将所有数据合成一类，并生成聚类谱系图。其中距离的计算有多种：1.样品与样…

人工智能 2023年5月31日
0072
混合密集网络（Mixture Density Networks）

前言考古了1994年的一篇文章，写的很朴实，不像现在很多的AI文章有一种过度包装的感觉，论文题目《Mixture Density Networks》。理论混合密集网络是一种将…

人工智能 2023年7月13日
0057
基于Web的爬虫系统设计与实现

摘要：随着信息技术的飞速发展，互联网上的信息数量出现了爆炸式的增长。如何从海量数据中提取并利用有用信息成为一大挑战。网络爬虫的出现有效地解决了这一问题，它可以按照人们设计的规则，凭…

人工智能 2023年7月18日
0057
pytorch 深度学习的一些小笔记

一个比赛案例：Quick, Draw! Doodle Recognition Challenge 总结 | TangShusen softmax回归适用于分类问题。它使用softm…

人工智能 2023年6月17日
0071
GAN的项目结构（用李宏毅老师的头像生成hw举例）

一、一堆废话研一刚开学，选了导师以后开始定方向，本来是想去做mhy那个动作生成的岗位，然后去给导师说做姿态识别，老师给我表示支持以后叫我开始看双流法啥的，后来想了想，发现应该是学…

人工智能 2023年6月4日
00111
机器学习建模流程

机器学习实战机器学习三把斧 ; 1.数据清洗 1.1缺失值的处理某一列的特征缺失值达到40%左右，删除这个特征值；或者某一个样本的缺失值过大，那么删除这个样本。而当某个特征的…

人工智能 2023年6月19日
0070
（附源码）python音乐电台推荐系统的设计与实现毕业设计 301210

经历了几个月的毕业设计之旅，遭遇了无数难题与挑战，几经波折后，近乎要摧毁我当初选择这个题目的信心。好在我的导师一直坚持对我悉心支持，并对此套系统提出了诸多改善意见，解决了我所遇到的…

人工智能 2023年7月5日
00101
语音识别原理与应用洪青阳第一章概论

目录第一章语音识别概论 1.1 语音的产生和感知 1.2 语音识别过程 1.3语音识别发展历史第一章语音识别概论语音识别的基础理论包括语音的产生和感知过程、语音信号基础…

人工智能 2023年5月25日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30