K-MEANS算法

2023年5月31日上午9:57 • 人工智能 • 阅读 65

python实例：

import pandas as pd

df = pd.read_csv('./datasets/ch1ex1.csv')
points = df.values
df.head()

#散点图观察
import matplotlib.pyplot as plt
xs = points[:,0]
ys = points[:,1]
plt.scatter(xs, ys)
plt.show()

#聚类操作
df = pd.read_csv('./datasets/ch1ex1.csv')
points = df.values

from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(points)
labels = model.predict(points)
labels

array([2, 0, 1, 1, 0, 0, 1, 2, 0, 0, 1, 2, 0, 1, 0, 2, 1, 1, 2, 1, 0, 2, 0,
       2, 2, 0, 2, 2, 2, 0, 1, 1, 1, 0, 2, 0, 2, 2, 0, 2, 2, 1, 0, 0, 0, 2,
       2, 1, 2, 1, 1, 1, 2, 2, 2, 0, 2, 2, 0, 1, 0, 2, 2, 1, 1, 0, 1, 0, 0,
       2, 1, 0, 1, 2, 1, 0, 2, 2, 2, 1, 2, 0, 1, 0, 0, 0, 0, 2, 2, 1, 0, 1,
       0, 2, 2, 2, 1, 0, 0, 1, 0, 2, 0, 1, 2, 1, 1, 1, 0, 0, 2, 0, 1, 0, 0,
       0, 2, 0, 1, 1, 2, 2, 2, 2, 2, 0, 1, 2, 0, 0, 1, 1, 0, 2, 0, 2, 1, 0,
       1, 2, 1, 1, 2, 1, 1, 2, 1, 0, 2, 2, 2, 1, 1, 0, 1, 0, 2, 2, 1, 0, 1,
       1, 1, 0, 2, 2, 0, 1, 1, 2, 2, 1, 2, 2, 0, 2, 1, 1, 1, 2, 2, 1, 2, 1,
       1, 2, 0, 1, 2, 2, 2, 2, 0, 1, 2, 0, 0, 0, 2, 0, 2, 2, 0, 1, 1, 2, 1,
       2, 2, 0, 0, 2, 1, 0, 1, 2, 1, 0, 2, 0, 0, 0, 0, 1, 1, 1, 2, 2, 0, 2,
       1, 0, 2, 2, 0, 2, 1, 1, 1, 1, 1, 0, 2, 2, 1, 1, 2, 0, 1, 0, 0, 2, 2,
       0, 0, 0, 2, 1, 2, 0, 2, 1, 1, 1, 1, 1, 2, 2, 0, 2, 2, 0, 1, 1, 0, 2,
       1, 1, 0, 0, 2, 2, 2, 0, 0, 2, 1, 0, 0, 1, 2, 2, 2, 0, 2, 2, 2, 0, 0,
       0])

#聚类中心
centroids = model.cluster_centers_
centroids_x = centroids[:,0]
centroids_y = centroids[:,1]

plt.scatter(xs, ys, c=labels)
plt.scatter(centroids_x, centroids_y, marker='X', s=200)
plt.show()

K值对结果的影响

import pandas as pd

seeds_df = pd.read_csv('./datasets/seeds.csv')

varieties = list(seeds_df['grain_variety'])

del seeds_df['grain_variety']

seeds_df.head()

samples = seeds_df.values

from sklearn.cluster import KMeans

ks = range(1, 6)
inertias = []

for k in ks:
    # Create a KMeans instance with k clusters: model
    model = KMeans(n_clusters=k)

    # Fit model to samples
    model.fit(samples)

    # Append the inertia to the list of inertias
    inertias.append(model.inertia_)

import matplotlib.pyplot as plt

Plot ks vs inertias
plt.plot(ks, inertias, '-o')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.xticks(ks)
plt.show()

K-means的结果带有一定的随机性

model = KMeans(n_clusters=3)
labels = model.fit_predict(samples)

df = pd.DataFrame({'labels': labels, 'varieties': varieties})
ct = pd.crosstab(df['labels'], df['varieties'])
ct

make_pipeline更方便

import pandas as pd

df = pd.read_csv('./datasets/fish.csv')

species = list(df['species'])

del df['species']

df.head()

samples = df.values

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

scaler = StandardScaler()
kmeans = KMeans(n_clusters=4)

pipeline = make_pipeline(scaler, kmeans)
pipeline.fit(samples)

labels = pipeline.predict(samples)
df = pd.DataFrame({'labels': labels, 'species': species})
ct = pd.crosstab(df['labels'], df['species'])
ct

Original: https://blog.csdn.net/weixin_53660567/article/details/122963458
Author: 长沙有肥鱼
Title: K-MEANS算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550430/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

安装elevation_mapping与traversability_estimation

安装过程按照：（3）安装PCL，其中的libvtk7.1依赖使用原始的6版本即可，不需要7，有警告，不影响。（4）安装eigen3.2： sudo apt-get instal…

人工智能 2023年6月11日
00108
mmdetection官网教程

使用现有模型进行推理： from mmdet.apis import init_detector, inference_detector import mmcv 指定模型的配置文件…

人工智能 2023年5月28日
00102
列生成算法求解PDPTW问题

取送货车辆路径规划问题（Vehicle Routing Problems with Pickups and Deliveries，VRPPD）指的是货物再pickup points…

人工智能 2023年7月2日
00103
数字图像处理实验–实验项目一图像的基本操作和基本运算

目录前言实验项目一图像的基本操作和基本运算 1.【图像的读取操作】 2 【图像的基本运算】 3【图像的几何变换】 4【图像的灰度变换】前言数字图像处理（Digital …

人工智能 2023年6月17日
0099
图像分类（一） ResNest——基于Channel-Wise的Split Attention及其block实现

一、回顾Resnet和Resnext Resnet的Residual结构 Resnext中的Multi-branch结构二、Channel-Wise 通道注意力三、Resnes…

人工智能 2023年7月2日
0092
解决cv2的内置方法报黄、无提示的问题

目录问题描述问题分析解决方案问题描述 cv2的内置方法全部报黄，并且无提示的情况，但是程序能正常运行，如下图：虽然能用，但是非常影响视觉效果和使用。 ; 问题分析就我的…

人工智能 2023年7月19日
0063
2021最新Win10+Nvidia显卡环境下CUDA、cuDNN以及TensorFlow安装教程

为了不耽误大家的时间，在阅读之前请注意： 1.如果你的电脑没有Nvidia显卡，那么请关闭本页面，本教程对你无用； 2.如果你的电脑配置不是Win10+Nvidia显卡，比如win…

人工智能 2023年5月24日
0069
三维可视化的优势是什么？三维园区可视化,三维可视化展示

三维可视化是数据可视化下的一个分支，与时间、空间和地理位置密切相关，也是可视化风格中发展最快的类型。该系统基于模型，将数据与场景相结合，以数化方法，以多维方式呈现数据。 3D可视化…

人工智能 2023年6月11日
0078
论文解读：KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

一、背景药物间的相互作用(DDI)是指同时或先后服用两种或两种以上药物时，药物之间所产生的相互作用，而该相互作用可能会导致意想不到的副作用。总结归纳现有DDI预测方法，大致可分为两…

人工智能 2023年6月1日
0085
MySQL表的增删改查(进阶)

目录 1.数据库约束 * 1.1约束类型 1.2 NULL约束 1.3 UNIQUE：唯一约束 1.4 PRIMARY KEY: 主键约束 1.5 DEFAULT：默认值约束 1….

人工智能 2023年7月29日
0081
stm32的语音识别_基于STM32的智能家居语音控制系统

本设计是一个基于STM32的智能家居控制系统，主要以STM32为微控制器，集成WIFI模块、无线通信模块、语音识别模块、音频播放模块、红外发射模块、温湿度传感器等模块，并搭配手机A…

人工智能 2023年5月25日
0074
pyradiomics库的配置文件yaml讲解

本片博客讲解的是pyradiomics库的配置文件有关内容。pyradiomics库是医学图像（影响组学）领域中用于对图像特征进行提取的库，其内容复杂，库形完整，可基本适用于大多数…

人工智能 2023年6月16日
00242
Pandas 索引对齐、缺失值

开篇当在进行Series、DataFrame这两个对象的二元运算时，有稍不同于Numpy的处理方式。本篇将以组合不同来源的数据为起点，探究其中发生的索引对齐，过程中产生的缺失值…

人工智能 2023年7月16日
0074
SSMix：用于文本分类的基于显著性的广度Mixup

论文链接：https://arxiv.org/pdf/2106.08062.pdf http://SSMix: Saliency-Based Span Mixup for Text…

人工智能 2023年7月1日
0088
风控策略的开发与场景应用

近期一段时间，番茄风控给大家分享了两次关于策略探索与开发的主题课程，干货满满，精华尽出，番茄课堂分别对应：第78次课《信贷场景多维特征交叉策略的实战分析》第79次课《信贷风控策略体…

人工智能 2023年6月19日
0090
利用Python进行数据分析的学习笔记——chap9

数据聚合与分组运算 GroupBy技术 import numpy as np import pandas as pd from pandas import DataFrame,Se…

人工智能 2023年7月6日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

K-MEANS算法

python实例：

K值对结果的影响

K-means的结果带有一定的随机性

make_pipeline更方便

大家都在看