sklearn机器学习（五）

2023年6月2日上午10:42 • 人工智能 • 阅读 101

Task05
本次学习参照Datawhale开源学习：https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn
内容安排如下，主要是一些代码实现和部分原理介绍。

; 5. k均值聚类

无监督学习训练样本的标签信息是未知的，目标是通过对无标签训练样本的学习来揭示数据的内在性质及规律，此类学习应用最广的是聚类。聚类试图将数据集中的样本划分为若干个通常不相交的子集，每个子集称为一个”簇”。

5.1. 性能度量

聚类的目的是把数据集中相似的样本聚成一个簇，将不相似的样本分为不同的簇。因此聚类时需要保证同一簇中的样本相似度要尽可能高，而簇与簇之间的样本相似度要尽可能的低。聚类性能度量大致有两类：

外部指标：将聚类结果和某个”参考模型”进行比较。
内部指标：直接考察聚类结果而不利用任何参考模型。

内部指标：

Jaccard系数J C = a a + b + c JC=\frac{a}{a+b+c}J C =a +b +c a
FM指数F M I = a a + b ⋅ a a + c FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}F M I =a +b a ⋅a +c a
Rand指数R I = 2 ( a + d ) m ( m − 1 ) RI=\frac{2(a+d)}{m(m-1)}R I =m (m −1 )2 (a +d )

外部指标：

DB指数D B I = 1 k ∑ i = 1 k m a x j ≠ i ( a v g ( C i ) + a v g ( C j ) ) d c e n ( μ i , μ j ) ) DBI=\frac{1}{k}\sum_{i=1}^{k}\underset {j\not=i}{max}(\frac{avg(C_i)+avg(C_j))}{d_{cen}(\mu_i,\mu_j)})D B I =k 1 i =1 ∑k j =i ma x (d c e n (μi ,μj )a v g (C i )+a v g (C j )))
Dunn指数D I = m i n i ⩽ j ⩽ k ( m i n j ≠ i d m i n ( C i , C j ) m a x i ⩽ j ⩽ k d i a m ( C l ) ) DI=\underset {i\leqslant{j}\leqslant{k}}{min}(\underset {j\not=i}{min}\frac{d_{min}(C_i,C_j)}{\underset {i\leqslant{j}\leqslant{k}}{max}diam(C_l)})D I =i ⩽j ⩽k min (j =i min i ⩽j ⩽k ma x d i a m (C l )d m i n (C i ,C j ))

; 5.2. 距离计算

对函数d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot)d i s t (⋅,⋅)，若它是一个”距离度量”，则需满足基本性质：
非负性： d i s t ( x i , x j ) ⩾ 0 非负性：dist(x_i,x_j)\geqslant0 非负性：d i s t (x i ,x j )⩾0 同一性： d i s t ( x i , x j ) = 0 当且仅当 x i = x j 同一性：dist(x_i,x_j)=0当且仅当x_i=x_j 同一性：d i s t (x i ,x j )=0 当且仅当x i =x j 对称性： d i s t ( x i , x j ) = d i s t ( x j , x i ) 对称性：dist(x_i,x_j)=dist(x_j,x_i)对称性：d i s t (x i ,x j )=d i s t (x j ,x i )直递性： d i s t ( x i , x j ) ⩽ d i s t ( x i , x k ) + d i s t ( x k , x j ) 直递性：dist(x_i,x_j)\leqslant{dist(x_i,x_k)}+dist(x_k,x_j)直递性：d i s t (x i ,x j )⩽d i s t (x i ,x k )+d i s t (x k ,x j )给定样本x i = ( x i 1 ; x i 2 ; . . . ; x i n ) x_i=(x_{i1};x_{i2};…;x_{in})x i =(x i 1 ;x i 2 ;…;x i n )与x j = ( x j 1 ; x j 2 ; . . . ; x j n ) x_j=(x_{j1};x_{j2};…;x_{jn})x j =(x j 1 ;x j 2 ;…;x j n )，最常用的是” 闵可夫斯基距离“：d i s t m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p dist_{mk}(x_i,x_j)=(\sum_{u=1}^{n}|x_{iu}-x_{ju}|^p)^\frac{1}{p}d i s t m k (x i ,x j )=(u =1 ∑n ∣x i u −x j u ∣p )p 1 当p = 1 p=1 p =1时就是曼哈顿距离，当p = 2 p=2 p =2时就是欧氏距离，当p p p趋近于无穷大时就是切比雪夫距离。

（绿色路径为两点间欧氏距离，红色黄色路径为两点间曼哈顿距离）

（当p为其它值时）

5.3. k均值聚类

给定样本集D = { x 1 , x 2 , . . . , x m } D=\left{\begin{matrix}x_1,x_2,…,x_m \end{matrix}\right}D ={x 1 ,x 2 ,…,x m }，”k均值”算法针对聚类所得簇划分C = { C 1 , C 2 , . . . , C k } C=\left{\begin{matrix}C_1,C_2,…,C_k \end{matrix}\right}C ={C 1 ,C 2 ,…,C k }最小化平方误差：E = ∑ i = 1 k ∑ x ∈ C i ∣ ∣ x − μ i ∣ ∣ 2 2 E=\sum_{i=1}^{k}\sum_{x\in{C_i}}^{}||x-\mu_i||2^2 E =i =1 ∑k x ∈C i ∑∣∣x −μi ∣∣2 2 其中均值向量：μ i = 1 C i ∑ x ∈ C i x \mu_i=\frac{1}{C_i}\sum{x\in{C_i}}x μi =C i 1 x ∈C i ∑xE值越小则簇内样本相似度越高。如何找到最优解：

动态图演示过程：

; 5.4. sklearn k均值聚类

'''生成数据'''
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
X, y = make_blobs(n_samples=1000,
                 n_features=2,
                 centers=5,
                 random_state=42)
fig, ax=plt.subplots(1)
for i in range(5):
    ax.scatter(X[y==i, 0], X[y==i,1],marker='o',s=8,)
plt.show()

'''聚类'''
from sklearn.cluster import KMeans
cluster = KMeans(n_clusters=5,random_state=0).fit(X)
y_pred = cluster.fit_predict(X)

centroid=cluster.cluster_centers_
inertia=cluster.inertia_

'''画出聚类质心'''
fig, ax=plt.subplots(1)
for i in range(n_clusters):
    ax.scatter(X[y_pred==i, 0], X[y_pred==i, 1],
               marker='o',
               s=8)
ax.scatter(centroid[:,0],centroid[:,1],marker='x',s=100,c='black')

5.5. 参数说明

class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init=10, max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='auto')

n_clusters：int，default=8。质心（centroids）数。
init：三个可选值：”k-means++”， “random”，或者一个ndarray向量。默认值为 ‘k-means++’。

“k-means++” 用k-means++方法选定初始质心从而能加速迭代过程的收敛。
“random”随机从训练数据中选取初始质心。
如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心。

n_init：int，default=10。用不同的质心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。
max_iter：int，default=300。最大迭代次数。
tol：float，default= 1e-4。容许误差，确定收敛条件。
verbose：int，default=0。结果的信息复杂度
random_state：int，default=None。numpy的随机数生成器。
copy_x：bool，default=True。当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。
algorithm：三个值可选：”auto”, “full”, “elkan”, default=”auto”。

Original: https://blog.csdn.net/weixin_45397053/article/details/122133711
Author: 黑小板
Title: sklearn机器学习（五）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560596/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（初学必看）deepgraphlibrary(dgl)库的入门引导

文章目录 * – + 前言 + 简单？ + * 内置数据集 * 定义模型 + 定义dgl中的一个图 + 附录前言下载这个库要去官方网站：https://www.dg…

人工智能 2023年7月24日
00115
【语法更正】gensim4.0以后获取词向量语法更正

最近用gensim的word2vec的模型训练词向量时，以前的别人的文章的代码： ngram_model_counter = Counter() for key in ngram_…

人工智能 2023年5月27日
0081
Bert预训练

Bert模型的目的：预训练Transformer的encoder网络，从而大幅提高准确率主要有两个任务： 1、预测被遮挡单词：随机遮挡一个词或多个词，让encoder根据上下…

人工智能 2023年5月27日
00102
机器学习实例—手写体识别

文章目录前言 1. 什么是机器识别手写数字？ 2. MNIST数据集是什么？ 3. 显示MNIST数据集 4. 名词解释 * 4. 1 图像 4. 2 卷积层 4. 3 池化层 …

人工智能 2023年7月26日
0090
使用 C# / Unity 进行图像处理

起因：有个需求要批量按比例调整UI页面大小。并不是简单的缩放，是所有素材都需要按比例缩小。于是，图片首当其冲。这里记录一下解决方案，因为参考了挺多别人的事例，虽然都描述的都差不多，…

人工智能 2023年6月17日
0090
第四章 ndarray的索引、切片和遍历

NumPy入门教程第一章 NumPy 介绍第二章 ndarray的创建及其属性第三章 ndarray的基本操作第四章 ndarray的索引、切片和遍历第五章 ndarray的重塑…

人工智能 2023年6月11日
00101
Python Request get post 代理基本使用

Python Request get post 代理常用示例文章目录 Python Request get post 代理常用示例一、Pip install request…

人工智能 2023年7月3日
00131
tensorflow2.0训练目标检测模型

1.环境搭建与软件安装操作系统：win10 64位内存：8G Anaconda3-5.0.1 (自带python3.6.5) tensorflow2.5.0 VS 2015 …

人工智能 2023年7月12日
0071
目标检测，使用最新的yolov7训练自己的数据集，从零开始的手把手教程

目录一、获取大佬的yolov7源码二、配置深度学习环境三、准备数据集四、用yolo v7训练自己的数据集五、用训练好的模型测试六、用训练好的模型预测一、获取大佬的yo…

人工智能 2023年7月25日
0087
GAnet A Keypoint-based Global Association Network for Lane Detection 代码调试与阅读笔记

首先从train.py文件开始阅读 trian.py args = parse_args(）调用parse_args()函数为解析命令行参数进行配置 def parse_args…

人工智能 2023年7月27日
0091
VScode中No module named ‘Torch’解决办法

### 回答1：这个错误提示是因为在你的代码中_使用了 _torch_模块，但是你的电脑 _中_没有安装 _torch_模块。需要先安装 _torch_模块才能正常运行代码。可…

人工智能 2023年7月21日
00279
逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

在现实生活中，我们常常会遇到这样一种现象，当尝试研究两个变量是否具有相关性的时候，会分别对此进行分组研究。然而，在分组比较中都显示非常有优势的一方，在总评时却成了失势的一方。直到…

人工智能 2023年7月16日
00144
动手学习深度学习（15）：尾声

到此为止，可以宣告结束了；其实大部分都是在2020年的疫情期间写的；这次又把卷积神经网络可视化的实现部分添加上去了。目前为止，基本实现了一个卷积神经网络，也算是弥补了自己上…

人工智能 2023年6月4日
0085
电动汽车动力电池SOC估算模型&电池参数辨识模型【10例】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0078
Logistic回归可用于二元分类问题和多元分类问题，二元分类中只有两个类别，而多元分类有三个或更多个类别

介绍 Logistic回归是一种常用的分类算法，用于解决二元分类和多元分类问题。在二元分类问题中，只有两个类别；而在多元分类问题中，有三个或更多个类别。Logistic回归通过将线…

人工智能 2024年1月6日
0064
Executors工具类的相关方法

前言：大家好，我是小威，24届毕业生。本篇将记录创建线程池的Executors工具类里面的方法，方便加深知识印象和复习使用。本篇文章记录的基础知识，适合在学Java的小白，也适合复…

人工智能 2023年6月26日
00122

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31