无监督学习有哪些扩展方法或改进算法来应对这些挑战

2024年1月5日下午12:20 • 人工智能 • 阅读 47

问题：无监督学习的扩展方法和改进算法

介绍

无监督学习是机器学习中的一种重要方法，它用于从无标签的数据集中发现模式、结构和关系。相比于监督学习，无监督学习的一个主要挑战是缺乏标签信息，因此需要探索一些扩展方法和改进算法来解决这个问题。

本文将介绍几种常见的无监督学习的扩展方法和改进算法，包括聚类算法、降维算法以及生成模型。以K-means聚类算法为例，详细介绍算法原理、公式推导、计算步骤和Python代码示例，并解释代码细节。

算法原理

K-means算法是一种常用的聚类算法，它将数据集分成K个簇，使得簇内的数据点相似度最高，而不同簇之间的相似度最低。

算法的基本原理如下：
1. 随机选择K个初始聚类中心点。
2. 将数据集中的每个样本点分配到最近的聚类中心。
3. 更新聚类中心为每个簇的中心点（即簇内的点的平均值）。
4. 重复步骤2和3，直到聚类中心的变化小于预先设定的阈值，或达到最大迭代次数。

聚类算法的效果可以通过目标函数来度量，通常使用簇内平方和（SSE）作为目标函数。簇内平方和度量了每个样本点与其所属簇中心之间的距离之和。

公式推导

为了更好地理解K-means算法，我们将推导出目标函数。假设有一个数据集$X={{x_1, x_2, …, x_n}}$，其中每个$x_i$表示一个样本点，$n$表示样本的数量。我们用$C={{c_1, c_2, …, c_k}}$表示聚类中心的集合，其中$k$表示聚类的数量。

首先，我们定义一个指示变量$r_{ik}$来表示样本点$x_i$是否被分配到聚类中心$c_k$。当$x_i$被分配到聚类中心$c_k$时，$r_{ik}$等于1，否则等于0。

根据上述定义，我们可以将目标函数定义为最小化簇内平方和（SSE）：
$$J=\sum_{i=1}^n\sum_{k=1}^k r_{ik} \lVert x_i-c_k \rVert^2$$

其中，$\lVert \cdot \rVert$表示欧氏距离。

我们的目标是找到适当的$r_{ik}$和$C$，使得目标函数$J$最小。

计算步骤

根据K-means算法的原理和目标函数，我们可以总结出以下计算步骤：

输入：数据集$X={{x_1, x_2, …, x_n}}$，聚类数量$k$
输出：聚类中心$C$

随机选择$k$个初始聚类中心点。
初始化$r_{ik}=0$，$C={{c_1, c_2, …, c_k}}$
重复以下步骤：
a. 对于每个样本点$x_i$，计算其到每个聚类中心$c_k$的距离，选择最近的聚类中心，并将$r_{ik}=1$。
b. 对于每个聚类中心$c_k$，更新其为所属簇内样本点的平均值。
c. 如果聚类中心的变化小于预先设定的阈值，或达到最大迭代次数，则停止迭代。
返回聚类中心$C$。

以上便是K-means算法的计算步骤。

Python代码示例

下面给出一个完整的Python代码示例，来演示如何使用K-means算法进行聚类。

首先，我们需要导入所需要的第三方库：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

然后，我们生成一个虚拟数据集来进行聚类：

X, _ = make_blobs(n_samples=200, n_features=2, centers=4, cluster_std=1.5)

接下来，我们定义K-means算法的函数：

def k_means(X, k, max_iters=100):
 # 随机选择k个初始聚类中心
 centers = X[np.random.choice(len(X), k, replace=False)]

 for _ in range(max_iters):
 # 计算每个样本到每个聚类中心的距离
 distances = np.linalg.norm(X[:, np.newaxis] - centers, axis=-1)
 # 分配每个样本到最近的聚类中心
 labels = np.argmin(distances, axis=-1)

 # 更新聚类中心为每个簇内样本点的平均值
 new_centers = np.array([X[labels==i].mean(axis=0) for i in range(k)])

 # 判断聚类中心是否发生变化
 if np.all(centers == new_centers):
 break

 centers = new_centers

 return centers, labels

最后，我们调用K-means函数进行聚类，并绘制聚类结果：

centers, labels = k_means(X, k=4)
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.scatter(centers[:, 0], centers[:, 1], marker='x', color='red', s=200)
plt.show()

以上代码演示了如何使用K-means算法进行聚类，并利用matplotlib库绘制了聚类结果的散点图。

代码细节解释

在上述代码中，我们首先通过make_blobs函数生成了一个具有4个簇的虚拟数据集。然后，我们定义了一个名为k_means的函数，该函数接受数据集、聚类数量和最大迭代次数作为输入参数。

在函数内部，我们根据K-means算法的步骤进行计算。首先，我们随机选择了k个初始聚类中心。然后，在每次迭代中，根据样本点与聚类中心的距离，将样本点分配到最近的聚类中心。接下来，我们更新聚类中心为每个簇内样本点的平均值。最后，我们判断聚类中心是否发生变化，如果没有变化，则结束迭代。最终，我们返回聚类中心和样本点的标签。

在主程序中，我们调用了k_means函数进行聚类，并利用plt.scatter函数绘制了聚类结果的散点图。

这些代码细节帮助我们理解了K-means算法的实现步骤，以及如何应用到具体的数据集中进行聚类分析。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824025/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

毕业设计大数据房价数据分析及可视化 – python 房价分析

文章目录 1 课题背景 2 数据爬取 * 2.1 爬虫简介 2.2 房价爬取 3 数据可视化分析 * 3.1 ECharts 3.2 相关可视化图表 4 最后 🧿 选题指导, 项目…

人工智能 2023年7月15日
0085
☀️机器学习入门☀️(二) KNN分类算法 | 附加小练习

目录 1. 聚类与分类 * 1.1 聚类 1.2 分类 2. 关于KNN算法 * 2.1 Lp距离定义： 2.1 K值的选取 3. 练习 * 第一题：第二题：最后聚类与分类 …

人工智能 2023年5月31日
0090
Mobilenet系列(3):使用pytorch搭建MobileNetV2并基于迁移学习训练

MobileNetV2网络结构如下，网络的详细讲解参考博客：MobileNet系列(2)：MobileNet-V2 网络详解图1 MobileNet V2网络架构从表格的网络结…

人工智能 2023年7月22日
00175
项目运行没内容—–java.bug1

Java项目不能运行? eclipse点击运行时弹出空白窗口，没有中间内容【情况一：第一次运行可以，第二次空白】【情况二：每一次都是空白】 ; 解决过程: 1.删掉自己新建项目，导…

人工智能 2023年6月30日
0085
本地电脑搭建Web服务器并用cpolar发布至公网访问

随着互联网的快速发展，网络也成为我们生活中不可缺少的必要条件，为了能在互联网世界中有自己的一片天地，建立一个属于自己的网页就成为很多人的选择。但互联网行业作为资本密集的行业，委托别…

人工智能 2023年6月30日
00107
Pytorch中的grid_sample算子功能解析

pytorch中的grid_sample是一种特殊的采样算法。调用接口为： torch.nn.functional.grid_sample(input,grid,mode=&#8…

人工智能 2023年7月30日
0060
【27】grad-cam的简单逻辑实现以及效果展示

如有错误，恳请指出。文章目录 1. grad-cam的简单实现 2. grad-cam的效果展示 3. Debug grad-cam的简单实现 grad-cam通过对类别c最后的…

人工智能 2023年5月28日
0091
Python实战RBF神经网络

程序员A：哥们儿，最近手头紧，借点钱？程序员B：成啊，要多少？ A：1000行不？ B：咱俩谁跟谁！给你凑个整，这1024，拿去吧。之前我们讲了神经网络，人工神经网络是受到人类大…

人工智能 2023年7月13日
0065
Python 考试练习题 1

一、选择题(每题2分，共70分) 1．下列哪个语句在Python中是非法的？（ B ）p41 A、x = y = z = 1 B、x = (y = z + 1) C、x, y = …

人工智能 2023年6月29日
00146
Anaconda 安装低版本tensorflow

在调试很多tensorflow框架下的代码的时候，会发现许多诸如contrib的模块，在2.0以后的版本都废弃了，针对这个问题翻阅了很多解决博问，发现大部分都是重新安装低版本的te…

人工智能 2023年5月23日
00109
机器学习之为什么要数据预处理？如何预处理数据？

在现实生活问题中，我们得到的原始数据往往非常混乱、不全面，机器学习模型往往无法从中有效识别并提取信息。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，在采集完数据…

人工智能 2023年6月15日
00111
No module named ‘torchvision.models.utils‘

笔者在使用 pytorch=1.10.0, torchvision=0.11.1 的环境运行代码时，运行到语句 from torchvision.models.utils impo…

人工智能 2023年6月16日
0084
gym-Pendulum v1 + DDPG(PyTorch)

Pendulum 是一个强化学习的经典游戏，游戏目标是希望控制红色的杆竖直向上。Pendulum环境定义了坐标系、动力学方程等，还有state，action，reward。需要自己…

人工智能 2023年7月22日
0093
将yolov5中的PANet层改为BiFPN

本文以YOLOv5-6.1版本为例一、Add 1.在common.py后加入如下代码结合BiFPN 设置可学习参数学习不同分支的权重两个分支add操作 class BiFP…

人工智能 2023年6月22日
0092
编程实战（4）——python识别图像中的坐标点并保存坐标数据

编程实战（4）——python识别图像中的坐标点并保存坐标数据文章目录编程实战（4）——python识别图像中的坐标点并保存坐标数据 * – 综述代码思路 + 库…

人工智能 2023年6月18日
0097
UAVDT目标检测数据集格式转化以及训练集验证集划分教程(原格式转化为Json(COCO)格式)

UAVDT目标检测数据集格式转化教程(原格式转化为Json(COCO)格式) 无人机目标检测数据集目前主要有两个，一个是VisDrone19/18，还有一个就是UAVDT。UAVD…

人工智能 2023年7月10日
00154

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31