机器学习中的无监督学习是什么？

2023年6月16日上午1:06 • 人工智能 • 阅读 71

什么是无监督学习？

顾名思义，”无监督”学习发生在没有监督者或老师并且学习者自己学习的情况下。

例如，考虑一个第一次看到并品尝到苹果的孩子。她记录了水果的颜色、质地、味道和气味。下次她看到一个苹果时，她就知道这个苹果和之前的苹果是相似的物体，因为它们具有非常相似的特征。

她知道这和橙子很不一样。但是，她仍然不知道它在人类语言中的名称是什么，即”苹果”，因为不知道这个标签。

这种不存在标签（在没有老师的情况下）但学习者仍然可以自己学习模式的学习称为无监督学习。

在机器学习算法的上下文中，当算法从没有任何相关响应的普通示例中学习并自行确定数据模式时，就会发生无监督学习。

在下一节中，我们将讨论这种类型的学习与机器学习中其他类型的流行学习算法（即监督学习算法）有何不同。

; 监督学习与无监督学习

顾名思义，监督学习中的学习是在监督下进行的，即当算法从训练数据中预测样本的值时，它会被告知预测是否正确。

这是可能的，因为我们将正确的值存储为”标签”/”目标变量”，这些值与输入数据一起传递给算法。常见的监督学习任务是分类和回归。

在分类任务中，标签是样本所属的正确类别，而在回归中，因变量 (Y) 的实际值用作比较预测的基准。然后，该算法可以调整其参数以实现更高的预测准确度。

因此，监督学习的主要目标是建立一个稳健的预测模型。

另一方面，在无监督学习中，我们只传递输入数据，没有标签。无监督模型试图找到数据中的底层或隐藏结构或分布，以便更多地了解数据。

换句话说，无监督学习是我们只有输入数据而没有相应的输出变量，主要目标是从输入数据本身中学习更多或发现新的见解。

无监督算法的一个常见示例是聚类算法，它根据机器检测到的模式对数据进行分组。

例如，让我们考虑一个基于两个输入特征 X1 和 X2 的数据点的情况。

如果我们希望我们的算法将数据分类/分类为两个已知类别，我们将使用监督分类算法。
另一方面，如果我们希望算法告诉我们数据的结构，我们将使用无监督聚类算法。

; 我们什么时候使用无监督算法？

在以下条件下使用无监督学习：

我们没有输出/目标数据。
我们并不完全知道我们在寻找什么，并希望机器发现数据中的模式/洞察力。然后，机器发现的见解可用于解决各种挑战。
*我们只想从数据中过滤掉基本信息（与原始数据相比具有较低的维度），并仅使用它来训练监督学习模型。

在接下来的两节中，我们将研究两种流行的无监督算法，即聚类和降维，它们在这些情况下对我们有帮助。

聚类算法

聚类的概念

聚类是无监督学习领域中最流行的任务之一。在这里，基本假设是相似的数据点往往属于相似的组（称为集群），这取决于它们与局部质心的距离。

因此，不是在查看数据之前定义组，聚类允许我们找到和分析有机形成的组，即基于数据本身。

有不同的聚类算法，如 K-means 聚类、层次聚类、DBSCAN、OPTICS 等，它们根据自己对数据点之间相似性的定义对数据进行分组。

在下一小节中，我们将看一个 K-means 聚类的示例，它是一种广泛使用的聚类算法。它创建了”K”个类似的数据点集群。

K-means 聚类算法

当我们有未标记的数据（即没有定义的类别或组的数据）时，使用 K-means 聚类。该算法在数据中查找组/簇，组数由变量”k”（因此得名）表示。

该算法迭代地工作以根据所提供特征的相似性将每个观察分配给 k 个组之一。

K-means 算法的输入是数据/特征（Xis）和”K”的值（要形成的簇数）。

步骤可以概括为：

该算法从随机选择”K”个数据点作为”质心”开始，其中每个质心定义一个集群。
在此步骤中，将每个数据点分配给由质心定义的集群，以使该数据点与集群质心之间的距离最小。
在这一步中，通过取上一步中分配给该集群的所有数据点的平均值来重新计算质心。

该算法在步骤 (ii) 和 (iii) 之间迭代，直到满足停止标准，例如达到预定义的最大迭代次数或数据点停止更改集群。

使用 Python 代码进行交易或投资的 K-means 聚类示例

通常，交易者和投资者希望根据某些特征的相似性对股票进行分组。

例如，希望交易配对交易策略的交易者同时持有两只相似股票的多头和空头头寸，理想情况下希望扫描所有股票并找到在行业方面彼此相似的股票，部门、市值、波动性或任何其他特征。

现在考虑一个场景，交易者根据两个特征对 12 家美国公司的股票进行分组/聚类：

股本回报率 (ROE) = 净收入/股东权益总额，以及
股票的贝塔

投资者和交易者使用 ROE 来衡量公司相对于股东权益的盈利能力。当然，高 ROE 更适合投资一家公司。另一方面，Beta 代表股票相对于整体市场的波动性（以标准普尔 500 或道琼斯指数等指数为代表）。

手动检查每一个库存然后形成组是一个乏味且耗时的过程。相反，可以使用聚类算法（例如 k-means 聚类算法）根据给定的一组特征对股票进行分组/聚类。

下面，我们实现了一个 K-means 算法，用于在 Python 中对这些股票进行聚类。我们首先使用以下命令导入必要的库并获取所需的数据：

&#x4E0B;&#x8F7D;&#xFF1A;ADBE
&#x4E0B;&#x8F7D;&#xFF1A;AEP
&#x4E0B;&#x8F7D;&#xFF1A;CSCO
&#x4E0B;&#x8F7D;&#xFF1A;EXC
&#x4E0B;&#x8F7D;&#xFF1A;FB
&#x4E0B;&#x8F7D;&#xFF1A;GOOGL
&#x4E0B;&#x8F7D;&#xFF1A;INTC
&#x4E0B;&#x8F7D;&#xFF1A;LNT
&#x4E0B;&#x8F7D;&#xFF1A;&#x5FAE;&#x8F6F;
&#x4E0B;&#x8F7D;&#xFF1A;STLD
&#x4E0B;&#x8F7D;&#xFF1A;TMUS
&#x4E0B;&#x8F7D;&#xFF1A;XEL

如下所示，获取了所有 14 个代码的数据，因此 bad_tickers 列表为空：

[]

现在让我们看看我们的数据：

如上所示，我们已经成功下载了 12 只股票的数据。

我们现在将创建原始数据的副本（df）并使用它。第一步是对数据进行预处理，以便将其提供给 k-means 聚类算法。这涉及将数据转换为 NumPy 数组格式并对其进行缩放。

缩放相当于从该列中的每个数据点减去列平均值并除以列标准偏差。

对于缩放，我们使用 scikit-learn 库的 StandardScaler 类，如下所示：

[[ 1.48101786 0.53827712]
 [-1.02433415 -1.29230095]
 [0.25330094 0.40752155]
 [-1.25368786 -0.82158087]
 [0.58249097 1.45356616]
 [-0.36055752 0.72133493]
 [0.79700415 -0.37701191]
 [-0.93933836 -1.08309203]
 [ 1.80211305 0.11985928]
 [0.46916325 1.92428624]
 [-0.7733942 -0.42931414]
 [-1.03377812 -1.16154537]]

下一步是从 scikit learn 导入”KMeans”类，并拟合一个模型，其中超参数”K”的值（在 scikit learn 中称为 n_clusters）设置为 2（随机选择），我们将预处理数据拟合到该模型中。 df_values’：

而已！’km_model’ 现在已经训练好了，我们可以提取它分配给每只股票的集群，如下所示：

现在我们已经分配了集群，我们将使用 matplotlib 和 seaborn 库将它们可视化，如下所示：

我们可以清楚地看到 K-means 算法分配给数据点的两个集群之间的差异。集群 1 主要由所有公用事业公司组成，与集群 0 中的高增长科技公司相比，这些公用事业公司的 ROE 和贝塔值较低。

虽然我们没有告诉 K-means 算法这些股票所属的行业，但它是能够在数据本身中发现该结构。这就是无监督学习的力量和吸引力。

接下来出现的问题是如何在拟合模型之前确定超参数 K 的值？

我们在拟合模型时随机传递了超参数 K = 2 的值。这样做的一种方法是检查模型的”惯性”，它表示群集中的点与其质心的距离。

随着越来越多的集群被添加，惯性不断减少，形成了所谓的”弯头曲线”。我们选择 k 的值，超过该值我们看不到惯性值有多大好处（即减少）。

下面我们绘制了具有不同”K”值的 K 均值模型的惯性值：

我们可以看到，在 k=3 之后，惯性值显示出边际递减，k=3（三个集群）的 k-means 模型最适合这项任务。

; 降维

维度灾难是数据科学家和量化专家面临的一个常见问题，这意味着使用过多的特征可能会不必要地增加 ML 模型的存储空间和处理时间。因此，我们总是寻求在不丢失太多信息的情况下在较低维度上获得有用的数据表示。

这是通过使用降维技术来实现的，这是无监督学习的另一个流行用例。

降维将导致在速度和内存使用方面的高性能，但会丢失一些信息。我们需要确保收益超过丢失该信息的成本。

在下一节中，我们将介绍 PCA，它是最流行的无监督降维技术。

主要成分分析

减少数据维度的一种直观方法是将数据点投影到较低的子空间，如下图所示，我们将点从 3-D 空间（三个特征 x1、x2 和 x3）投影到 2 -D 子空间（只有 x1 和 x2）：

主成分分析 (PCA) 使用相同的方法；然而，在 PCA 中，我们找到了解释数据最大变化的新坐标。这是通过以下方式实现的：

首先意味着使数据居中，即使每列的平均值为0，然后
找到以均值为中心的变量的协方差矩阵© 的特征分解。方阵（协方差矩阵总是方阵）的特征分解由下式给出：

C = V.Λ.V T

这里”V”表示包含特征向量（协方差矩阵 C）的矩阵，它表示我们的新坐标或主成分，Λ 是包含 C 的特征值的对角矩阵。

Λ 中的每个对角线值都是一个特征值，表示相应主成分解释的方差。此过程确保生成的新坐标/特征/主要组件旨在捕获数据中的最大变化并且彼此正交（垂直）（即，我们的新特征彼此不相关）。

下一步是我们根据预先确定的截止值选择前几个主成分（依次解释最大变化）。

例如，如果我们一开始有五个特征，我们最终也会有五个主成分，但我们决定只保留前三个，因为它们解释了数据中 90% 的变化。这实际上意味着我们将特征空间的维度从 5 减少到 3，而不会丢失太多信息。

在下一小节中，我们将看一个在交易中实施 PCA 的示例。

; 使用 Python 代码进行交易或投资的 PCA 示例

假设在一家自营贸易公司工作的量化研究员 Jim 正在寻求开发一个有监督的 ML 模型来预测整个市场的方向。他决定使用一篮子 7 只科技股的过去一天的回报（假设它们与前面示例中属于集群 0 的股票相同）作为模型的特征。

为了更有效地利用资源，Jim 想要在将特征输入到他的监督模型之前减少他的特征空间的维度。

什么可以帮助他在这里快速探索减少手头数据维度的可能性？ * 是的，你是对的，它是 PCA！*

下面我们将展示 Jim 如何使用 Python 中的 scikit learn 包进行 PCA。

但首先，我们导入必要的库并获取数据，如下所示：

['ADBE'&#x3001;'CSCO'&#x3001;'FB'&#x3001;'GOOGL'&#x3001;'INTC'&#x3001;'MSFT'&#x3001;'STLD']

下面，我们绘制股票的累积回报来衡量表现以及数据的变化：

PCA 的第一步是对数据进行均值中心化。但是，我们将使用 scikit-learn 库中的 PCA 类，它会自动缩放数据（意味着居中），因此无需手动进行（如果您使用其他包，那么您可能有自己通过矩阵运算或使用 sklearn. 进行预处理，如聚类示例中所做的那样）。

我们将根据 scikit learn 库的要求将数据简单地转换为 NumPy 数组格式，导入 PCA 类并创建一个名为”模型”的实例，我们将在其中拟合原始数据 X：

PCA(n_components=7)

模型”n_components”的超参数表示新坐标/主成分空间的维度。

首先，我们将模型初始化为超参数”n_components”的值设置为 7，这与 X 中的原始特征数量相同（因为我们有 7 个股票）。

我们可以使用以下命令访问主成分矩阵/特征向量矩阵：

&#x6570;&#x7EC4;([[ 0.43250364, 0.26595616, 0.43994419, 0.39167868, 0.39734818,
         0.37164424, 0.31502354],
       [ 0.31078208&#xFF0C;-0.1784099&#xFF0C;0.31343949&#xFF0C;0.10492004&#xFF0C;-0.16196493&#xFF0C;
         0.17032255&#xFF0C;-0.84088612]&#xFF0C;
       [ 0.07033748&#xFF0C;-0.13062127&#xFF0C;0.35532243&#xFF0C;0.14605034&#xFF0C;-0.83342892&#xFF0C;
         0.01607169, 0.3681629],
       [-0.32754799, -0.62923875, 0.52613624, 0.06641712, 0.34086264,
        -0.30207809, 0.09001009],
       [ 0.23384309&#xFF0C;-0.65419348&#xFF0C;-0.5269365&#xFF0C;0.33600016&#xFF0C;0.0217246&#xFF0C;
         0.32947421, 0.13328505],
       [-0.58953337&#xFF0C;0.22761183&#xFF0C;-0.08110947&#xFF0C;0.7444334&#xFF0C;-0.0673928&#xFF0C;
         0.05821513&#xFF0C;-0.178753]&#xFF0C;
       [-0.44931934&#xFF0C;-0.06824695&#xFF0C;0.14453582&#xFF0C;-0.37783656&#xFF0C;-0.00877099&#xFF0C;
         0.79335935, 0.01753355]])

上面的主成分已经自动按照它们解释的方差顺序排列（从高到低）。所以现在，我们实际上可以提取并绘制每个主成分捕获的方差百分比，如下所示：

&#x6570;&#x7EC4;&#xFF08;[0.51, 0.21, 0.12, 0.06, 0.05, 0.03, 0.02]&#xFF09;

接下来，我们将解释的累积方差可视化：

我们可以在上面看到前 4 个主成分解释了几乎 90% 的方差！

这意味着 Jim 只能使用具有 4 个主成分的 PCA 模型，以不解释数据中 10% 的方差为代价将维度从 7 减少到 4。听起来很划算！

下面，我们用 ‘n_components’ = 4 拟合一个新的 PCA 模型，并将其称为 ‘model_2’：

我们现在可以访问主成分和连续主成分解释的变异百分比：

&#x6570;&#x7EC4;([[ 0.43250364, 0.26595616, 0.43994419, 0.39167868, 0.39734818,
         0.37164424, 0.31502354],
       [ 0.31078208&#xFF0C;-0.1784099&#xFF0C;0.31343949&#xFF0C;0.10492004&#xFF0C;-0.16196493&#xFF0C;
         0.17032255&#xFF0C;-0.84088612]&#xFF0C;
       [ 0.07033748&#xFF0C;-0.13062127&#xFF0C;0.35532243&#xFF0C;0.14605034&#xFF0C;-0.83342892&#xFF0C;
         0.01607169, 0.3681629],
       [-0.32754799, -0.62923875, 0.52613624, 0.06641712, 0.34086264,
        -0.30207809, 0.09001009]])
&#x6570;&#x7EC4;&#xFF08;[0.5074455&#xFF0C;0.21408255&#xFF0C;0.12162805&#xFF0C;0.05979477]&#xFF09;

最后，我们可以访问我们的新特征（Z），它对应于投影在主成分空间中的原始数据 X：

&#x6570;&#x7EC4;&#xFF08;[[-1.12727573e-01&#xFF0C;-6.67038416e-03&#xFF0C;-1.48430796e-03&#xFF0C;
         1.14035934e-03],
       [ 2.97074556e-02&#x3001;1.50265487e-02&#x3001;-5.93081631e-02&#x3001;
        -2.99243627e-02],
       [-5.47331714e-02&#xFF0C;-4.75781399e-03&#xFF0C;-1.65305232e-02&#xFF0C;
         7.99569198e-03],
       ...,
       [-1.09056976e-02&#xFF0C;-8.34552109e-05&#xFF0C;1.17423510e-02&#xFF0C;
        -2.00353992e-03],
       [-4.17360862e-03&#x3001;2.44548028e-03&#x3001;1.19544647e-02&#x3001;
         1.89425233e-02],
       [ 3.66918890e-02&#x3001;1.94108416e-02&#x3001;1.62907120e-02&#x3001;
         4.10635097e-02]])

让我们看一下原始数据和降维数据的形状：

(272, 7)
(272, 4)

查看原始数据的形状和新的降维数据，我们可以看到像 PCA 这样的无监督学习算法如何帮助我们更有效地利用资源并创建新特征来构建简约的监督模型。

这就是吉姆想要的！他现在可以愉快地继续使用这些新功能构建他的监督模型。

其他类型的无监督算法

在前两节中，我们讨论了两种最流行的无监督算法类型，即聚类和降维算法。除此之外，还有其他类型的无监督学习算法，用于特定目的。

一个有用的实现是潜在变量建模。潜在变量是不能直接观察到但对其他一些观察到的变量有影响的变量。

无监督学习可用于了解观察变量中的结构和模式，从而对潜在变量进行建模。一个很好的例子是隐马尔可夫模型，它可以用来检测金融市场背景下的市场制度。

无监督学习的另一个常见用例是 关联规则学习。这里的目的是挖掘大量数据并发现特征之间的有用关系。

例如，超市公司可以部署这种类型的分析来分析顾客的购物篮，看看哪些商品可能会一起购买。该公司可以将这些物品彼此相邻放置（例如，将黄油和奶酪放在面包区旁边）以提高销售量。

无监督学习的挑战

尽管我们已经看到无监督学习如何帮助我们学习输入数据中的模式，但它也有其自身的挑战：

由于无监督学习中没有标签/目标变量，因此没有像我们在监督学习算法中那样计算模型性能的固定方法。
用户通常必须花费大量时间来解释输出。例如，从 PCA 获得的新特性需要在业务上下文中进行解释，而这本身就需要时间。

这就是为什么无监督学习经常与监督学习结合使用的原因。

结论

在本博客的过程中，我们看到了无监督学习算法如何不仅为我们提供对输入数据的洞察，而且还为有监督的机器学习算法提供了新的有用输入。

欢迎来人工智能量化交易平台-BigQuant实现！

Original: https://blog.csdn.net/bigquant/article/details/125599167
Author: BigQuant
Title: 机器学习中的无监督学习是什么？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618711/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Apollo规划模块基本原理学习笔记(1)

参考Apollo官方公开课直播回顾丨Apollo自动驾驶论坛①规划模块算法解析 (qq.com) Apollo规划解析_210207_哔哩哔哩_bilibili 近期开始学习Ap…

人工智能 2023年6月11日
0069
树莓派——嵌入式智能家居项目，语音远程控制红外设备

文章目录前言一、硬件和软件的准备 * 硬件准备软件准备二、实现方法图三.步骤 * 1.收集红外码 2.对YS-LDV7语音模块二次开发（参照手册修改部分源码） 3.制作服…

人工智能 2023年5月27日
0079
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年7月20日
0040
C++使用pointnet++训练模型进行点云分类

环境: ubuntu-18.04 nvidia驱动-470 cuda-10 cudnn-7.4 tensorflow1.13.1 1.版本信息 cuda和driver版本 tens…

人工智能 2023年7月1日
0073
【Pytorch深度学习50篇】·······第六篇：【常见损失函数篇】—–BCELoss及其变种

新年新气象，兄弟们新年快乐。撒花！！！之前我们的项目已经讲过了常见的4种深度学习任务（当然还有一些没有接触到的，例如GAN和今年大红的Transformer），今天这个blog我…

人工智能 2023年7月27日
0076
时间序列分类几种方法解读

主要挑战： KPI 通常是周期性的，取决于应用程序和系统，它们的周期可以从数天到数周。因此，每个 KPI 通常有数千个点需要完全捕捉才能刻画它在一段时间内的行为。但是因为一些不可…

人工智能 2023年7月1日
0076
win10 安装 GPU版TensorFlow

WIN10安装CUDA9+CUDNN+TENSORFLOW1.9.0 安装环境：笔记本电脑win10专业版操作系统 + 1050显卡 1、安装CUDA9 地址：https://de…

人工智能 2023年5月24日
0076
箱形图（python画图）

什么是箱型图如下灰色框里的就是箱形图（英文：Box plot）：又称为盒须图、盒式图、盒状图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图最大…

人工智能 2023年7月17日
0046
SPSS作业-方差分析-双因素分析

作业要求：高低不同的汽油对汽车油耗作二因素方差分析作业数据： *三种品牌的汽车X、Y、Z；四种标号（A、B、C、D） A B C D X 21.8 22.4 20.6 23.1 …

人工智能 2023年7月15日
0060
【radar】毫米波雷达动态障碍物检测相关论文汇总（聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理）（4）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0065
基于知识图谱的菜谱问答系统——需求分析

1.项目背景近年来,人机对话系统作为人工智能的一个重要领域,得到了许多关注和发展。传统信息检索技术已经不能满足人们对信息获取效率的要求,智能问答系统应运而生,并成为自然语言处理领…

人工智能 2023年6月1日
0081
中国纳米氧化铝市场行业竞争态势及投资可行性研究报告2022-2028年

中国纳米氧化铝市场行业竞争态势及投资可行性研究报告2022-2028年详情内容请咨询鸿晟信合研究院！【全新修订】：2022年2月【撰写单位】：鸿晟信合研究研究【报告目录】第一…

人工智能 2023年6月11日
0068
C语言期末复习题（上）

1. 输入两个正整数，m和n，求其最大公约数和最小公倍数。 test01() { int m, n; int gy = 0, gb = 0; printf("请输入输入两…

人工智能 2023年6月30日
0076
r3det 配环境避雷指南（pytorch版）

1、创建新的conda环境conda create -n r3det python=3.72、安装pytorch1.6.0、torchvision0.7.0、cuda10.1pip…

人工智能 2023年7月12日
0068
【基础教程】BP神经网络

1 BP神经网络的结构组成BP神经网络结构组成：2输入1输出，5个隐含层的，也称为2-5-1网络结构；Neural Network：神经网络Input：输入Hidden Layer…

人工智能 2023年6月16日
0078
YOLOv5训练自己的数据集详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、YOLOv5源码下载二、环境配置三、创建数据集四、更改配置…

人工智能 2023年6月23日
0090

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30