以最易懂的人话讲分类和聚类算法（建议分享和收藏）

2023年5月31日下午12:13 • 人工智能 • 阅读 87

以最易懂的人话讲分类和聚类算法（建议分享）

今天在使用聚类方法进行客户价值分析时遇到了个问题，将我卡住了半个小时，实际上现在想来是一个很简单的问题，但是大家都知道，一个人脑子短路时就是会一个小学数学题也做不出来。

但是虽然简单，在知乎或者是csdn上我也没有找到合适的答案，后面正在我想放弃自己挣扎放下面子问同事时，突然就灯泡就亮了。

于是我决定要和大家分享一下。

我做的是一个将客户按照价值分成几个群体的简单任务，需要将客户分成几个群体后画出下面这样的雷达图，然后进行分析

我们先来分析一下这样的图怎样做，雷达图的制作在前面的文章中我已经讲过怎样实现。还不知道的请自行阅读

我们接着讲，要做这样的雷达图，我们首先就要先用聚类方法将数据样本聚类成合适的几个类，那聚成几个类呢？答案是不知道。实际上，对于聚类这个事情，要聚几个类比较合适我们是不知道的，我们在进行聚类之前都是不能够确定的，但是根据经验，聚类一般在3到10个类是比较合适的，不要觉得是我只是短浅了。你可以去找相关书籍来看，里面也会讲，只能根据经验来大致确定。因为对于对于聚类这个词来讲，本身就带了很多的不确定性。

比如一个班级有100人，你能预估他们最终能分成几个小的团体吗？当然了，你可能说能，反正这个团体数一定在1到100之间，哈哈，我信。

实际上前面都是废话，今天我想跟大家聊聊什么是 分类和聚类。

聚类（clustering）和分类（classification）

“物以类聚，人以群分”，世界上的一切物质一定属于某个类别。这也是面向对象编程的设计思想。（对于什么是面向对象编程。不知道的朋友，翔宇推荐知乎一下或者查看我后面有没有相关文章，写这篇文章的现在是没有的哈，如果大家想看就在评论区留言，我后面会更新。）

知识储备：

分类（classification）

我们接着讲聚类，大家如果学习过一点机器学习的知识，应该就知道分类这个词。或者没有学过也没有关系。这个概念很简单。分类，顾名思义就是将东西分类。比如，我们班有100个人，然后他们每个人知道自己的身高，（假设身高大于1.78cm的属于高个子，1.60cm到1.78cm的属于中等个子，低于1.60cm的属于小个子），既然他们都知道自己的身高，就知道自己属于哪个类别。然后我们问全班同学都分别是属于哪个类别，现在，我们将数据统计一下就知道了到底每个类别有多少人。在机器学习中这就叫做分类。

可能就有同学问了，这样不是是个人就会吗？学什么机器学习，这不是扯犊子吗？没错，这样的事情确实是个人就会做，但是机器它不是人啊。所以它不会，那么我们为什么要让机器学习这样的算法呢？首先我们要先明白这样做的意义在哪里。

分类的意义
试想一个问题，上面很见到的分类大家都会，但是现在如果我们要分的不是高中低（这样的类别在机器学习中叫做标签）这几个类别了，而是想让大家根据身高和体重和体脂率划分同学体质好的有多少，体质一般的有多少，体质差的有多少。现在这些信息都在一张表上，大家觉得要把这项事情做出来得多大的工作量呢?而现在来了一个新同学，我们想知道它的体质怎么样，让我们人去查找表然后对比，这样的事又简单不简单呢？

或许上面的工作我们咬咬牙都是能做出来的，但是，如果这样的数据有100万、1000万甚至1亿条呢？大家这时候终于要放弃了吧！

因此，人做不了的事，我们交给计算机去做，但是机器只会1+0，没关系，我们将人类的想法换成计算机能够理解的算法，大家都知道计算机比人类最大的优势就在于一个字— 快

咳咳，回来啊，想什么呢

这样工作有”人”帮我们做了，上班不就有时间摸鱼了？，这不就是计算机兴起的原因吗？现在我们来了1000个新同学，我们将数据给计算机，计算机直接告诉我们每一个新同学属于什么类型。这就是分类算法预测的原理。实际上统计中的 回归（regression）预测也是类似的原理。

接下来，讲正题，聚类又是什么原理呢?

还是那100个同学，现在我们想知道这100个人在身高上会分成几个类别呢？我们不知道该怎么分，但是，我们想将它们分成三个类别，最好像前面分类那样的标准，不过现在有觉得那样分太带主观意志了，我们想按照人数分布来分，比如，我们发现1.51cm到1.60cm的同学有30个，1.65-176的同学有40个，1.78到1.85的同学有20个，而其他的就几个人的身高在其他的范围随意分布。这时候，我们知道，这样以上这种分类比之前那种好，为什么呢?,因为大多数人身高就分布在这几个区间。

那么剩下的高于1.85、低于151以及高于160又小于165的还有1.76-1.78，这些人怎么分呢？答案就是，离那个类别更接近就分在哪个类别。也就是说，例如1.62cm，这个身高更接近1.51-1.60这个类别的同学的身高，那我们就将它划分在这个类别。同样，其他的同学也是一样的原理划分。（当然这个例子举得太极端不说，还不符合统计学原理，这里只是为了使得大家能更好的理解聚类的原理）

上面这个就是聚类的原理例子。那么我们接着假设，我们将这100个同学分成三个类别也是我们主观控制的，如果我们说分为四个类、五个类、六个类别呢？是不是分析的结果又会不同呢？并且我们不知道到底分成几个类别会更合适，于是就有了上面讲到的聚类成几个类别通常一开始是不能够确定的，但是根据经验，一般分成设定3-10个类别里面会有比较合适的类别个数。于是我们在做聚类分析时一般就一步一个脚印，将设定不同个数类别（机器学习里面一般叫簇cluster）的聚类模型进行评估，最后选取最好的模型来进行聚类。对于模型的评估，我们下一篇文章讲聚类的典型算法— K-Means（K-均值）算法再详细为大家解析。

总结

分类算法是有监督学习算法，而聚类是无监督学习算法，区别就是有监督学习算法在模型训练时数据是有标签的（已经分好类别）训练好的模型一般用于预测新的数据集，无监督学习则是说，我们之所以训练数据，就是将数据聚成几个类别。从而进行相关的应用。

下一篇文章–聚类以及典型算法K-Means的原理及实现
持续更新中，请大家关注Eternal的公众号”数据分析者”以防错过文章。

好了，这期内容我们就分享到这里，我们下期再见！

Original: https://blog.csdn.net/dchzxl/article/details/120933292
Author: Python和数据分析
Title: 以最易懂的人话讲分类和聚类算法（建议分享和收藏）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550902/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

车辆运动控制（5）点质量车辆动力学模型

车辆运动控制（5）点质量车辆动力学模型 1. 进一步简化 2. 摩擦圆约束进一步简化点质量车辆动力学模型忽略了车辆的尺寸信息以及由横、纵向加速度引起的载荷转移用一个带质量的点来…

人工智能 2023年6月2日
00150
keras神经网络搭建六步法

神经网络搭建六步法１.keras介绍 tf.keras 是 tensorflow2 引入的高封装度的框架，可以用于快速搭建神经网络模型，keras 为支持快速实验而生，能够把…

人工智能 2023年7月12日
0074
python tips系列1——pandas的map函数

前言大家在使用pandas的时候，大部分可能就是一些匹配关系，主要也就是使用merge函数之类的。但是有时候在匹配的时候，并不需要使用merge的函数，使用别的函数也是可以做到，…

人工智能 2023年6月19日
0087
基于麻雀算法改进的随机森林分类算法 – 附代码

基于麻雀算法改进的随机森林分类算法文章目录基于麻雀算法改进的随机森林分类算法 * 1.数据集 2.RF模型 3.基于麻雀算法优化的RF 4.测试结果 5.Matlab代码摘要…

人工智能 2023年7月2日
0087
1.机器学习概念及相关术语解释

一丶机器学习概念概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机…

人工智能 2023年5月31日
0072
TensorFlow自定义训练函数

本文记录了在TensorFlow框架中自定义训练函数的模板并简述了使用自定义训练函数的优势与劣势。首先需要说明的是，本文中所记录的训练函数模板参考自https://stackov…

人工智能 2023年6月4日
0086
mac arm 架构安装PHP redis 扩展

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月27日
0077
pytorch与cuda版本匹配–最新(pytorch官网)

gpu驱动,cuda,cudnn安装传送门(温馨提示:请&#x…

人工智能 2023年7月22日
0055
火爆科研圈的三维重建技术：Neural radiance fields (NeRF)

如果说最近两年最火的三维重建技术是什么，相信NeRF[1]是一个绝对绕不过去的名字。这项强到逆天的技术，一经提出，就被众多研究者所重视，对该技术进行深入研究并提出改进已经成为一个热…

人工智能 2023年6月23日
00127
深度学习100例 | 第28天：水果的识别与分类（准确率99.9%）

🚀 我的环境：语言环境：Python3.6.5 编译器：jupyter notebook 深度学习环境：TensorFlow2.4.1 *数据和代码：📌【传送门】 🚀 来自专栏：…

人工智能 2023年7月1日
0079
GIt的使用

简介全局设置 Git常用命令远程仓库命令从远程仓库拉取分支标签 idea集合git 加入缓存区推送远程仓库拉取远程仓库分支合并/新增本地推送远程仓库简介 Git…

人工智能 2023年6月27日
0065
深度学习——模型的初始化

模型初始化在深度学习模型的训练中，权重的初始值极为重要。一个好的权重值，会使模型收敛速度提高，使模型准确率更精确。为了利于训练和减少收敛时间，我们需要对模型进行合理的初始化。Py…

人工智能 2023年6月16日
00123
huggingface transformers包文档学习笔记（持续更新ing…）

诸神缄默不语-个人CSDN博文目录最近更新日期：2023.4.14最早更新日期：2022.2.17 本文系huggingface（Hugging Face – The AI co…

人工智能 2023年5月28日
00111
Pytorch —-逻辑斯蒂回归（Sigmoid函数） —–分类问题模型,~~学习笔记

说是回归，实际是在讨论分类问题。如下的分类图，里面含有0-9 十个数字。这时候就不能再使用前面几节学过的线性回归模型(y = w * x + b)了，因为图片中的数字并没有对应到…

人工智能 2023年7月1日
0097
【pandas】动手学pandas–基于莫烦python的教程

Pandas 本文提供了所有章节的可运行代码，要想尽快学习掌握，还是需要动手去运行查看效果，然后自己动手编写。 1、基本介绍 pandas类似于python的字典，一般和numpy…

人工智能 2023年7月17日
0058
【目标检测基础】R-CNN、Fast R-CNN、Faster R-CNN快速了解

R-CNN、Fast R-CNN、Faster R-CNN快速了解近日读视频目标检测的论文时，发现自己对图片目标检测的经典模型和算法的理解还不够深入。于是找出目标检测的经典论文来…

人工智能 2023年7月9日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

以最易懂的人话讲分类和聚类算法（建议分享和收藏）

大家都在看