模型评估（误差平方和(SSE The sum of squares due to error)）

2023年6月24日上午2:36 • 人工智能 • 阅读 85

1 误差平方和(SSE The sum of squares due to error)： ¶

举例:(下图中数据-0.2, 0.4, -0.8, 1.3, -0.7, 均为真实值和预测值的差)

模型评估（误差平方和(SSE The sum of squares due to error)）

在k-means中的应用:

公式各部分内容:

上图中: k=2

SSE图最终的结果,对图松散度的衡量.(eg: SSE(左图)
SSE随着聚类迭代,其值会越来越小,直到最后趋于稳定:
如果质心的初始值选择不好,SSE只会达到一个不怎么好的局部最优解.

2 “肘”方法 (Elbow method) — K值确定 ¶

（1）对于n个点的数据集，迭代计算k from 1 to n，每次聚类完成后计算每个点到其所属的簇中心的距离的平方和；

（2）平方和是会逐渐变小的，直到k==n时平方和为0，因为每个点都是它所在的簇中心本身。

（3）在这个平方和变化过程中，会出现一个拐点也即”肘”点， 下降率突然变缓时即认为是最佳的k值。

在决定什么时候停止训练时，肘形判据同样有效，数据通常有更多的噪音，在增加分类无法带来更多回报时，我们停止增加类别。

3 轮廓系数法（Silhouette Coefficient） ¶

结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果：

目的：

内部距离最小化，外部距离最大化

计算样本i到同簇其他样本的平均距离ai，ai 越小样本i的簇内不相似度越小，说明样本i越应该被聚类到该簇。

计算样本i到最近簇Cj 的所有样本的平均距离bij，称样本i与最近簇Cj 的不相似度，定义为样本i的簇间不相似度：bi =min{bi1, bi2, …, bik}，bi越大，说明样本i越不属于其他簇。

求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。

平均轮廓系数的取值范围为[-1,1]，系数越大，聚类效果越好。

簇内样本的距离越近，簇间样本距离越远

案例：

下图是500个样本含有2个feature的数据分布情况，我们对它进行SC系数效果衡量：

n_clusters = 2 The average silhouette_score is : 0.7049787496083262

n_clusters = 3 The average silhouette_score is : 0.5882004012129721

n_clusters = 4 The average silhouette_score is : 0.6505186632729437

n_clusters = 5 The average silhouette_score is : 0.56376469026194

n_clusters = 6 The average silhouette_score is : 0.4504666294372765

n_clusters 分别为 2，3，4，5，6时，SC系数如下，是介于[-1,1]之间的度量指标：

每次聚类后，每个样本都会得到一个轮廓系数，当它为1时，说明这个点与周围簇距离较远，结果非常好，当它为0，说明这个点可能处在两个簇的边界上，当值为负时，暗含该点可能被误分了。

Original: https://blog.csdn.net/weixin_46556352/article/details/123988182
Author: AI耽误的大厨
Title: 模型评估（误差平方和(SSE The sum of squares due to error)）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648363/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PPO实战学习总结

PPO used in go-bigger 前段时间一直在学习ppo算法，写了一点总结，记录一下自己对ppo算法的一些理解与RL实战时候容易遇到的一些问题。代码地址如下，需要的可…

人工智能 2023年7月22日
0084
Smartbi教你只用Excel，就能掌握RFM模型制作方法

RFM在用户运营中是一个非常重要的模型，都有着广泛的运用，特别在电商商业，RFM是分析模型之一。要想掌握并制作一个完整的RFM模型出来，方法有很多，可以利用PowerBI或者编程工…

人工智能 2023年7月18日
0060
[机器学习入门]——第七课——非监督聚类

文章目录第七课——非监督聚类 * 非监督学习一、聚类简介 – 聚类中的问题常见距离度量划分式聚类 K-means聚类法 + 算法步骤 K-means的目标/损失…

人工智能 2023年5月31日
0084
Convolutional网络中的降维操作是如何实现的？为什么在网络中进行降维操作

Convolutional网络中的降维操作在Convolutional神经网络（CNN）中，降维操作旨在减小输入数据的维度，以便网络可以更好地提取和学习特征。常见的降维操作包括池…

人工智能 2024年1月3日
0028
深度学习面试题汇总大全（转）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0049
KNN-k近邻算法

KNN-k近邻算法 k近邻算法基础 * 解决分类问题在Notebook中实现 – 数据的准备 KNN过程通过函数封装来实现 scikit-learn 中的机器学习封…

人工智能 2023年7月2日
0045
基于 Openpose 实现人体动作识别

作者|李秋键出品|AI科技大本营(ID:rgznai100) 引言伴随着计算机视觉的发展和在生活实践中的广泛应用，基于各种算法的行为检测和动作识别项目在实践中得到了越来越多的应…

人工智能 2023年6月15日
0088
【毕业设计】基于大数据的高考数据分析 – python 大数据可视化

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0058
二手车估价问题浅析

问题一：通过给定的二手车交易样本数据”附件1：估价训练数据.txt”文件，选用合适的估价方法，构建相应的数据模型，来对二手车的零售交易价格进行预测，并且数据…

人工智能 2023年7月17日
0055
最新Anaconda创建Python3.6，Python3.7虚拟环境，为Pytorch,tensorflow创建单独环境

最新Anaconda 创建Python3.6，Python3.7虚拟环境，为Pytorch,tensorflow创建单独环境文章目录最新Anaconda 创建Python3.6…

人工智能 2023年7月23日
0065
数据驱动科技赋能，东吴证券打造数据中台“九大能力”

公司简介东吴证券股份有限公司作为首家上市的地级市券商，扎根苏州，布局全国，树立”坚持根据地、融入长三角、服务中小微”战略导向，致力于为实体经济增添活力，为…

人工智能 2023年6月11日
0080
Pillow（PIL）入门教程（非常详细）

文章目录 * – + * 相关资源 – 教程特点 – 读者&阅读条件* Pillow是什么* – Pillow版本支持 &#…

人工智能 2023年6月18日
0081
gensim进阶：TFIDF模型训练以及查找具体词汇的tfidf值

经过整整一天的不懈奋斗，我终于破解了gensim的语料导入！ from gensim import models from gensim import corpora from g…

人工智能 2023年5月27日
0063
R分类模型

problem 1 (Logistic Regression and KNN) library(ISLR)attach(Auto) creating binary variable…

人工智能 2023年7月3日
0060
Python进阶——网课不愁系列AI换脸技术

俗话说的好：网络一线牵，珍惜这段缘！网络的水很深，年轻人你把握不住，众所周知照片是可以P的，但是”视频”是”P”不了的（狗头保命）…

人工智能 2023年7月29日
0060
Pytorch如何约束和限制权重/偏执的范围

方法一：首先编写模型结构：然后编写限制权重范围的类：最后实例化这个类，对权重进行限制：方法二：在模型train的时候，对参数的范围进行限制：将权重和偏执的范围限制到0-…

人工智能 2023年6月6日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

模型评估（误差平方和(SSE The sum of squares due to error)）

1 误差平方和(SSE The sum of squares due to error)： ¶

2 “肘”方法 (Elbow method) — K值确定 ¶

3 轮廓系数法（Silhouette Coefficient） ¶

大家都在看