模型评估指标

2023年5月30日下午6:40 • 人工智能 • 阅读 106

准确率是指分类正确的样本个数占总样本个数的比例，即A c c u r a c y = T P + T N T P + F N + F P + T N Accuracy=\frac{TP+TN}{TP+FN+FP+TN}A c c u r a c y =T P +F N +F P +T N T P +T N

精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例，即P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP}P r e c i s i o n =T P +F P T P

召回率是指分类正确的正样本个数占真正的正样本个数的比例，即R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN}R e c a l l =T P +F N T P

F1值综合了精确率和召回率，F1越高说明模型越有效，F 1 = 2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l F1=\frac{2PrecisionRecall}{Precision+Recall}F 1 =P r e c i s i o n +R e c a l l 2 ∗P r e c i s i o n ∗R e c a l l

ROC曲线的横坐标为假阳性率(False Positive Rate，FPR)；纵坐标为真阳性率(True Positive Rate，TPR)。FPR和TPR的计算方法分别为
F P R = = F P F P + T N = F P N T P R = T P T P + F N = T P P FPR==\frac{FP}{FP+TN}=\frac{FP}{N}\TPR=\frac{TP}{TP+FN}=\frac{TP}{P}F P R ==F P +T N F P =N F P T P R =T P +F N T P =P T P
其中，P是真实的正样本的数量，N是真实的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被分类器预测为正样本的个数。

举个例子就是假如十个人去医院检查是否患癌（已知其中3位患癌，7位没有患癌），检查诊断出3位患癌，但是2位是真的患癌，1位是被误诊为患癌。那么真阳性率T P R = T P P = 2 3 TPR=\frac{TP}{P}=\frac{2}{3}T P R =P T P =3 2 (其中T P = 2 , P = 3 TP=2,P=3 T P =2 ,P =3)，假阳性率F P R = F P N = 1 7 FPR=\frac{FP}{N}=\frac{1}{7}F P R =N F P =7 1 (其中F P = 1 , N = 7 FP=1,N=7 F P =1 ,N =7)。

评价二值分类器的指标很多，比如上面说的Precision、Recall、F1 score、P-R曲线等，但这些指标或多或少只能反映模型在某一方面的性能。相比而言，ROC曲线则有很多优点，经常作为评估二值分类器最重要的指标之一。ROC曲线下面的面积就是AUC值，AUC值越大说明模型性能越好。

给定向量A A A，B B B，定义两个向量的夹角余弦为 余弦相似度，公式为c o s ( A , B ) = A ∗ B ∣ ∣ A ∣ ∣ 2 ∣ ∣ B ∣ ∣ 2 , ∣ ∣ A ∣ ∣ 2 ∣ cos(A,B)=\frac{A*B}{||A||_2||B||_2},||A||_2|c o s (A ,B )=∣∣A ∣∣2 ∣∣B ∣∣2 A ∗B ,∣∣A ∣∣2 ∣表示欧氏距离，取值范围[ − 1 , 1 ] [-1,1][−1 ,1 ]，相同的两个向量余弦相似度为1。余弦相似度只关心向量的夹角，不关心向量的长度如何，这与以距离度量相似性的欧氏距离有很大的区别。此外，在文本和图像等领域，研究对象的特征维度往往很高，余弦相似度在高维情况下保持”相同时为1，正交时为0，相反时为−1″的性质，而欧氏距离的数值受维度的影响较大。

余弦距离：1减余弦相似度，即1 − c o s ( A , B ) 1-cos(A,B)1 −c o s (A ,B )，取值范围[ 0 , 2 ] [0,2][0 ,2 ]，相同的两个向量余弦距离为0。

A/B 测试是验证新模块、新功能、新产品是否有效，新算法、新模型的效果是否有提升，新设计是否受到用户欢迎，新更改是否影响用户体验的主要测试方法。在机器学习领域中，A/B 测试是验证模型最终效果的主要手段。

对模型进行过充分的离线评估之后，还需要进行在线A/B测试的原因如下：

(1)离线评估无法完全消除模型过拟合的影响，因此，得出的离线评估结果无法完全替代线上评估结果。

(2)离线评估无法完全还原线上的工程环境。一般来讲，离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据缺失等情况。因此，离线评估的结果是理想工程环境下的结果。

(3)线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估，而与模型相关的其他指标，特别是商业指标，往往无法直接获得。比如，上线了新的推荐算法，离线评估往往关注的是ROC曲线、P-R曲线等的改进，而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV 访问量等的变化。

如何进行线上A/B测试?

进行A/B测试的主要手段是进行用户分桶，即将用户分成实验组和对照组，对实验组的用户施以新模型，对对照组的用户施以旧模型。在分桶的过程中，要注意样本的独立性和采样方式的无偏性，确保同一个用户每次只能分到同一个桶中，在分桶过程中所选取的user_id需要是一个随机数，这样才能保证桶中的样本是无偏的。

Holdout检验：将原始的样本集合随机划分成训练集和验证集两部分，常见的是70%的样本为训练集;30% 的样本为验证集。

k折交叉验证：将数据集划分为k个相等的子集，每次取一个子集作为验证集，其余k-1个作为训练集，最后将k次结果取平均，实际中，k常取10。

自助法(Bootstrap)：当数据集规模比较小时再划分训练集和测试集会影响模型训练效果。对于总数为n的样本集合，进行n次有放回的随机抽样，得到大小为n的训练集。n次采样过程中，有的样本会被重复采样，有的样本没有被抽出过，将这些没有被抽出的样本作为验证集，进行模型验证，这就是自助法的验证过程。

网格搜索：通过查找搜索范围内的所有的点来确定最优值。实际应用中，网格搜索法一般会先使用较广的搜索范围和较大的步长，来寻找全局最优值可能的位置；然后会逐渐缩小搜索范围和步长，来寻找更精确的最优值。这种操作方案可以降低所需的时间和计算量，但由于目标函数一般是非凸的，所以很可能会错过全局最优值。

随机搜索：随机搜索的思想与网格搜索比较相似，只是不再测试上界和下界之间的所有值，而是在搜索范围中随机选取样本点。它的理论依据是，如果样本点集足够大，那么通过随机采样也能大概率地找到全局最优值，或其近似值。

贝叶斯优化算法：网格搜索和随机搜索在测试一个新点时，会忽略前一个点的信息; 而贝叶斯优化算法则充分利用了之前的信息。贝叶斯优化算法通过对目标函数形状进行学习，找到使目标函数向全局最优值提升的参数。具体来说，它学习目标函数形状的方法是，首先根据先验分布，假设一个搜集函数；然后，每一次使用新的采样点来测试目标函数时，利用这个信息来更新目标函数的先验分布;最后，算法测试由后验分布给出的全局最值最可能出现的位置的点。对于贝叶斯优化算法，有一个需要注意的地方，一旦找到了一个局部最优值，它会在该区域不断采样，所以很容易陷入局部最优值。为了弥补这个缺陷，贝叶斯优化算法会在探索和利用之间找到一个平衡点，”探索”就是在还未取样的区域获取采样点; 而”利用”则是根据后验分布在最可能出现全局最值的区域进行采样。

过拟合：指模型对于训练数据拟合过当，导致模型在训练集上的表现很好，但在测试集和新数据上的表现较差。

欠拟合：指模型在训练和预测时表现都不好的情况。

过拟合说明模型过于复杂，把噪声数据的特征也学习到模型中，导致模型泛化能力下降。降低”过拟合”，可以通过以下方法：

1）使用更多的训练数据让模型学习到更多更有效的特征，减小噪声的影响。

2）降低模型复杂度以避免模型拟合过多的采样噪声。

3）正则化，如L1正则化L = L 0 + λ ∣ ∣ w ∣ ∣ 1 L=L_0+\lambda||w||_1 L =L 0 +λ∣∣w ∣∣1 ，L2正则化L = L 0 + λ 2 ∣ ∣ w ∣ ∣ 2 2 L=L_0+\frac{\lambda}{2}||w||^2_2 L =L 0 +2 λ∣∣w ∣∣2 2 。

4）集成学习，如基于Bagging的算法和基于Boosting的算法。

降低”欠拟合”，可以通过以下方法：

1）添加新特征，当特征不足或者现有特征与样本标签的相关性不强时，模型容易出现欠拟合。

2）增加模型复杂度。

3）减小正则化系数。

Original: https://blog.csdn.net/weixin_51221144/article/details/121803902
Author: 葫芦娃啊啊啊啊
Title: 模型评估指标

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544557/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习 | 决策树ID3算法

ID3是Quinlan于1979年提出的，是机器学习中一种广为人知的一个算法，它的提出开创了决策树算法的先河，而且是国际上最早最有影响的决策树方法首先找出最有判断力的特征，把数据…

人工智能 2023年7月2日
00105
双流网络泛读【Two-Stream Convolutional Networks for Action Recognition in Videos】

目录 0、前沿 1、标题 2、摘要 3、结论 4、重要图表 5、解决了什么问题 6、采用了什么方法 7、达到了什么效果 0、前沿泛读我们主要读文章标题，摘要、结论和图表数据四个部…

人工智能 2023年7月12日
0085
图数据挖掘 ECC K-core core number truss number clique

K-core:什么叫k-core，给定一个正整数k（k>=0），k-core是一个G的最大子图（也就是说k-core是一个图的限制），将这个子图定义为Hk，对于Hk中的每个顶…

人工智能 2023年6月1日
00131
【总目录3】Python、神经网络与深度学习、毕业设计总结大全

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
00101
jupyter notebook上使用GPU运行程序

问题描述虽然jupyter上能后直接运行代码，但是默认是使用的cpu，我的电脑支持GPU，虽然也安装了tensorflow-gpu，但是运行的时候没有使用上。网上找了很多办法， …

人工智能 2023年5月24日
00148
Spark DataFrame 的创建和保存

前言 DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。 DataFrame 创建法一、从不同…

人工智能 2023年7月8日
00128
程序股票交易接口怎么使用？

程序股票交易接口是有很多文档内容其实是适用所有语言的，无论大家选择哪种语言，建议先在一些专业的网站上先了解本文档的内容，然后再阅读各编程语言的用户手册，这样更方便自己操作。考虑到这…

人工智能 2023年6月28日
00128
Vue实现手机端界面的购物车案例

目录前期准备 Goods Counter 今天用Vue实现的一个手机端的购物车案例，着重阐述组件化思想的优势，将页面的内容分成各个模块进行书写，然后数据传输，父传子、子传父、兄弟…

人工智能 2023年7月31日
0097
Python2.7 CentOS7 处理报错 ImportError: No module named psycopg2

运行出错：ImportError: No module named psycopg2import psycopg2Traceback (most recent call last)…

人工智能 2023年5月24日
0098
[Deeplearning]dwconv

dwconv 是由一个两部分卷积组成的一个网络第一部分是depthwise conv 是分通道的一个卷积就是每个卷积核对应input的每一个通道有图好理解很多如下图源ht…

人工智能 2023年7月21日
0091
目标检测指标mAP详解

前言相信刚刚接触目标检测的小伙伴也是有点疑惑吧，目标检测的知识点和模型属实有点多，想要工作找CV的话，目标检测是必须掌握的方向了。我记得在找实习的时候，面试官就问到了我目标检测的…

人工智能 2023年6月17日
00118
HIBOG: Improving the clustering accuracy by amelioratingdataset with gravitation论文笔记

HIBOG: Improving the clustering accuracy by amelioratingdataset with gravitation 论文链接总结优…

人工智能 2023年6月2日
00127
机器学习第一章发展历史与背景

文章目录一、什么是机器学习 * 1、机器学习的发展历史和背景 – 1.1 人工智能与机器学习 1.2 机器学习的发展历程 2、机器学习的基本概念 – 2….

人工智能 2023年7月27日
00117
极智AI | 详解 ViT 算法实现

欢迎关注我的公&#…

人工智能 2023年6月25日
0091
机器学习之模型评估

机器学习之模型评估 1.模型评估 2.交叉验证 * 2.1回归问题的验证 2.2分类问题的验证 2.3精确率和召回率 2.4 F值 3.正则化 * 3.1过拟化 3.2正则化的方法…

人工智能 2023年7月2日
00102
linux主机信息

1.和用户信息类似，每台计算机也有自己的信息，我们可以通过系统函数调用查看(1)int gethostname(char* name, size_t namelen)如果安装了网络…

人工智能 2023年6月28日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

模型评估指标

大家都在看