从零讲解目标检测的评价指标map及实现

2023年5月26日下午1:46 • 人工智能 • 阅读 91

前言

map是Mean Average Precision的缩写，翻译过来是平均精度的平均。有点绕啊，在理解map之前，先问个为什么要引入map，在分类任务中，常使用精确率和召回率作为评价指标，也称查准率和查全率，这是一个简单直接的统计量。目标检测任务稍有不同的是，即使目标检测器检测到猫和狗，没有定位，这也是没有用的。所以我们评价这个目标检测器的性能，不仅要评价它检测的对不对，还要评价它定位的准确性，这里就引入了map这个指标。

map最早出现在 信息检索系统，引入AP是为了衡量相关条目出现在不同位置时搜索结果的差异性。对于目标检测来说，其GT数量不定（一张图片可能有多类多个label），网络输出也不确定（经过NMS输出数量可能大不相同），在这种情况下如何去评价检测模型的性能？肯定不能用分类问题的Accuracy，最直观的想法就是 计算PR曲线。

map的定义

经过一系列的训练过后，怎么才能判断我们目标检测训练模型的效果呢，首先我们要有 包含标签的验证集，没有标签就没办法评价；其次知道目标检测任务是用来干嘛的，如在植物大战僵尸中，坚果+地雷是绝佳配合。

但是坚果要放在地雷前面才有效果，我们需要检测地雷和坚果以及两者的位置。如下图。
从零讲解目标检测的评价指标map及实现

评价目标模型的效果，是要评价出检测的准确性。预测框有三个信息： 位置、类别、对应类别的置信度，首先ap计算是分类别计算的，先抽出某一类别的预测框和gt框，分两步：第一步 预测框与gt框的匹配，第二步进行 相关precision 、recall以及ap的计算。

; 1.预测框与gt框的匹配

假设预测出的框如下(红色)，先做 单一类别的ap计算，抽出坚果的预测框（红色1，2，3，4， 5，6，7）和坚果的真实框。

框完全重合，但是考虑实际中像素级偏差可以忽略，人工标注gt的偏差，很难完全重合，这里使用的是 IOU，两个框的交并比，关于IOU的理解可以参见这篇，当然也可以将IOU换成IOU系列的G-IOU，D-IOU等，这样的话就不是单纯的map了，不过可以试试用于自己项目中的评价图片。
先计算各预测框与gt框的IOU值，设IOU阈值为0.5，则过滤掉1、2、4和7框，1，5，7框因为IOU小于阈值，4框虽然和地刺的gt框重合，但是他检测的类别是坚果的，也是不行的，3，5和6均满足IOU值，一个gt只能匹配到一个预测框(主要用于后面计算recall)，在一般的目标检测过程中，会先通过nms将预测框过滤掉后再计算map, 这里假设没有过滤完全，取score高的作为匹配框。则3和6框为匹配到的预测框。
匹配完坚果，以同样的方式匹配到地刺。

2. 指标计算

这里先了解下混淆矩阵,这块有点绕，对目标检测来说：

P和N是对应预测框被预测成正样本还是负样本，T和F是预测框预测的对不对，是否被正确的分类，
目标检测中，训练时通过人为定义正负样本，去让模型学习哪些是目标，哪些是背景，如与gt的IOU值高于阈值的图像区域为正样本，小于阈值的图像区域为负样本，有正负样本之分（TN）。在验证测试时，输入是整张图像，只有gt对应的真实正样本，没有真实负样本。先通过置信度阈值来区分预测框为预测正样本还是预测负样本，再对预测为正样本的框，判断是否预测正确。

所有大于置信度阈值的框均为预测 正样本（P）, 与gt的iou高于iou阈值的为TP，反之为FP。没有预测出来的框都是N，目标检测一般不区分TN和FN。因为目标检测预测对应的框为背景是正确的似乎也没多大意义。因此，目标检测中，一般不考虑TN。

对于坚果类别：
True Positive (TP): 真的正样本，实际为正样本，检测为正样本，目标检测上是IOU>=阈值的检测框，这里的3和6框
False Positive (FP): 假的正样本，实际为负样本，检测为正样本，目标检测上： IOU

; 3. ap 的计算

如何计算每 个类别的ap呢，首先 ap的定义是PR曲线围成的面积，所以我们需要先求PR曲线，对于PR曲线的采样点，voc10前后有两种不同的方式，voc08只选取Recall >= 0, 0.1, 0.2, …, 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值，称为 Interplolated AP。如我们上面预测的坚果：

在voc10年之后，按照score值从上往下排列，对应的准确率和召回率如下：这里需要注意rank5这个框虽然是score和IOU均满足，但是它因为和6框同属于预测同一个gt框，所以按照score值的大小，将其定义成负样本。

根据上述的 PR列表，画图如下：

ap为PR曲线下围城的面积：

10.333+（0.25+0.4）0.333/2 =0.441

voc08是如下这样的图：

ap为：(4 _1+3_0.4)/11=0.472,两者之间相差3个点，voc08计算ap时简单粗暴，但是有精度上的损失，特别是对样本稀疏的情况下。所以这种方法在2009年的Pascalvoc之后便不再采用了。在Pascal voc 2010之后，便开始采用第一种精度更高的方式。

4. map 计算

在计算完 每个类别的ap后，对于整个数据集的 map，采用对各类别ap的平均值，这里面有人考虑对整个数据的计算（GT, TP,FP）后，获得整个数据集的ap作为map,这里实际上是不合理的。

举个例子，数据集有A、B两个类，样本量分别占90%、10%；有两个待评估模型①和②，

如果选”加权平均”则会认为①更好，但是①在少数类(B类)的表现太差，所以还是②更好，所以类别的直接平均作为map是合理的。

同时在 coco数据集上，使用的也是 Interplolated AP的计算方式[1]。与Voc 2008不同的是，为了提高精度，在PR曲线上采样了 101个点进行计算，

recall = 0.00, 0.01, 0.02 , ⋯, 1.00 时对应的最大precision值，然后计算这101个值得平均值，就得到了该验证集上某类的ap值。

在coco官网上，对map有以下几个评价指标：
从零讲解目标检测的评价指标map及实现

第一个map为Iou的阈值从固定的0.5调整为在 0.5 – 0.95 的区间上每隔0.5计算一次AP的值，取所有结果的平均值作为最终的结果。

第二个map为不同尺寸的物体的mAP。包括小物体、中等物体、大物体，后面描述了物体对应的像素值的大小。

第三为平均召回率，和AP相似，但这个不太常用。

; 3. map的实现

map的实现网上有很多实现方式，这里使用简单的方法：


sorted_ind = np.argsort(-confidence)
BB = BB[sorted_ind, :]
image_ids = [image_ids[x] for x in sorted_ind]

nd = len(image_ids)
tp = np.zeros(nd)
fp = np.zeros(nd)
for d in range(nd):
    R = class_recs[image_ids[d]]
    bb = BB[d, :].astype(float)
    ovmax = -np.inf
    BBGT = R['bbox'].astype(float)

    if BBGT.size > 0:

        ixmin = np.maximum(BBGT[:, 0], bb[0])
        iymin = np.maximum(BBGT[:, 1], bb[1])
        ixmax = np.minimum(BBGT[:, 2], bb[2])
        iymax = np.minimum(BBGT[:, 3], bb[3])
        iw = np.maximum(ixmax - ixmin + 1., 0.)
        ih = np.maximum(iymax - iymin + 1., 0.)
        inters = iw * ih

        uni = ((bb[2] - bb[0] + 1.) * (bb[3] - bb[1] + 1.) +
               (BBGT[:, 2] - BBGT[:, 0] + 1.) *
               (BBGT[:, 3] - BBGT[:, 1] + 1.) - inters)

        overlaps = inters / uni
        ovmax = np.max(overlaps)
        jmax = np.argmax(overlaps)

    if ovmax > ovthresh:
        if not R['difficult'][jmax]:
            if not R['det'][jmax]:
                tp[d] = 1.

                R['det'][jmax] = 1
            else:
                fp[d] = 1.

    else:
        fp[d] = 1.

fp = np.cumsum(fp)
tp = np.cumsum(tp)
rec = tp / float(npos)

prec = tp / np.maximum(tp + fp, np.finfo(np.float64).eps)

最终得到一系列的precision和recall值，并且这些值是按照置信度降低排列统计的，可以认为是取不同的置信度阈值（或者rank值）得到的。然后据此可以计算AP：

def voc_ap(rec, prec, use_07_metric=False):
    """Compute VOC AP given precision and recall. If use_07_metric is true, uses
    the VOC 07 11-point method (default:False).

"""
    if use_07_metric:

        ap = 0.

        for t in np.arange(0., 1.1, 0.1):
            if np.sum(rec >= t) == 0:
                p = 0
            else:
                p = np.max(prec[rec >= t])
            ap = ap + p / 11.

    else:

        mrec = np.concatenate(([0.], rec, [1.]))
        mpre = np.concatenate(([0.], prec, [0.]))

        for i in range(mpre.size - 1, 0, -1):
            mpre[i - 1] = np.maximum(mpre[i - 1], mpre[i])

        i = np.where(mrec[1:] != mrec[:-1])[0]

        ap = np.sum((mrec[i + 1] - mrec[i]) * mpre[i + 1])
    return ap

结语

根据 mAP 的高低，我们只能较为概括地知道网络整体性能的好坏，但比较难分析问题具体在哪。举个例子：如果网络输出的框很贴合，选择合适的 Confidence 阈值时，检出和召回也较均衡，但是目标的类别判断错误较多。由于首先根据类别结果分类处理，只要类别错了，定位、检出和召回都很好，mAP 指标也不会高。但从结果观察，并不能很明确知道，问题出在类别判断上还是定位不准确上面。

mAP 指标关注的点，与实际应用时关注的点，并不完全吻合，mAP 会统计所有 Confidence 值下的 PR值，而实际使用时， 会设定一个 Confidence 阈值，低于该阈值的目标会被丢弃，这部分目标在统计 mAP 时也会有一定的贡献。部分针对比赛刷榜的涨点技巧，会关注这部分检测结果对 mAP 的影响。

所以针对具体的目标检测项目需求，map仅仅只能大概的评估模型性能，还需要其他的评价指标。

参考：

[1] https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocotools/cocoeval.py
[2] https://www.zhihu.com/question/53405779
[3] https://www.cnblogs.com/boligongzhu/p/15065738.html
[4] https://zhuanlan.zhihu.com/p/365840197

Original: https://blog.csdn.net/zqwwwm/article/details/124408093
Author: 所向披靡的张大刀
Title: 从零讲解目标检测的评价指标map及实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519871/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【已解决】pycharm 终端无法激活conda环境

文章内容：pycharm 终端无法激活conda环境解决关键词组：Windows、pycharm、社区版、专业版、终端、Anaconda、conda操作系统：Windows 10 …

人工智能 2023年7月6日
00122
【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

1 流式语音合成服务的场景与产业应用语音合成（Speech Sysnthesis），又称文本转语音（Text-to-Speech, TTS），指的是将一段文本按照一定需求转化成对…

人工智能 2023年7月28日
00130
自动驾驶算法详解(1) : Apollo路径规划 Piecewise Jerk Path Optimizer的python实现

本文作为 Apollo Planning决策规划代码详细解析系列文章的补充，将使用Python代码以及anaconda环境，来实现Apollo 决策规划Planning 模块里的 …

人工智能 2023年7月27日
0081
神经网络权重是什么意思,神经网络权值和阈值

BP神经网络中初始权值和阈值的设定 1、首先需要了解BP神经网络是一种多层前馈网络。2、以看一下在matlab中BP神经网络的训练函数，有梯度下降法traingd,弹性梯度下降法t…

人工智能 2023年7月29日
0062
pytorch加载训练好的模型用来测试或者处理

如果我们使用的模型和原模型完全一样，那么我们可以直接加载别人训练好的模型： import torchvision.models as models resnet50 = model…

人工智能 2023年7月22日
0057
Java中常用API总结（1）—— Math类（含底层源码阅读）

Math类一、前言二、概述三、源码阅读四、常见方法及使用 * 1.abs 2.ceil 3.floor 4.round 5.max 6.min 7.pow 8.random…

人工智能 2023年6月28日
0079
神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

神经网络权重初始化–容易忽视的细节为什么要初始化 kaiming初始化方法由来代码实现 PReLu的使用后话禁止转载！！为什么要初始化神经网络要优化一个非常…

人工智能 2023年7月12日
0083
kera-bert，keras， tensorflow版本对应

tensorflow2太好用了，相对来说tensorflow1就是个智障。而bert一点都不友好，几千行代码。kera_bert对bert进行了很好的封装，太棒了！python3….

人工智能 2023年5月26日
0060
model.compile()：配置模型(优化器, 损失函数, 准确率)

设置优化器、损失函数和准确率评测标准。形式1 model.compile(optimizer = tf.keras.optimizers.优化器(参数)， loss = tf.k…

人工智能 2023年7月28日
0076
Pandas读取数据

目录一、pandas读取csv文件这里我们可以指定name参数，来给我们的列表的不同列命名指定我们的行索引将指定的数据置空保存我们的CSV数据二、Python读取JSO…

人工智能 2023年6月15日
0068
RStudio环境或者ggsave函数保存生成的图像为指定文件格式（pdf、jpeg、tiff、png、svg、wmf）、指定图像宽度、高度、分辨率(width、height、dpi)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0074
VGG网络模型详解以及代码实现

VGG网络模型详解以及代码实现一、背景 * 1. VGG原理二、VGG网络模型详解及代码实现 * 1. VGG网络模型详解 2. 代码实现三、参考资料：一、背景 VGGNe…

人工智能 2023年5月26日
00116
一、量化金融开篇

最近对量化交易感兴趣，想记录下每天学习量化的点点滴滴，欢迎各位量化大神，前来指导，感激不尽…….. Original: https://www.cnblog…

人工智能 2023年6月4日
0078
MoFlow：生成分子图的可逆流模型

ACM SIGKDD | MoFlow: An Invertible Flow Model for GeneratingMolecular Graphs今天给大家介绍ACM SIG…

人工智能 2023年6月18日
0089
机器学习（三）聚类算法

目录一、定义和公式 1. 聚类算法 2. 应用： 3. 聚类算法分类：KMeans，Meanshift，DBSCAN Original: https://blog.csdn.n…

人工智能 2023年6月2日
0089
Ubuntu20.04+RTX3090ti+cuda11.6+cudnn8.4.1+pytorch安装过程记录

为了快速配置基于pytorch的深度学习工作环境，现对Ubuntu20.04 +RTX3090ti +cuda11.6+ cudnn8.4.1 +pytorch安装过程进行简要记录…

人工智能 2023年6月16日
00127

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

从零讲解目标检测的评价指标map及实现

; 1.预测框与gt框的匹配

2. 指标计算

; 3. ap 的计算

4. map 计算

参考：

大家都在看