NMS技术总结（NMS原理、多类别NMS、NMS的缺陷、NMS的改进思路、各种NMS方法）

2023年5月26日上午4:16 • 人工智能 • 阅读 158

前言本文介绍了NMS的应用场合、基本原理、多类别NMS方法和实践代码、NMS的缺陷和改进思路、介绍了改进NMS的几种常用方法、提供了其它不常用的方法的链接。
本文很早以前发过，有个读者评论说没有介绍多类别NMS让他不满意，因此特来补充。顺便补充了NMS的缺点和改进思路。

欢迎关注公众号 CV技术指南 ，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

Non-Maximum Suppression（NMS）非极大值抑制。从字面意思理解，抑制那些非极大值的元素，保留极大值元素。其主要用于目标检测，目标跟踪，3D重建，数据挖掘等。

目前NMS常用的有标准NMS, Soft NMS, DIOU NMS等。后续出现了新的Softer NMS，Weighted NMS等改进版。

原始NMS

以目标检测为例，目标检测推理过程中会产生很多检测框（A,B,C,D,E,F等），其中很多检测框都是检测同一个目标，但最终每个目标只需要一个检测框，NMS选择那个得分最高的检测框（假设是C），再将C与剩余框计算相应的IOU值，当IOU值超过所设定的阈值（普遍设置为0.5，目标检测中常设置为0.7，仅供参考），即对超过阈值的框进行抑制，抑制的做法是将检测框的得分设置为0，如此一轮过后，在剩下检测框中继续寻找得分最高的，再抑制与之IOU超过阈值的框，直到最后会保留几乎没有重叠的框。这样基本可以做到每个目标只剩下一个检测框。

NMS技术总结（NMS原理、多类别NMS、NMS的缺陷、NMS的改进思路、各种NMS方法）

原始NMS（左图1维，右图2维）算法伪代码如下：

实现代码：（以pytorch为例）

def&#xA0;NMS(boxes,scores,&#xA0;thresholds):
&#xA0;&#xA0;&#xA0;&#xA0;x1&#xA0;=&#xA0;boxes[:,0]
&#xA0;&#xA0;&#xA0;&#xA0;y1&#xA0;=&#xA0;boxes[:,1]
&#xA0;&#xA0;&#xA0;&#xA0;x2&#xA0;=&#xA0;boxes[:,2]
&#xA0;&#xA0;&#xA0;&#xA0;y2&#xA0;=&#xA0;boxes[:,3]
&#xA0;&#xA0;&#xA0;&#xA0;areas&#xA0;=&#xA0;(x2-x1)*(y2-y1)

&#xA0;&#xA0;&#xA0;&#xA0;_,order&#xA0;=&#xA0;scores.sort(0,descending=True)
&#xA0;&#xA0;&#xA0;&#xA0;keep&#xA0;=&#xA0;[]
&#xA0;&#xA0;&#xA0;&#xA0;while&#xA0;order.numel()&#xA0;>&#xA0;0:
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;i&#xA0;=&#xA0;order[0]
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;keep.append(i)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;if&#xA0;order.numel()&#xA0;==&#xA0;1:
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;break
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;xx1&#xA0;=&#xA0;x1[order[1:]].clamp(min=x1[i])
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;yy1&#xA0;=&#xA0;y1[order[1:]].clamp(min=y1[i])
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;xx2&#xA0;=&#xA0;x2[order[1:]].clamp(max=x2[i])
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;yy2&#xA0;=&#xA0;y2[order[1:]].clamp(max=y2[i])

&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;w&#xA0;=&#xA0;(xx2-xx1).clamp(min=0)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;h&#xA0;=&#xA0;(yy2-yy1).clamp(min=0)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;inter&#xA0;=&#xA0;w*h

&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;ovr&#xA0;=&#xA0;inter/(areas[i]&#xA0;+&#xA0;areas[order[1:]]&#xA0;-&#xA0;inter)
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;ids&#xA0;=&#xA0;(ovr<=thresholds).nonzero().squeeze()         if ids.numel() ="=&#xA0;0:"             break         order ="&#xA0;order[ids+1]"     return torch.longtensor(keep) < code></=thresholds).nonzero().squeeze()>

除了自己实现以外，也可以直接使用torchvision.ops.nms来实现。

torchvision.ops.nms(boxes,&#xA0;scores,&#xA0;iou_threshold)

多类别NMS

上面这种做法是把所有boxes放在一起做NMS，没有考虑类别。即某一类的boxes不应该因为它与另一类最大得分boxes的iou值超过阈值而被筛掉。

对于多类别NMS来说，它的思想比较简单：每个类别内部做NMS就可以了。

实现方法：把每个box的坐标添加一个偏移量，偏移量由类别索引来决定。

下面是torchvision.ops.batched_nms的实现源码以及使用方法

#&#x5B9E;&#x73B0;&#x6E90;&#x7801;
max_coordinate&#xA0;=&#xA0;boxes.max()
offsets&#xA0;=&#xA0;idxs.to(boxes)&#xA0;*&#xA0;(max_coordinate&#xA0;+&#xA0;torch.tensor(1).to(boxes))
boxes_for_nms&#xA0;=&#xA0;boxes&#xA0;+&#xA0;offsets[:,&#xA0;None]
keep&#xA0;=&#xA0;nms(boxes_for_nms,&#xA0;scores,&#xA0;iou_threshold)
return&#xA0;keep

#&#x4F7F;&#x7528;&#x65B9;&#x6CD5;
torchvision.ops.boxes.batched_nms(boxes,&#xA0;scores,&#xA0;classes,&#xA0;nms_thresh)

这里偏移量用boxes中最大的那个作为偏移基准，然后每个类别索引乘以这个基准即得到每个类的box对应的偏移量。这样就把所有的boxes按类别分开了。

在YOLO_v5中，它自己写了个实现的代码。

c&#xA0;=&#xA0;x[:,&#xA0;5:6]&#xA0;*&#xA0;(0&#xA0;if&#xA0;agnostic&#xA0;else&#xA0;max_wh)&#xA0;&#xA0;#&#xA0;classes
boxes,&#xA0;scores&#xA0;=&#xA0;x[:,&#xA0;:4]&#xA0;+&#xA0;c,&#xA0;x[:,&#xA0;4]&#xA0;&#xA0;#&#xA0;boxes&#xA0;(offset&#xA0;by&#xA0;class),&#xA0;scores
i&#xA0;=&#xA0;torchvision.ops.nms(boxes,&#xA0;scores,&#xA0;iou_thres)&#xA0;

这里的max_wh相当于前面的boxes.max()，YOLO_v5中取的定值4096。这里的agnostic用来控制是否用于多类别NMS还是普通NMS。

NMS的缺点

1. 需要手动设置阈值，阈值的设置会直接影响重叠目标的检测，太大造成误检，太小达不到理想情况。

2. 低于阈值的直接设置score为0，做法太hard。

3. 只能在CPU上运行，成为影响速度的重要因素。

4. 通过IoU来评估，IoU的做法对目标框尺度和距离的影响不同。

NMS的改进思路

根据手动设置阈值的缺陷，通过自适应的方法在目标系数时使用小阈值，目标稠密时使用大阈值。例如Adaptive NMS
将低于阈值的直接置为0的做法太hard，通过将其根据IoU大小来进行惩罚衰减，则变得更加soft。例如Soft NMS，Softer NMS。
只能在CPU上运行，速度太慢的改进思路有三个，一个是设计在GPU上的NMS，如CUDA NMS，一个是设计更快的NMS，如Fast NMS，最后一个是掀桌子，设计一个神经网络来实现NMS，如ConvNMS。
IoU的做法存在一定缺陷，改进思路是将目标尺度、距离引进IoU的考虑中。如DIoU。

下面稍微介绍一下这些方法中常用的一部分，另一部分仅提供链接。

Soft NMS

根据前面对目标检测中NMS的算法描述，易得出标准NMS容易出现的几个问题： 当阈值过小时，如下图所示，绿色框容易被抑制；当过大时，容易造成误检，即抑制效果不明显。因此，出现升级版soft NMS。

Soft NMS算法伪代码如下：

标准的NMS的抑制函数如下：

IOU超过阈值的检测框的得分直接设置为0，而soft NMS主张将其得分进行惩罚衰减，有两种衰减方式，第一种惩罚函数如下：

这种方式使用1-Iou与得分的乘积作为衰减后的值，但这种方式在略低于阈值和略高于阈值的部分，经过惩罚衰减函数后，很容易导致得分排序的顺序打乱，合理的惩罚函数应该是具有高iou的有高的惩罚，低iou的有低的惩罚，它们中间应该是逐渐过渡的。因此提出第二种高斯惩罚函数，具体如下：

这样soft NMS可以避免阈值设置大小的问题。

Soft NMS还有后续改进版Softer-NMS，其主要解决的问题是：当所有候选框都不够精确时该如何选择，当得分高的候选框并不更精确，更精确的候选框得分并不是最高时怎么选择。论文值得一看，本文不作更多的详解。

此外，针对这一阈值设置问题而提出的方式还有Weighted NMS和Adaptive NMS。

Weighted NMS主要是对坐标进行加权平均，实现函数如下：

其中Wi = Si *IoU(M,Bi),表示得分与IoU的乘积。

Adaptive NMS在目标分布稀疏时使用小阈值，保证尽可能多地去除冗余框，在目标分布密集时采用大阈值，避免漏检。

Softer NMS论文链接：

https://arxiv.org/abs/1809.08545

Softer NMS论文代码：

https://github.com/yihui-he/softer-NMS

Weighted NMS论文链接：

https://ieeexplore.ieee.org/document/8026312/

Adaptive NMS论文链接：

https://arxiv.org/abs/1904.03629

DIoU NMS

当IoU相同时，如上图所示，当相邻框的中心点越靠近当前最大得分框的中心点，则可认为其更有可能是冗余框。第一种相比于第三种更不太可能是冗余框。因此，研究者使用所提出的DIoU替代IoU作为NMS的评判准则，公式如下：

DIoU定义为DIoU=IoU-d²/c²，其中c和d的定义如下图所示

在DIoU实际应用中还引入了参数β，用于控制对距离的惩罚程度。

当 β趋向于无穷大时，DIoU退化为IoU，此时的DIoU-NMS与标准NMS效果相当。

当 β趋向于0时，此时几乎所有中心点与得分最大的框的中心点不重合的框都被保留了。

注：除了DIoU外，还有GIoU，CIoU，但这两个都没有用于NMS，而是用于坐标回归函数，DIoU虽然本身也是用于坐标回归，但有用于NMS的。

GIoU

GIoU的主要思想是引入将两个框的距离。寻找能完全包围两个框的最小框（计算它的面积Ac）。

计算公式如下：

当两个框完全不相交时，没有抑制的必要。

当两个框存在一个大框完全包围一个小框时或大框与小框有些重合时，GIoU的大小在（-1，1）之间，不太好用来作为NMS的阈值。

GIoU的提出主要还是用于坐标回归的loss，个人感觉用于NMS不合适，CIoU也是如此，这里之所以提这个，是因为它与DIoU、CIoU一般都是放一起讲的。

其它相关NMS

为了避免阈值设置大小、目标太密集等问题，还有一些其他方法使用神经网络去实现NMS，但并不常用，这里只提一笔，感兴趣的读者请自行了解。如：

ConvNMS：A Convnet for Non-maximum Suppression

Pure NMS Network：Learning non-maximum suppression

Yes-Net: An effective Detector Based on Global Information

Fast NMS：

https://github.com/dbolya/yolact

Cluster NMS：

https://github.com/Zzh-tju/CIoU

Matrix NMS：

https://github.com/WXinlong/SOLO

Torchvision封装的免编译CUDA NMS

此处参考：

https://zhuanlan.zhihu.com/p/157900024

欢迎关注公众号 CV技术指南 ，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV技术指南创建了一个免费的知识星球。关注公众号添加编辑的微信号可邀请加入。

征稿通知：欢迎可以写以下内容的朋友联系我（微信号：”FewDesire”）。

TVM入门到实践的教程
TensorRT入门到实践的教程
MNN入门到实践的教程
数字图像处理与Opencv入门到实践的教程
OpenVINO入门到实践的教程
libtorch入门到实践的教程
Oneflow入门到实践的教程
Detectron入门到实践的教程
CUDA入门到实践的教程
caffe源码阅读
pytorch源码阅读
深度学习从入门到精通（从卷积神经网络开始讲起）
最新顶会的解读。例如最近的CVPR2022论文。
各个方向的系统性综述、主要模型发展演变、各个模型的创新思路和优缺点、代码解析等。
若自己有想写的且这上面没提到的，可以跟我联系。

声明： 有一定报酬，具体请联系详谈。若有想法写但觉得自己能力不够，也可以先联系本人（微信号：FewDesire）了解。添加前请先备注”投稿”。

其它文章

招聘 | 迁移科技招聘深度学习、视觉、3D视觉、机器人算法工程师等多个职位

计算机视觉入门路线

YOLO系列梳理（一）YOLOv1-YOLOv3

YOLO系列梳理（二）YOLOv4

YOLO系列梳理（三）YOLOv5

Attention Mechanism in Computer Vision

从零搭建Pytorch模型教程（三）搭建Transformer网络

从零搭建Pytorch模型教程（二）搭建网络

从零搭建Pytorch模型教程（一）数据读取

StyleGAN大汇总 | 全面了解SOTA方法、架构新进展

一份热力图可视化代码使用教程

一份可视化特征图的代码

工业图像异常检测研究总结（2019-2020）

关于快速学习一项新技术或新领域的一些个人思维习惯与思想总结

Original: https://blog.csdn.net/KANG157/article/details/124649838
Author: CV技术指南(公众号)
Title: NMS技术总结（NMS原理、多类别NMS、NMS的缺陷、NMS的改进思路、各种NMS方法）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518087/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas将df保存为excel，如何避免长数据序号被保存为科学计数法？解答各种坑

使用pandas处理包含产品序号的数据，序号是一串长的数字符号，遇到一系列科学技术法相关的问题。查阅了针对这个问题的一些已有解答，发现不能完全解决问题，也没有解释清楚问题出现的原因…

人工智能 2023年7月7日
0056
【文献阅读】StyleBERT: Chinese pretraining by font style information

Abstract 因此在本文中，我们提出了中文预训练语言模型 StyleBERT，它结合了以下嵌入信息来增强语言模型的 savvy，例如单词、拼音、五笔和chaizi（拆字）。 I…

人工智能 2023年5月31日
0056
Pytorch lr_scheduler.LambdaLR()的简单理解与用法

官方文档：https://pytorch.org/docs/1.10.1/generated/torch.optim.lr_scheduler.LambdaLR.html 在pyt…

人工智能 2023年7月21日
0096
戴口罩情境下的人脸识别demo

@[TOC] 戴口罩情境下的人脸识别项目提示：如有问题请在评论区或者私聊我均可，希望共同交流;这个戴口罩的人脸识别项目是人脸识别部分用的s—算法，目前正在准备用CNN来进行识别，…

人工智能 2023年7月27日
0050
macOS下编译opencv-4.5.2+opencv_contrib-framework

文章目录前言一、编译环境和工具 * 1.系统环境和版本 2.工具 3.OpenCV版本二、编译步骤 * 1.准备工作目录 2.修改编译脚本 3.开始编译遇到的问题 * 尝试…

人工智能 2023年7月19日
0065
【三维重建】三维重构基础知识、三维数据、重建流程

文章目录 * – 1.在计算机内生成三维信息 – + 三维图像重构： + 四个坐标系 + * 坐标系转换 * – 内参矩阵 – 外参…

人工智能 2023年7月25日
00133
鲍鱼数据案例（岭回归、LASSO回归）

鲍鱼数据集案例实战）数据集探索性分析鲍鱼数据预处理对sex特征进行OneHot编码，便于后续模型纳入哑变量筛选特征将鲍鱼数据集划分为训练集和测试集实现线性回归和岭回归 …

人工智能 2023年6月16日
0054
知识图谱学习笔记——知识抽取概述

文章目录 0. 前言 1. 实体抽取 * 1.1 基于规则的方法 1.2 基于统计模型的方法 – 1.2.1 训练语料标注 1.2.2 特征定义 1.2.3 训练模型 …

人工智能 2023年6月1日
00103
机器学习代码笔记-2-简单线性回归

Out[ ]: [<matplotlib.lines.line2d at 0x7fdfcee72f50>]</matplotlib.lines.line2d&gt…

人工智能 2023年6月4日
0069
DBSCAN算法

基本概念（Density-Based Spatial Clusting of Applications with Noise）核心对象：若某个点的密度达到算法设定的阈值则其为核心…

人工智能 2023年6月2日
0076
(一)路径规划算法—Astar实现自定义的全局路径规划插件

Astar实现自定义的全局路径规划插件文章目录 Astar实现自定义的全局路径规划插件 * 1.插件功能包的建立 2. 相关步骤 – 2.1 建立工作空间和环境变量的…

人工智能 2023年6月24日
00118
Python制作词云

参考的视频教程：https://www.bilibili.com/video/BV1ut4y1S7gP?p=3 1. 环境 python3.9PyCharm 需要的模块如下： wo…

人工智能 2023年7月20日
0045
联合标定Android手机的IMU和Camera数据

通过局域网实现安卓手机和ROS的通讯，进一步通过Kalibr工具实现手机IMU和相机的联合标定。手机与PC通信基于ROS下的信息发布和订阅，手机和PC在一个局域网下进行信息（i…

人工智能 2023年7月20日
0037
NMS、Soft-NMS、Softer-NMS

NMS NMS 顾名思义，非极大值抑制，也就是把极值周围的给抑制掉，不输出。在深度学习中叫去重，只保留最可靠的那个输出。首先定义一个相似度，深度学习中用IOU表示两个框的相似度。…

人工智能 2023年7月10日
0059
数据可视化

数据可视化数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。 1.matplotlib pip install m…

人工智能 2023年7月17日
0075
专题2：按照路段类型对切分后的数据集进行分类

首先要对切分后的NGSIM数据集按照路段类型的不同进行分类，数据集中包含了四种不同的路段，”us-101″、”i-80″、&#822…

人工智能 2023年7月18日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30