【MagNet】《Progressive Semantic Segmentation》

2023年7月10日上午10:37 • 人工智能 • 阅读 67

【MagNet】《Progressive Semantic Segmentation》

CVPR-2021

文章目录

1 Background and Motivation
2 Related Work
3 Advantages / Contributions
4 Method
*
4.1 Multistage processing pipeline
4.2 Refinement module
4.3 MagNetFast
5 Experiments
*
5.1 Datasets
5.2 Experiments on the Cityscapes dataset
5.3 DeepGlobe
5.4 Gleason
6 Conclusion（own）

; 1 Background and Motivation

做高分辨率图像分割任务的时候，由于 GPU 资源的限制，不能直接训练原图

解决办法往往是 downsample the big image or divide the image into local patches for separate processing

然而 downsample 会丢失很多细节，patches 方法缺乏大局观（全局信息）

作者结合上述两种方法的优点，提出了 a multi-scale segmentation framework for high-resolution images——MagNet

在 Cityscapes / DeepGlobe / Gleason 三个高分辨率图片数据集上验证了其有效性

2 Related Work

Multi-scale, eg：FPN / ASPP / HRNet
multi-stage, eg：Auto-ZoomNet
context aggregation，eg：BiseNet
Segmentation refinement

; 3 Advantages / Contributions

针对高分辨率图像分割问题，设计 MagNet 网络，Experiments on three high-resolution datasets of urban views, aerial scenes, and medical images show that MagNet consistently outperforms the state-of-theart methods by a significant margin

4 Method

核心模块有两个

segmentation network（module，普通的分割网络）
refinement module（作者提出的）

4.1 Multistage processing pipeline

s 表示 scale
p 表示 patch
X 表示输入图片
Y 表示输出图片
X ˉ \bar{X}X ˉ 表示输入到 segmentation network 中的 tensor，尺寸固定
Y ˉ \bar{Y}Y ˉ 表示从 refinement module 中输出的 tensor，尺寸固定
O ˉ \bar{O}O ˉ 表示从 segmentation network 中输出的 tensor，尺寸固定

以 4 scale 为例子

假如输入图片 h 和 w 为 1024×2048

各个 scale 下的 patch 的大小为：

1024×2048
512×1024
256×512
128×256

segmentation 和 refinement 模块的输入输出都为 128×256

; 4.2 Refinement module

1）refinement module 的输入有两个

the cumulative result from the previous stages,Y ˉ \bar{Y}Y ˉ
the result obtained by running the segmentation module at and only at the current scale,O ˉ \bar{O}O ˉ

2）refinement network 的结构如下

O+Y=R

3）历史 scale 结果和当前 scale 结果集合

Let Y u Y_u Y u and R u R_u R u denote the prediction uncertainty maps for Y Y Y and R R R respectively.

4）uncertainty maps 的定义为

for each pixel of Y , the prediction confidence at this location is defined as the absolute difference between the highest probability value and the second-highest value (among the C probability values for C classes).

5）使用两个 prediction uncertainty maps来选择 Y Y Y (累积分割图) 的 k k k 个位置进行细化。

k k k 表示的是Y Y Y 预测的不准确的地方，而R R R预测的比较准确的地方
⨀ \bigodot ⨀ 是 element-wise multiplication
F F F表示中值滤波，用来平滑the score map
1 − R 1-R 1 −R 相当于注意力机制，用来对Y Y Y 进行加权

5） Y u Y_u Y u and R u R_u R u 的组合方式为

其中 F denotes median blurring to smooth the score map（中值滤波）

⨀ \bigodot ⨀ 是 element-wise multiplication

相当于把 R 的不确定的地方着重更新一下，具体理解方式如下

R R R map 某个 location 分类的越好，softmax 拉的越开，那么 prediction confidence 越大，1-R 越小，就表示不用去 refine 该区域
R R R map 某个 location 分类的越差，softmax 拉不开，那么 prediction confidence 越小，1-R 越大，就表示要着重去 refine 该区域

ps：后续的 select 和 replace 好像分析不出来太多细节，需要再结合代码看看

4.3 MagNetFast

在 MagNet 的基础上

减少 scale 数量
减少每个 scale 上去 refine 的 patch 数量（only selects the patches with the highest prediction uncertainty Y u Y^u Y u for refinement）

5 Experiments

训练的时候各个 scale 上 randomly extract image patches

测试的时候，extract non-overlapping patches for processing

5.1 Datasets

; 5.2 Experiments on the Cityscapes dataset

1）Benefits of multiple scale levels

scale 设置为 4 效果最好

这里注意了，patch size 越小，refine 的精度越高

patch size 依次为（hxw）

1024×2048->512×1024->256×512->128×256

网络大小也即 patch resize 的大小为 128×256

相当于 refine 的精度依次为

原图x(128/1024) ->原图x(128/512)->原图x(128/256)->原图x(128/128)

也即

256->512->1024->2048

下面感受下效果

第二行应该是 refine 之后的结果

第一行放大看看，第二张图都是红点

2）Comparing segmentation approaches

这些类比杆比较多（更细腻），分割的比之前好

3）Ablation study: point selection

图 (a) 可以看出，MagNet 的 IoU 比其他方法要更大

4）Ablation study: point selection

这里探索了一些 Y u Y^u Y u 和 R u R^u R u 的组合方式，2 16 = 65536 2^{16} = 65536 2 1 6 =6 5 5 3 6

这里探索了一下每个 scale 需要 refine 的 point 数量

5）Ablation study: segmentation backbones

5.3 DeepGlobe

; 5.4 Gleason

6 Conclusion（own）

accumulated 思路不错

stage 过多速度应该会慢很多

细粒度和分辨率

Original: https://blog.csdn.net/bryant_meng/article/details/122185831
Author: bryant_meng
Title: 【MagNet】《Progressive Semantic Segmentation》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682621/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习实验五】基于多分类线性SVM实现简易人机猜拳游戏

文章目录基于多分类线性SVM&mediapipe手势关键点实现简易人机猜拳游戏 * 基于SMO优化的SVM分类算法完整实现版本 SVM决策结果与数据集可视化多分类SVM…

人工智能 2023年7月2日
00114
单阶段多人 2D 人体估计算法——KAPAO

😸KAPAO（ECCV2022）的主要贡献：提出了一种新的姿态对象（pose object）表示方法，其通过增加一组与对象相关的关键点来扩展传统的对象表示方法，在辅助实验中…

人工智能 2023年7月21日
0061
Transformer模型入门详解及代码实现

目录前言一.什么是Transformer 二.Encoder的组成 1.输入部分 2.注意力机制 2.1注意力机制的含义 2.2在TRM中的实现 3.前馈神经网络 3.1 前馈…

人工智能 2023年6月17日
0093
自然语言处理—文本分类综述/什么是文本分类

最近在学习文本分类，读了很多博主的文章，要么已经严重过时（还在一个劲介绍SVM、贝叶斯)，要么就是机器翻译的别人的英文论文，几乎看遍全文，竟然没有一篇能看的综述，花了一个月时间，参…

人工智能 2023年7月27日
0067
一维时序数据_时序分析汽车销量预测

0x00 前言新能源慢慢进入我们的生活，现在大街上随处可见新能源车，2019年特斯拉国产化了，进入2020年，特斯拉已经交付了第一批国产化的新能源车，同时价格已经压到29.9W元…

人工智能 2023年7月9日
0056
【代码实践】使用CLIP做一些多模态的事情

CLIP到底有多强，让我们来试试吧！ CLIP模型及代码地址：GitHub – openai/CLIP: Contrastive Language-Image Pret…

人工智能 2023年7月4日
0070
【教程】PaddleOCR文字识别，整个安装环境过程

直接下载解压，这个有102M 然后打开这个网址：传送门2 下载权重模型这里我只下载了中英超轻量OCR推理模型 Original: https://blog.csdn.net/q…

人工智能 2023年5月28日
0081
神经网络基础之模型构造

层和块个人理解：模型的块就是一个类，我们可以在里面添加很多函数层之类的，写任何的东西，我们实例化一下就生成了模型为了实现这些复杂的网络，我们引入了神经网络块_的概念。 _块（…

人工智能 2023年7月14日
00107
深度学习的不确定性（Uncertainty/confidence score）与校准(Calibration)

目录不确定性估计（uncertainty estimates） * 什么是不确定性（uncertainty ） – 不确定性的统计学定义不确定性分类什么是不确定性…

人工智能 2023年6月1日
0076
sklearn数据集（鸢尾花）的使用–代码实战

1. 鸢尾花数据集 ; 2. sklearn数据集返回值介绍 load和fetch返回的数据类型datasets.base.Bunch(字典格式) data：特征数据数组，是 [n…

人工智能 2023年6月15日
0056
NeRF 源码分析解读（二）

光线的生成由上一章节我们得到了加载到的数据，包括读取图像的数组、图像的高宽焦距、相机的 pose 、以及用于分割测试集、训练集的分割数组。得到这些数据后，我们开始进行生成光线的步…

人工智能 2023年6月12日
0078
缺陷检测，halcon案例入门篇。

缺陷检测，halcon案例入门篇。常见缺陷：1.凸凹结构（包含小毛刺）。2.内部污点，表面不平整，瑕疵，孔洞，破损，烫伤，油啧。3.划痕。处理方法：凸点，使用低角度环形光，把背景…

人工智能 2023年5月26日
0086
Python食物数据的爬取及分析（详细介绍及分析）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月16日
0058
基于Neo4j的担保社群型态分析挖掘

图技术 利用neo4j、networkx、dgl、python&amp…

人工智能 2023年6月1日
0066
神经辐射场 3D 重建——NeRF

😸NeRF（ECCV 2020）主要贡献：提出一种将具有复杂几何性质和材料的连续场景表示为 5D 神经辐射场的方法，并将其参数化为基本的 MLP 网络提出一种基于经典体渲染技…

人工智能 2023年7月26日
0054
conda安装GPU版pytorch，结果却是cpu版本[找到问题根源，从容解决]

conda安装GPU版pytorch，结果却是cpu版本[找到问题根源，从容解决] * – 一、问题描述 – 二、网上解决方案罗列【此节为反面方案罗列！！！…

人工智能 2023年6月16日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30