DBNet++学习笔记

DBNet学习笔记:http://t.csdn.cn/Ggtm2

1 概述

论文题目:Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion
论文链接:https://arxiv.org/pdf/2202.10304.pdf

DBNet++学习笔记
论文主要动机:已有的算法耗时长。开发一种算法降低时间消耗,提高尺度鲁棒性。
创新点:
  • DBNet++是在DBNet基础之上开发的;
  • DBNet:传统的二值化过程不可微分,作者提出来了一个可微分的二值化(DB);
  • DBNet++:在DBNet的基础上引入了ASF结构。

DBNet++网络在DBNet的基础上对head部分做了改进,DBNet直接把几个头分支concat起来,DBNet++通过Adaptive Scale Fusion (ASF)模块来连接,使用了空间自注意力机制来加强多尺度变化特征的刻画。

; 2 DBNet和DBNet++的主要区别

DBNet++学习笔记
DBNet++学习笔记
DBNet++学习笔记

2.1 自适应尺度融合模块

DBNet++学习笔记

主要思想如下:

  • 不同量表的特征具有不同的感知和接受域,因此它们侧重于描述不同量表的文本实例。例如,浅尺寸或大尺寸特征可以感知小文本实例的细节,但不能捕获大文本实例的全局视图,而深尺寸或小尺寸特征则相反;
  • 为了充分利用不同尺度的特征,语义分割方法通常采用特征金字塔或U-Net结构;
  • 与大多数通过简单的级联或总结来融合不同尺度特征的语义分割方法不同,自适应尺度融合是为了动态地融合不同尺度的特征。

假设输入特征图由N N N个特征图组成X ∈ R N × C × H × W = { X i } i = 0 N − 1 X \in \mathcal{R}^{N \times C \times H \times W}=\left{X_{i}\right}_{i=0}^{N-1}X ∈R N ×C ×H ×W ={X i ​}i =0 N −1 ​,其中N N N设置为4。
流程如下:

  • 将缩放后的输入特征X X X连接起来,然后经过一个3 × 3 3×3 3 ×3的卷积层,得到一个中间特征S ∈ R C × H × W S \in \mathcal{R}^{C \times H \times W}S ∈R C ×H ×W;
  • 对特征S S S应用空间注意模块,计算出注意权重A ∈ R N × H × W A \in \mathcal{R}^{N \times H \times W}A ∈R N ×H ×W;
  • 将注意权值A A A沿信道维度分割成N N N个部分,并与相应的尺度特征进行加权相乘,得到融合特征F ∈ R N × C × H × W F \in \mathcal{R}^{N \times C \times H \times W}F ∈R N ×C ×H ×W;

注意力机制的定义为:
S = Conv ⁡ ( concat ⁡ ( [ X 0 , X 1 , … , X N − 1 ] ) ) A = Spatial ⁡ − Attention ⁡ ( S ) F = concat ⁡ ( [ E 0 X 0 , E 1 X 1 , … , E N − 1 X N − 1 ] ) \begin{array}{l} S=\operatorname{Conv}\left(\operatorname{concat}\left(\left[X_{0}, X_{1}, \ldots, X_{N-1}\right]\right)\right) \ A=\operatorname{Spatial}{-} \operatorname{Attention}(S) \ F=\operatorname{concat}\left(\left[E{0} X_{0}, E_{1} X_{1}, \ldots, E_{N-1} X_{N-1}\right]\right) \end{array}S =Conv (concat ([X 0 ​,X 1 ​,…,X N −1 ​]))A =Spatial −​Attention (S )F =concat ([E 0 ​X 0 ​,E 1 ​X 1 ​,…,E N −1 ​X N −1 ​])​
其中:

  • concat ⁡ \operatorname{concat}concat:连接操作符;
  • Conv ⁡ \operatorname{Conv}Conv:3 × 3 3×3 3 ×3卷积运算子;
  • Spatial ⁡ − Attention ⁡ \operatorname{Spatial}_{-} \operatorname{Attention}Spatial −​Attention:ASF中的空间注意机制使得注意权重在整个空间维度上更加灵活。

Original: https://blog.csdn.net/search_129_hr/article/details/126977134
Author: HenrySmale
Title: DBNet++学习笔记

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/787385/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球