SiamFC论文解读及代码实现

2023年7月12日下午9:13 • 人工智能 • 阅读 70

SiamFC论文解读及代码实现

*
– 1. 论文精华
–
+ 1.1 Introduction
+ 1.2 用于跟踪的深度相似性学习
+ 1.3 全卷积孪生网络结构
– 2. 说人话环节
–
+ 2.1 单目标跟踪
+ 2.2 网络结构
+ 2.3 数学描述
+ 2.4 网络结构——pytorch实现
– 3. 复现细节及注意事项
–
+ 3.1 数据处理阶段：
+ 3.2 训练阶段
+ 3.3. 跟踪阶段
+
* 3.3.1 响应图上采样
* 3.3.2 图像金字塔
* 3.3.3 连续跟踪
– 4. 优点和不足
–
+ 4.1优点
+ 4.2 不足
– 5. 发展

论文链接：https://arxiv.org/pdf/1606.09549.pdf
论文代码：复现中

摘要：传统上，任意目标跟踪的问题是通过专门在线学习目标外观的模型来解决的，使用视频本身作为唯一的训练数据。尽管这些方法取得了成功，但他们的纯在线方法固有地限制了他们可以学习的模型的丰富性。最近，有人试图利用深层卷积网络的表达能力。然而， 当要跟踪的目标事先未知时，需要在线执行随机梯度下降以适应网络的权重，这严重影响了系统的速度。在本文中，我们在ILSVRC15数据集上为视频中的目标检测配备了一个基本的跟踪算法和一个新的端到端训练的 孪生神经网络。我们的跟踪器以超过实时的帧速率运行，尽管极其简单，但在多个基准测试中实现了最先进的性能。

1. 论文精华

1.1 Introduction

在单目标跟踪任意对象的问题上，其中对象仅仅由第一帧给框出来，通过算法完成后续的跟踪。由于该算法可能被要求跟踪任意任何对象看，因此不可能已经收集了数据并训练特定的检测器。

最近的几项工作旨在通过使用预训练的深度卷积网络来克服这一限制，该网络是为一项不同但相关的任务学习的。这些方法要么应用”浅层”方法（如相关滤波器），将网络的内部表示作为特征，要么执行SGD（随机梯度下降）来微调网络的多层。各有利弊，使用浅层方法无法充分利用端到端学习，应用SGD以获得最先进结果的方法无法实时运行。

我们提倡另一种方法，即在初始离线阶段训练深度卷积网络来解决更一般的相似性学习问题，然后在跟踪过程中在线简单地评估该函数。本文的主要贡献在于证明，这种方法在现代跟踪基准测试中，以远远超过帧速率要求的速度实现了非常有竞争力的性能。具体来说，我们训练 孪生神经网络在更大的搜索图像中定位样本图像。另一个贡献是一种新的连体结构， 它与搜索图像完全卷积：通过计算其两个输入的互相关的双线性层实现密集而高效的滑动窗口评估。

我们认为，相似性学习方法已相对被忽视，因为追踪社区无法访问大量标记的数据集。事实上，直到最近，可用的数据集只包含几百个带注释的视频。然而，我们认为，用于视频中目标检测的ILSVRC数据集[10]（此后称为ImageNet视频）的出现，使训练这样一个模型成为可能。此外，train和test使用同域视频进行跟踪的深度模型的公平性是一个争议点，VOT委员会最近禁止了这种做法。我们的模型从ImageNet视频域推广到ALOV/OTB/VOT域，使得跟踪基准的视频可以用于测试。

1.2 用于跟踪的深度相似性学习

使用相似性学习可以解决学习跟踪任意对象的问题。我们建议学习一个函数f ( z , x ) {f(z,x)}f (z ,x )，该函数将样本图像z与相同大小的候选图像x进行比较， 如果两个图像描述相同的对象，则返回高分，否则返回低分。为了在新图像中找到物体的位置，我们可以彻底测试所有可能的位置，并选择与物体过去外观最相似的候选位置。在实验中，我们将简单地使用对象的初始外观作为示例。函数f将从带有标记对象轨迹的视频数据集中学习。

图1 全卷积孪生结构。我们的结构相对于搜索图像X是全卷积的。输出是一个标量分数映射，其维度取决于搜索图像的大小。这使得可以在一次评估中得到所有搜索子窗口的相似性。4在这个例子中，输出图中红色和蓝色的像素包含对应子窗口的相似性。

整体可以用此公式表示：

f ( z , x ) = g ( φ ( z ) , φ ( x ) ) {f(z,x)=g(\varphi(z),\varphi(x))}f (z ,x )=g (φ(z ),φ(x ))

当函数g是一个简单的距离或相似性度量时，函数φ {\varphi}φ可以被视为嵌入

; 1.3 全卷积孪生网络结构

采用卷积嵌入函数φ {\varphi}φ，采用互相关层结合输出特征图

f ( z , x ) = γ φ ( z ) ∗ φ ( x ) + b 1 {f(z,x)=\gamma\varphi(z)*{\varphi(x)}+b\mathbb{1}}f (z ,x )=γφ(z )∗φ(x )+b 1

我们采用了一种判别性方法，对网络进行正负配对训练，并采用logistic loss作为损失函数。

2. 说人话环节

2.1 单目标跟踪

单目标跟踪中，通常对第一帧待跟踪目标框出来，算法后续自动框出当前帧目标。SiamFC就是属于这种。

; 2.2 网络结构

首先，对于第一帧的待跟踪目标，我们在目标中心将其crop出来， 得到255 × 255 × 3 255\times255\times3 2 5 5 ×2 5 5 ×3 的search image和127 × 127 × 3 127\times127\times3 1 2 7 ×1 2 7 ×3 的exemplar image。
网络仅有一个backbone，即不要全连接层的Alexnet。当Alexnet输入图像为255 × 255 × 3 255\times255\times3 2 5 5 ×2 5 5 ×3时，输出特征图就是22 × 22 × 128 22\times22\times128 2 2 ×2 2 ×1 2 8；当Alexnet输入图像为127 × 127 × 3 127\times127\times3 1 2 7 ×1 2 7 ×3时，输出特征图就是6 × 6 × 128 6\times6\times128 6 ×6 ×1 2 8。 因此网络是分两次分别输入search image和exemplar image。这也就是文章所说的权值共享，根本上就只有一个网络。
对于得到的search image的特征图和exemplar image的特征图，进行互卷积操作。我们都知道，卷积操作就是利用卷积核去提取和自己相似的特征，是一个模板匹配的过程，而当卷积核为exemplar image时，那其意义就变成了：在图像中找到和自己相似的区域，提取出来。
卷积出来得到了一张17 × 17 × 1 17\times17\times1 1 7 ×1 7 ×1 的特征图，称为响应图，卷积后，若区域和自己很相似，那么在数值上体现出来就是更大，如果两个区域描述相同的对象，则高分，否则低分。那么我们就可以通过这个特征图上的最大值去映射到原图，从而找到待跟踪目标并框出来。

2.3 数学描述

网络提取特征：我们得到search image和exemplar image后，用z z z表示exemplar image，用x x x表示search image，用φ \varphi φ表示网络Alexnet，数学表示为

M a p x = φ ( x ) Map_{x}=\varphi(x)M a p x =φ(x )

M a p z = φ ( z ) Map_{z}=\varphi(z)M a p z =φ(z )

互卷积操作：对特征图进行互卷积操作，是M a p z [ 128 , 6 , 6 ] Map_{z}[128,6,6]M a p z [1 2 8 ,6 ,6 ]作为卷积核，M a p x [ 128 , 22 , 22 ] Map_{x}[128,22,22]M a p x [1 2 8 ,2 2 ,2 2 ]作为待卷积图。卷积用∗ *∗表示，输出响应图用f ( z , x ) f(z,x)f (z ,x )表示，数学表示为

f ( z , x ) = φ ( z ) ∗ φ ( x ) {f(z,x)=\varphi(z)*{\varphi(x)}}f (z ,x )=φ(z )∗φ(x )

响应图调整：在卷积之后为了让loss function得到更高的值，在输出响应图之后，统一调整响应图的大小。当特征图统一乘以或加上某一个数时，对预测响应图中的最大值没有影响，但是对loss的计算——这是作者的原话。数学表示为

f ( z , x ) = γ ( φ ( z ) ∗ φ ( x ) ) + b 1 {f(z,x)=\gamma(\varphi(z)*{\varphi(x)})+b\mathbb{1}}f (z ,x )=γ(φ(z )∗φ(x ))+b 1

即响应图同时乘以一个数γ \gamma γ，同时加上一个数b 1 b\mathbb{1}b 1，对输出结果做压缩或放大。在代码中，这里的γ \gamma γ和b 1 b\mathbb{1}b 1则用1 × 1 1\times1 1 ×1的卷积核实现，即input_channels=1,output_channels=1,stride=[1,1]，没有padding。初始化时，将卷积核的值初始化为1e-3，bias初始化为0，即γ = 1 e − 3 \gamma=1e-3 γ=1 e −3，b 1 = 0 b\mathbb{1}=0 b 1 =0。这也是原文的设置方法。

; 2.4 网络结构——pytorch实现

class SiamFCNet(nn.Module):
    def __init__(self, cfg):
        super(SiamFCNet, self).__init__()
        self.fea_extract = Backbone(cfg)
        self.xcorr = XCorr()
        self.adjust = nn.Conv2d(1, 1, kernel_size = (1, 1), stride = (1, 1))

    def forward(self, x):
        img_x, img_z = x

        fea_z = self.fea_extract(img_z)
        fea_x = self.fea_extract(img_x)

        score_map = self.xcorr(fea_x, fea_z)

        score_map = self.adjust(score_map)
        return score_map

    def init_weights(self):
        for idx, m in enumerate(self.modules()):
            if isinstance(m, nn.Conv2d):
                tmp_layer_idx = idx + 1
                if tmp_layer_idx < 6:
                    nn.init.kaiming_normal_(m.weight.data, mode = 'fan_out', nonlinearity = 'relu')
                else:

                    m.weight.data.fill_(1e-3)
                    m.bias.data.zero_()
            elif isinstance(m, nn.BatchNorm2d):
                m.weight.data.fill_(1)
                m.bias.data.zero_()

class XCorr(nn.Module):
    def __init__(self):
        super(XCorr, self).__init__()

    def forward(self, fea_x, fea_z):
        N, C, H, W = fea_x.shape
        fea_x = fea_x.view(1, -1, H, W)
        score_map = F.conv2d(fea_x, fea_z, groups = N)
        return score_map.transpose(0, 1)

3. 复现细节及注意事项

3.1 数据处理阶段：

search image和exemplar image是从物体中心提取出的，需要在训练时通过groundtruth提取出图像中的目标。此网络是为了得到两张图片的相似情况，因此目标类别可以忽视。
exemplar image为[127, 127, 3]大小，search image为[255, 255, 3]大小。
如何crop出exemplar image：crop目标前，我们有目标当前帧image和bbox。
根据bbox得到目标中心cx,cy，长宽w,h
依据公式s ( w + 2 p ) × s ( h + 2 p ) = A , p = ( w + h ) / 4 s(w+2p)\times{s(h+2p)}=A,p=(w+h)/4 s (w +2 p )×s (h +2 p )=A ,p =(w +h )/4
从cx,cy处中心裁剪，其中A = 12 7 2 A=127^2 A =1 2 7 2，( w + 2 p ) ( h + 2 p ) \sqrt{(w+2p)(h+2p)}(w +2 p )(h +2 p )表示目标crop出的size
将crop出的图像resize到127*127的大小，那么s表示缩放因子，s = ( w + 2 p ) ( h + 2 p ) A s=\cfrac{\sqrt{(w+2p)(h+2p)}}{\sqrt{A}}s =A (w +2 p )(h +2 p )
先计算，后crop，再resize，若超出图像边界，填充各通道平均值
如何crop出search image：crop目标前，我们有目标当前帧image和bbox，以及缩放因子s
search image最终需要resize到255*255，为了保持缩放比例一致，因此有c r o p s i z e 255 = s = ( w + 2 p ) ( h + 2 p ) 127 \cfrac{cropsize}{255}=s=\cfrac{\sqrt{(w+2p)(h+2p)}}{127}2 5 5 c r o p s i z e =s =1 2 7 (w +2 p )(h +2 p )，那么search image需要crop的size为255 × s 255\times{s}2 5 5 ×s
先计算，后crop，再resize，若超出图像边界，填充各通道平均值

3.2 训练阶段

loss采用pytorch中带权重的BCEWithLogitsLoss，并除以batch size，个人理解除以batch size是为了控制反向传播的大小。loss输入为网络输出的score map和label。

label输出如下：

权重输出如下：

响应图输出如下类似：

或者类似这样：

可以看到

label只在中心出现，这是由于我们的图像都是从目标中心crop的
带权重的loss保证loss兼顾正负样本
输出响应图可以看到有不同的响应区域，值越大的区域越有可能出现目标。

; 3.3. 跟踪阶段

3.3.1 响应图上采样

跟踪阶段需要将得到的响应图映射回272 _272大小的响应图，采用双三次插值方法。问：为啥不映射到255_255的大小？

We found that upsampling the score map using bicubic interpolation, from 17 × 17 to 272 × 272, results in more accurate localization since the original map is relatively coarse
因为输出响应图比较粗糙的缘故，我们发现，将响应图利用双三次插值方法上采样到272*272可以获得更精确的定位

3.3.2 图像金字塔

在跟踪时，为了处理比例变化，搜索五个比例的search image，即得到search image的crop size后，搜索五个比例的search image

即C r o p S i z e = c r o p s i z e × 1.02 5 { − 2 , − 1 , 0 , 1 , 2 } CropSize=cropsize\times1.025^{{-2,-1,0,1,2}}C r o p S i z e =c r o p s i z e ×1 .0 2 5 {−2 ,−1 ,0 ,1 ,2 }共五个尺度

3.3.3 连续跟踪

第一帧手动框出图像后，得到第一帧的exemplar image，在后续的论文中也叫做模板。
根据上一帧的物体的cx,cy和w,h，得到当前帧的多个尺度的search image
将search image和exemplar image送入网络，得到响应图
根据响应图的响应位置，改变cx,cy，w,h沿用上一帧，这样第二帧的cx,cy,w,h都有了
重复2-4步骤

; 4. 优点和不足

4.1优点

将跟踪方法从以往的在线更新网络参数，转变为一对图片的相似性比较问题，siamese network in VOT的开山之作！！！！！！！！！！！！！！！！！！！！！！！！！！！
跟踪迅速，网络全卷积，轻量
端到端实现跟踪

4.2 不足

模板仅用第一帧，未更新模板。时间尺度下由于光照、畸变、角度等原因，目标会发生变化（DSiam、UpdateNet等后续论文正在做的事）
跟踪边框大小仅用第一帧，未更新w,h。由于目标离摄像头的远近，目标的大小也会发生变化。
网络得到的响应图还需要自己上采样并得到cx,cy，能不能用统一的框架直接输出目标和边框（siamFC++、SiamRPN等后续论文正在做的事）
采用图像金字塔，运行慢，在目前的技术看来，能不能采用特征金字塔方式（C-RPN、SiamRPN++等后续论文正在做的事）

5. 发展

从现在看来，后续的论文依据此范式，在模板更新、网络一体化、以及加入anchor based、anchor free方法、提高网络提取特征能力上都做足了改进。并且仍然有很大的发展空间。

Original: https://blog.csdn.net/weixin_43913124/article/details/123403727
Author: Matorch
Title: SiamFC论文解读及代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688413/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python线性加权回归_第二十一章 regression算法——线性回归&局部加权回归算法（上）…

理论部分回归是统计学中最有力的工具之一。监督学习算法分为分类算法和回归算法两种，其实就是根据类别标签分布类型为离散型、连续性而定义的。顾名思义，分类算法用于离散型分布预测，如KN…

人工智能 2023年6月18日
0095
【目标检测】54、YOLO v7 | 又是 Alexey AB 大神！专为实时目标检测设计

文章目录 * – 一、背景 – 二、方法 – + 2.1 结构 + 2.2 Trainable bag-of-freebies – …

人工智能 2023年7月12日
0082
python–pandas学习总结

一、Series和DataFrame 1. pandas.Series 2. pandas.DataFrame 二、Pandas常见用法 1. 访问数据 1.1 head()和ta…

人工智能 2023年7月7日
0072
MySQL查看日志的方法

一、查看日志是否开启： 1、show variables where Variable_name = ‘general_log’; 2、show varia…

人工智能 2023年7月30日
0052
阿里云图数据库GDB V3引擎发布，加速开启“图智”未来

一、业务价值，为什么我们要用图数据库？随着互联网时代的快速发展，企业的数据呈现爆发式的增长，数据之间的关联也越来越复杂，图数据库应运而生。最重要的是如何运用技术方式帮助业务发挥辅…

人工智能 2023年7月17日
0056
神经网络参数学习和优化方法的原理

神经网络学习参数和搜索最优超参数的过程梯度检查简单将解析梯度与数值梯度进行比较，但实际上运算非常复杂使用有限差分近似计算数值梯度时，常用公式为： [En] simply com…

人工智能 2023年5月24日
00103
深度学习在神经营销中基于脑电的偏好分类

0 博主的小前言博主前几天读到了一篇文献（Deep Learning for EEG-Based Preference Classification in Neuromarket…

人工智能 2023年7月2日
00110
深度估计自监督模型monodepth2在自己数据集的实战——单卡/多卡训练、推理、Onnx转换和量化指标评估

本文详细介绍monodepth2模型在自己数据集的实战方法，包括单卡/多卡训练、推理、Onnx转换和量化评估等，关于理论部分请参见另一篇博客：深度估计自监督模型monodepth2…

人工智能 2023年7月12日
0087
扑克牌识别

本文主要分为两部分，第一部分为使用moblienetv2 ssd lite训练一个识别扑克牌的模型，第2部分就是将训练好的模型部署到手机上运行，具体的运行效果如下所示： pc端运行…

人工智能 2023年7月20日
0060
【人工智能全栈学习-知识图谱】零基础实践——动手学关系抽取

【人工智能全栈学习-知识图谱】零基础实践——动手学关系抽取一、问题二、人工智能全栈学习系列课程三、代码 * 基础类设计讲解一、问题本章问题导读，如果面试前以下题目还有不会…

人工智能 2023年6月1日
0085
MXNet对分布式推理（Inference）有何支持

MXNet对分布式推理的支持 MXNet是一个高性能深度学习框架，支持在分布式环境下进行模型训练和推理。分布式推理（Inference）是指将模型应用于实际数据并生成预测结果的过程…

人工智能 2024年1月1日
0060
yolox的相关改动

yolox增加一个浅层检测分支前言该篇文章主要介绍yolox中如何增加一个检测层，之前的yolov3-yolov5增加检测分支都有人再写，我网上搜索没看到有yolox增加检测分…

人工智能 2023年6月25日
00147
Python提取PDF中的信息，写入Excel

今天为大家分享一个真实的Python自动化办公案例。完整版代码，文末获取。今天接到人力资源部同事的需求，想把他人投递的PDF简历资料里的关键信息数据，提取到Excel表中汇总。…

人工智能 2023年7月15日
0043
基于OpenHarmony开发的语音小助手

基于OpenHarmony开发的语音小助手本教程将演示如何在BearPi-HM_Nano开发板上使用GPIO输入功能去读取语音模块信息，实现*开关灯自由*！！一、实验前器材准备…

人工智能 2023年5月25日
0078
神经网络学习小记录69——Pytorch 使用Google Colab进行深度学习

神经网络学习小记录69——Pytorch 使用Google Colab进行深度学习注意事项学习前言什么是Google Colab 相关链接利用Colab进行训练 * 一、数…

人工智能 2023年6月16日
0082
【OpenCV 例程200篇】61. 导向滤波（Guided filter）

【OpenCV 例程200篇】61. 导向滤波（Guided filter）欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课…

人工智能 2023年5月26日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SiamFC论文解读及代码实现

SiamFC论文解读及代码实现

1. 论文精华

1.1 Introduction

1.2 用于跟踪的深度相似性学习

; 1.3 全卷积孪生网络结构

2. 说人话环节

2.1 单目标跟踪

; 2.2 网络结构

2.3 数学描述

; 2.4 网络结构——pytorch实现

3. 复现细节及注意事项

3.1 数据处理阶段：

3.2 训练阶段

; 3.3. 跟踪阶段

3.3.1 响应图上采样

3.3.2 图像金字塔

3.3.3 连续跟踪

; 4. 优点和不足

4.1优点

4.2 不足

5. 发展

大家都在看