单目标追踪——【Transformer】Transformer Tracking

2023年6月17日上午2:51 • 人工智能 • 阅读 83

特征融合网络由两个模板组成：基于自注意力的上下文增强模块 + 基于交叉注意力的特征增强模块。 两个都是在增强特征。 不过回想Siamese网络结构中常用的naive correlation、depth-wise correlation、pixel-wise correlation都是在用提取的Template特征作为核来对Search特征进行增强，只是操作不同罢了【 文中分析，原有的correlation是一种局部的线性的匹配过程，会导致语义信息丢失，陷入局部最优】。
TransT的追踪结构也挺简单的：Siamese型的共享backbone网络、基于注意力机制的融合网络、分类和坐标回归预测头。
其实从可视化结果来看，TransT的Search特征的注意力还比较集中在目标上，但是Template特征因为引入Search特征，感觉Template的注意力被分散了。作者在文中说这是个奇怪的分布。所以这种特征设计网络其实感觉有一点草率了，不过Encoder和Decoder堆叠这么多，效果肯定也不会差。

网络结构

上下文增强模块

单目标追踪——【Transformer】Transformer Tracking

这个模块主要就是多头自注意力机制+位置编码Sin函数。与原始的Transformer中的多头自注意力机制一样。所以这个模块叫上下文语境的增强模块也正是因为Transformer中Encoder的自注意力的全局特性。

; 交叉特征增强

这个模块应用了Transformer的Decoder的多头交叉注意力机制、Sin位置编码和前馈神经网络（FFN）。之所以不索性去掉FFN，因为作者认为FFN模块增强了模型的拟合能力。
【不过在上一篇Transformer meets Tracking（TMT）中，有做关于FFN的消融实验证明FFN提升不多反而参数敏感容易坏事。这篇文章的消融实验关注于模块有无，倒也没这么细，不过我相信FFN肯定比TMT中重要啦】

TransT网络结构

这个网络结构倒也中规中矩， 特征提取+特征融合+特征解析。最后在取响应最大生成边界框之前还应用了一个后置操作—— 窗口惩罚，相当于给离上一帧位置过远的响应小权重，因为每隔一帧物体不可能移动过远。
实际上后置处理都是超参敏感的，然鹅在消融实验中验证的时候可以看到，有窗口惩罚比没窗口惩罚的效果（AUC）上升2%，所以调好参数后置操作还是可以滴。

; 可视化结果分析

文中可视化了注意力模块的结果，TransT的网络结构中的特征融合网络一共堆叠了4层ECA和CFA模块。可视化结果也包含了4层。

n=1

n=1是相当于经过ECA的自注意力结果；经过ECA-CFA的交叉注意力结果

第一行是Search区域的自注意力机制，这时候还没有模板信息，所以注意力主要放在前景信息中，简单区分前后景。
第二行是模板的自注意力机制，这时候模板也是对自身应用注意力，提取了模板中的目标特征信息。
第三行是Search区域作为 query_的交叉注意力机制，模板的自注意力结果作为 _key_和 _value，这时候注意力区域开始集中在目标小蚂蚁上。
第四行是模板的交叉注意力机制，模板作为 query_的交叉注意力机制，Search区域的自注意力结果作为 _key_和 _value。特征加强在小蚂蚁尾部，因为相对应的Search特征那部分也比较明显。简单来说就是，在模板特征中引入了Search自注意力特征，反而有点干扰。

; n=2

n=2是相当于经过ECA-CFA-ECA的自注意力结果；经过ECA-CFA-ECA-CFA的交叉注意力结果

第一行是Search特征自注意力的结果，这时候可以看到注意力主要在目标上面了，周围小蚂蚁干扰物只有少部分注意力。
第二行是Template特征自注意力结果，这时候注意力在目标的边界，照理说交叉注意力的结果才会主要在边界，这点有点奇怪。
第三行是Search特征交叉注意力结果，注意力在目标的边界。
第四行是Template特征交叉注意力结果，这个分布更奇怪了，我觉得是因为把Search区域的自注意力结果作为 key_和 _value，让原本的特征污染了。

n=3

n=3是相当于经过ECA-CFA-ECA-CFA-ECA的自注意力结果；经过ECA-CFA-ECA-CFA-ECA-CFA的交叉注意力结果

第一行是Search特征自注意力的结果，这时候可以看到注意力已经大部分在目标上面了。
第二行是Template特征自注意力结果，这时候注意力在目标的边界，但是有点涣散，感觉是被Search特征干扰了。
第三行是Search特征交叉注意力结果，注意力在目标的边界，比n=2的时候有加强。
第四行是Template特征交叉注意力结果，这个分布稍微正常点了，集中在小蚂蚁尾部。

; n=4

n=4是相当于经过ECA-CFA-ECA-CFA-ECA-CFA-ECA的自注意力结果；经过ECA-CFA-ECA-CFA-ECA-CFA-ECA-CFA的交叉注意力结果

第一行是Search特征自注意力的结果，这时候可以看到注意力已经全部在目标上面了，抗干扰牛。
第二行是Template特征自注意力结果已经涣散了，说明当上一层的Template的交叉注意力本来就有点奇怪了，再自注意力效果只会更奇怪。
第三行是Search特征交叉注意力结果，注意力在目标的边界。
第四行是Template特征交叉注意力结果，这个分布更奇怪了，这时候作为 _key_和 _value_的Search区域的自注意力结果都分布在中间，所以注意力在中间。但是感觉这个交叉注意力不该关注边界吗？奇奇怪怪。

强强觉得奇怪吗？

Original: https://blog.csdn.net/qq_42312574/article/details/125591297
Author: zz的大穗禾
Title: 单目标追踪——【Transformer】Transformer Tracking

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628073/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV Java入门一在MAC系统上安装OpenCV

OpenCV网上讲的一个都不对，要么卡死电脑，要么训练模型写死，要么都只是显示显示人脸就说入门了。没有一个从安装、使用、驱动摄像头、训练模型、辩别人脸的全过程。最夸张的是连怎么安装…

人工智能 2023年5月26日
0065
论文阅读：Oriented RepPoints for Aerial Object Detection (CVPR 2022)

paper:https://arxiv.org/abs/2105.11111code:GitHub – LiWentomng/OrientedRepPoints: Th…

人工智能 2023年7月10日
0091
DeepCluster：用于表示视觉特征的无监督学习聚类算法

在这篇文章中，我们要简单介绍Facebook 的”Deep Clustering for Unsupervised Learning of Visual Feature…

人工智能 2023年6月2日
0058
Transformer 自注意力机制及完整代码实现

词嵌入（Word Embedding ）将输入单词用 One-Hot 形式编码成序列向量，向量长度就是预定义的词汇表中拥有的单词量。One-Hot 形式编码看似简洁，但缺点是稀疏…

人工智能 2023年5月27日
0075
数字媒体技术考点整理

一、前言概述部分 1.数字媒体包含哪些类型，涉及哪些研究领域数字媒体包括了文字、图形、图像、音频、视频影像和动画等各种形式，以及传播形式和传播内容中采用数字化，即信息的采集、存取…

人工智能 2023年6月22日
0093
Linux系统中查看当前文件夹下文件的个数

在linux系统中，可以使用 ls 命令查看有多少个文件，该命令用于显示指定目录下的内容，当参数设置为 “wc -c” 时，可显示目录下的文件个数，语法为 …

人工智能 2023年6月30日
00120
基于Anaconda的pandas学习

基于Anaconda的pandas学习 * – Pandas安装 – 创建对象 – + 创建Series对象 + 创建DataFrame对象 +…

人工智能 2023年7月7日
0061
Python计算霍普金斯统计量（Hopkins statistic）评估数据的聚类趋势（聚类可行性）

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0054
自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 T5 Bill of Rights Sample

自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 T5 Bill of Rights Sample 目录 T5 Bill of Rights S…

人工智能 2023年5月30日
0098
YOLO+PaddleOCR实现车牌检测识别

YOLO+PaddleOCR实现车牌检测识别本篇文章将会使用Keras-YOLOV3来训练自己的车牌检测的模型，结合PaddleOCR来识别车牌，最终使用OpenCV将其整体进行…

人工智能 2023年6月17日
0065
安信可内测离线语音模块VB-01与ESP-C3-12F通信

文章目录前言一、VB-01模块介绍二、通信串口选择 * 1.通信串口介绍 2.UART0 3.打印信息说明三、ESP-C3-12F端与VB-01的数据交互 * 1.读取指…

人工智能 2023年5月25日
0077
知识图谱课程报告-关系抽取文献综述

关系抽取文献综述引言：随着大数据的不断发展，在海量的结构化数据或非结构化数据中更低成本的抽取出有价值的信息越来越重要，可以说信息抽取是自然语言处理领域的一项最基本任务，信息…

人工智能 2023年6月1日
0055
Python图像锐化及边缘检测(Roberts、Prewitt、Sobel、Lapllacian、Canny、LOG)

目录图像锐化概述算法方法介绍代码实现效果展示图像锐化概述图像锐化 _(image sharpening)_是补偿图像的轮廓，增强图像的边缘及灰度跳变的部分，使图像变得清…

人工智能 2023年7月30日
0070
【Kaldi例子】Kaldi经典声学建模

在经典语音识别框架中，一个声学模型就是一组HMM。对于语音识别框架中的声学模型中的每个HMM，都定义该HMM中有多少个状态，以及以各个状态起始的马尔可夫链的初始概率、个状态间的转移…

人工智能 2023年5月25日
0056
自学机器学习笔记（十九）

ADABOOST 核心思想：融合一些弱分类器获得强分类器核心流程：先用一部分特征训练一些较弱的分类器，然后再将这些较弱的分类器逐步提升为强的分类器。ADABOOST的核心是调整训…

人工智能 2023年7月2日
0073
基于CC2530设计的智能风扇

1. 项目介绍随着空调制冷设备的频繁使用，空调制冷设备排放的物质对环境的影响越来越大。其次，在深度睡眠后，人们经常会因为温度太低而感冒或感到不舒服。与空调相比，风扇更适合老年人、…

人工智能 2023年5月25日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31