ECCV 2022 | 港中文MMLab：基于Transformer的光流

2023年6月16日上午10:00 • 人工智能 • 阅读 74

©PaperWeekly 原创 · 作者 |Zhaoyang Huang

单位 | 香港中文大学MMLab

研究方向 |视觉关联性学习

Transformer 今年在图像领域展现出了很好地性能，相比于 CNN，它们的优势之一是基于注意力机制的长程建模能力。本文解读港中文 MMLab 在 ECCV 2022 上发表的论文《FlowFormer: A Transformer Architecture for Optical Flow》。这项工作提出了 FlowFormer 算法将 Transformer 结构结合进光流估计的框架中，显著提升了光流估计的性能。

只在 FlyingChairs+FlyingThings 上训练后，FlowFormer 在 Sintel Training 的 clean 与 final 两个子集中分别取得了 0.64 与 1.50 AEPE。与之前发表的最好结果（1.29 和 2.74）相比，误差下降了 50.4% 和 45.3%，体现了其卓越的泛化性。在公开的 Sintel benchmark（test）上，FlowFormer 在clean 和 final 两个子集中取得了 1.159 和 2.088 AEPE，降低了此前发表的最优误差（1.388 和 2.47）达 16.5% 和 15.5%。

论文标题：

FlowFormer: A Transformer Architecture for Optical Flow

收录会议：

ECCV 2022

论文主页：

https://drinkingcoder.github.io/publication/flowformer/

论文介绍

光流的目标是估计源图像中每个像素在目标图像的对应位置，在许多下游任务，如动作识别、视频修复、视频超分等任务中提供重要输入。本文首先简要介绍 RAFT。RAFT 先使用一个孪生 CNN 从一对 H x W 图像中抽取视觉特征，为所有像素对计算特征相似性形成一个 H x W x H x W 的 4D cost volume，然后使用一个卷积循环神经网络（Conv-GRU）从这个 cost volume 中获取特征，不断优化光流估计。

FlowFormer 基于 RAFT 的思想，探索了使用 Transformer 对其进行全方位改进，包含了以下重要模块：1）Alternate-Group Transformer （AGT）层，将 4D cost volume 投影至隐空间编码为cost memory；2） Recurrent Transformer Decoder，使用 dynamic positional cost query 循环的从 cost memory 中提取信息来优化光流估计；3）首次验证了使用 ImageNet 预训练的 Transformer 来编码图像特征可以提升光流估计性能。

光流估计中我们一般假设两幅图像中相应位置的外表不变，因此传统算法中光流被建模为优化问题，即在一些正则项约束下寻找两张图像中的对应位置使得对应位置的视觉相似性最大化。这种思想在深度学习时代也是针对光流估计的网络架构基本原则之一，表现为计算两张图像的视觉相似性（costs），学习编码 costs 并从中解码出光流向量。这在光流学习的标杆架构 PWC-Net 和 RAFT 中都得到了充分体现。

相比于 CNN，Transformer 破除了局部偏差（locality bias）并能进行长程建模。PerceiverIO 开创性的使用纯 Transformer 来学习光流估计，它直接对图像像素 tokenization 并用一个通用的输入-输出映射来学习光流估计。由于它没有用任何针对光流的信息，如视觉相似性，因此其需要大量的参数参数和训练数据来学习（约 80 倍的 RAFT 训练数据量）。因此我们提出一个问题：我们能否同时获益于 Transformer 的长程建模能力并从视觉相似性信息中估计光流？针对这个问题，该论文提出了 FlowFormer。

算法细节

AGT Cost Encoder：一种最简单的使用 Transformer 来编码 4D cost volume 的方法是直接将其转化为 cost token 后使用标准的 Transformer，如将每个 3 x 3 x 3 x 3 的 cost 通过 mlp 提取为 token，但是由于该策略在 4D cost volume 上会产生上千个 2D token，因此其占用的显存和算力都是不可接受的。

该论文观察到，对每个像素而言，光流估计的信息来源是当前像素与目标图像中所有像素的相似性，即 H x W 的 cost map。因此将每个像素的 cost map 投到同一个隐空间中形成 K 个 token，即从 H x W x H x W 的 4D cost volume 转化成H x W x K 个 token，其中每个 token 维度为 D。在此基础上我们使用轮换分组（alternate-group）Transformer 对这些 token 进行编码。

具体来说，FlowFormer 进行两种分组：第一种有 H x W 组，每组 K 个 token，这样每组对应一个原图中的像素而组内 token 编码了该像素对应的 cost map 信息；第二种有 K 组，每组 H x W 个 token，这样每组对应一种隐空间特征而组内 token 编码了所有原图像素的该特征。

AGT 轮流使用这两种分组，对组内的 token 使用 Transformer 编码，这样信息可以在所有 token 之间进行传播但算力相比同时对所有 token 使用 Transformer 又大幅下降。我们使用了三层 AGT，最终得到 H x W x K 个 token，并将其作为编码后的 cost memory。

Recurrent Transformer Decoder with Dynamic Positional Cost Query：FlowFormer 迭代的使用当前估计的光流从 H x W x K cost memory 中来提取信息优化光流估计：

根据当前的光流估计生成 Query（Dynamic Positional Cost Query），具体来说，给定一个源图像素的位置与当前估计的光流，我们可以计算得到该像素对应到目标图的位置以及该位置的 9 9 的局部 cost；
根据 cost memory 生成 Key () 和 Value ())；
使用注意力机制提取信息。

然后从得到的信息估计 f(x) 来优化光流估计：。该论文参考 RAFT 的机制使用循环卷积神经网络不断迭代优化光流估计。

使用预训练的 Transformer 来提取图像特征：在目前的 Transformer 架构中，Twins-SVT 对图像尺寸的变化敏感性较低，相比于经典的 ViT 需要的算力较小，因此 FlowFormer 使用 Twins-SVT Large 的前两个阶段来提取图像特征，并使用 ImageNet 预训练的参数来初始化网络。

实验效果

该论文在 Sintel 和 KITTI 两个数据集上评测 FlowFormer。Sintel 有两个子集：clean 子集与 Final 子集的内容相同，但是 Final 子集中的图像存在运动模糊往往更为困难。

泛化性：在 FlyingChairs 于 FlyingThings（C+T）上训练，在 Sintel 与 KITTI 的训练集上计算光流误差，这种方法能评测光流模型的泛化性。如上表所示，FlowFormer 在 Sintel 训练集 clean 与 final 两个子集上的误差分别是 0.64 和 1.50，在 KITTI-15 训练集的 F1-epe 与 F1-all 分别达到了 4.09 和 14.72。与 GMA 相比，FlowFormer 在 Sintel 训练集两个子集上分别减少了 50.4% 与 45.3% 的误差，在 KITTI-15 F1-all 上减少了 13.9%，充分展示了 FlowFormer 优异的繁华性能。

Sintel Benchmark 上的精度分析：在 FlyingChairs、FlyingThings、Sintel 训练集这三个数据集上训练，在 Sintel 测试集上评测。FlowFormer 将误差降到了 1.16 和 2.09，下降比率达到了 16.5% 和 15.5%。

KITTI-15 Benchmark 上的精度分析：在 FlyingChairs、FlyingThings、Sintel 训练集、KITTI-15 训练集、HD1K 这五个数据集上训练，在 KITTI-15 测试集上评测。FlowFormer 排名第二，比S-Flow稍差（-0.85%），但是在 Sintel Benchmark 上 S-Flow 远差于 FlowFormer（在 clean 好 final 两个子集上误差大了 31.6% 和 22.5%）。S-Flow 根据修正后的 cost map 来计算坐标期望值作为光流估计。在 KITTI 中图像内容大多是刚体，因此对应的光流更简单，这更适合这种基于 cost map 的坐标期望，但是这不适用于非刚体场景，如Sintel数据集。

可视化结果

对比 Sintel 上 FlowFormer 与 GMA 的光流估计可视化结果（下图所示），FlowFormer 大量减少了物体边界上光流估计的溢出效应（红色箭头所指）并产生了更清晰的细节（蓝色箭头所指）。

视频序列的可视化对比与结果。

YouTube链接：

https://www.youtube.com/watch?v=wPnkbrvqUOk&list=PL6liSIqFR4BU-QdZjL7eW1vPbPnEchXmj&ab_channel=ZhaoyangHuang

bilibili链接：

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读，也可以是 学术热点剖析、 科研心得或 竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人 原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供 业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（ pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在 「知乎」也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」订阅我们的专栏吧

Original: https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126672383
Author: PaperWeekly
Title: ECCV 2022 | 港中文MMLab：基于Transformer的光流

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623173/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

openCV实践项目：银行卡卡号识别

本文用于对之前openCV知识点学习的复习及实践。要求达到以下效果：一、基本流程思路分析本项目本质上就是进行模板匹配。注：为多用到所学知识，为了加深理解多加了些步骤，实际上本…

人工智能 2023年6月18日
00106
如何在pycharm中使用anaconda的虚拟环境

最近项目中有许多同学咨询如何在pycharm中使用anaconda的虚拟环境（envs），这里就给大家简单介绍一下。首先我们需要安装anaconda，这里就不在追述了，网上安装教…

人工智能 2023年7月4日
0085
cycleGAN代码实现（附详细代码注释）

最近刚刚入门深度学习，试着复现cycleGAN代码。看了一个YouTube博主的cycleGAN代码，自己跟着写了一遍，同时加上了代码注释，希望能帮到同样的入门伙伴下面的gith…

人工智能 2023年6月4日
0076
halcon提取图像中的红色区域，其他颜色可以模仿

原图方法1、效果图先提取红色通道，然后红色通道一次减去绿色和蓝色通道，最后得到的就是纯红色通道 decompose3 (Image, Image1, Image2, Image…

人工智能 2023年6月20日
0075
计算yolov5中detect.py生成图像的mAP

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、用YoloV5的detect.py生成预测图，预测类别，预测框坐标，预测置信度 * 1、跑de…

人工智能 2023年6月17日
00101
YOLOv7 Tensorrt Python部署教程

B站教学视频 https://www.bilibili.com/video/BV1q34y1n7Bw/ Github仓库地址 https://github.com/Monday-L…

人工智能 2023年6月16日
0073
目标检测—教你利用yolov5训练自己的目标检测模型

目录 1项目的克隆和必要的环境依赖 1.1项目的克隆 1.2项目代码结构整体介绍 1.3环境的安装和依赖的安装 2 数据集和预训练权重的准备 2.1利用labelimg标注数据和数…

人工智能 2023年7月12日
0063
基于类的有效数抽样CBEN

《Long-tailed Visual Recognition via Gaussian Clouded Logit Adjustment》论文：链接: link代码：链接: …

人工智能 2023年6月20日
0077
《Neo4j全站开发》笔记

《Neo4j全站开发》附件A 参考资料 1.Neo4j下载链接：https://neo4j.com/download-center/2.Neo4j开发手册：https://neo…

人工智能 2023年6月1日
0069
解决(‘You must install pydot (`pip install pydot`) and install graphviz (see…) ‘, ‘for plot_model..

目录一、报错提示二、解决方案（共四步） * 2.1 安装pydot 2.2 下载并安装graphviz包 2.3 配置环境变量（graphviz） 2.4 调用三、结果展示 …

人工智能 2023年6月17日
0075
利用Pytorch实现GoogLeNet网络

目录 1 GoogLeNet网络 1.1 网络结构及参数 1.2 Inception结构 1.3 带降维功能的Inception结构 1.4 辅助分类器 2 利用Pytorch实…

人工智能 2023年7月22日
0046
【超分辨】SRGAN详解及其pytorch代码解释

SRGAN详解介绍网络结构损失函数数据处理网络训练介绍「2023年更新」本代码是学习参考代码，一般不能直接运行，想找现成能运行的建议看看其他的。SRGAN是一个超分辨…

人工智能 2023年7月21日
0050
Text-to-Table: A New Way of Information Extraction

作者：Xueqing Wu1, Jiacheng Zhang2, Hang Li2 单位：University of Illinois Urbana-Champaign1,Byte…

人工智能 2023年5月28日
0086
数据特征分析方法总结

数据特征分析方法总结 21世纪是大数据的时代，因为这些大数据中蕴含着时代发展的信息。如何科学地分析数据特征是数据分析师必须掌握的基础技能之一。因此，我今天主要希望通过理论推导并实现…

人工智能 2023年6月19日
0072
【hive】（电影推荐系统的数据）在hive中创表，并导入数据，同时取出自己想要的数据

目标将本地表导入hive中，并完成一系列的查询我这里一共有四个表，分别是 movies ratings tags links，分别如下 ; 一、在HDFS中创建文件夹二、将本地…

人工智能 2023年7月16日
0080
【Mongodb数据库】的介绍和安装（windows下和ubuntu16.04下安装及启动）

目录：每篇前言：一、介绍二、windows中安装 * 1. 安装mongodb： 2. 启动mongodb的三种方法： – ①方法1（旧方法，不推荐）： ②方法2…

人工智能 2023年7月30日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ECCV 2022 | 港中文MMLab：基于Transformer的光流

大家都在看