深度估计自监督模型monodepth2论文总结和源码分析【理论部分】

2023年7月18日下午8:55 • 人工智能 • 阅读 76

本文主要对monodepth2的理论和源码部分进行一定的总结，实战部分可以参考我的另一篇博客深度估计自监督模型monodepth2在自己数据集的实战——单卡/多卡训练、推理、Onnx转换和量化指标评估

一、论文理解：

本论文主要是基于单目视频流的方法，也可加入双目立体图像训练，
主体上继承Unsupervised Learning of Depth and Ego-Motion from Video(CVPR 2017)的视频无监督方案，加入三点提升。图像重构的基础原理如下：

上面公式相当于两个相机坐标系下的转换，即原图像先用内参的逆转换到它的相机坐标系，再用旋转平移矩阵转到另一个相机坐标系，再用内参转到另一个相机的图像坐标系，注意这里用的是反向warping，可以保证source图和重构target图像中的像素一一对应，而深度Z是数乘，可以变换位置。网络中使用depth网络预测深度，也就是D，输入是第0帧图像，,再用pose网络预测位姿变换，也就是T，输入是-1和0,0和1两对图像，然后用D,T和已知的K，用第-1帧和第1帧分别来重构第0帧（target图像），分别计算原始图像和重构图像之间的损失，最后对损失逐像素取最小值。

损失函数包括两部分，主要包括光度重建损失和L1损失的加权、边缘平滑损失:

重建损失Lp：

平滑损失Ls：

主要提升：

一个最小重投影误差，用来提升算法处理遮挡场景的鲁棒性、
一种全分辨率多尺度采样方法，可以减少视觉伪影
一种auto-masking loss，用来忽略训练像素中违反相机运动假设的像素点

第一点意思是其他方法是采用多个输入图片投影误差的均值，这样由于有些像素存在遮挡，找不到对应的像素，导致损失函数惩罚较大，会引起结果边缘不准，本文采用的是多张输入图片中最小的冲投影损失所谓损失函数，可以使深度边缘更清晰，准确性更高。
第二点意思是其他方法是在CNN每一层输出的深度图上直接计算损失，导致低分辨率的深度图可能出现空洞和视觉伪影（texture-copy artifacts.）,本文把每一个中间层输出的深度图都用双线性插值上采样到与输入一致的分辨率，减少了视觉伪影。

其他问题：
1、本算法失效的情况：违反朗伯假设的，如畸变的，反光的，饱和度高的区域，和边缘模糊、形状复杂的目标
2、提到full eigen数据集里面有一些相机静止的序列，依然表现较好，还有一个KITTI补全的数据集评测效果也较好，后面可以看看如何补全。
3、用了reflection padding代替zero padding,解码器中对于超出边界之外的点用最近的边界像素代替。位姿网络中用轴角表示法，旋转平移矩阵乘以0.01，预测6个自由度的位姿。最后的尺度恢复采用中值缩放的方式，把输出和真值缩放到同样的尺度。真值采用整个测试集的真值尺度。
4、实验部分围绕三个改进点分别测试。

二、代码阅读：
1.输入部分：
数据输入部分随机地做颜色增强和翻转的augmentation，输入网络的部分是做了augmentation的部分。如果选share的encoder,全部frame都要输进去，否则只输第0帧得到depth。输入网络的数据做了四种尺度变化，最开始保留了5种，原始，设定，设定/2、4、8，然后删掉了原始。内参矩阵也做了四种尺度变化（这个为了图像重建的计算）只把设定分辨率的输入输入了encoder和depth_decoder中，使用不用的输入输出通道数得到了四个分辨率的disp图。如果有depth_gt的话也输入了网络作为监督信号加速loss收敛。

2.depth网络：
depth网络把得到的四种尺度图像输入encoder，得到futures再输入depth_decoder。整个网络类似于U-NET结构。

3.pose网络：
Pose网络有三种可选：共享encoder、单独的resnetencoder(默认)、单独的pose网络。如果使用共享模式，直接把encoder对应的frame_id的特征输入decoder,用单独的encoder情况把输入数据中原始大小的每一对frame拼接在一起输入encoder, Posedecoder输出两个特征，R和T, cam_T_cam这个矩阵是结合R和T的。

4.计算重建图像：
generate_images_pred函数,就是利用depth网络输出的disp(可得到depth)和pose网络输出的RT,重建图像。首先把每一层的disp图都双线性插值上采样到原始分辨率，再把每个深度图转成点云，用meshgrid函数画坐标轴，再把点云通过RT转到另一个相机坐标系，再用内参转到另一个图像的坐标。转完得到了sample，最后两维代表0帧到1或-1帧的坐标对应关系，然后用F.grid_sample函数从1或-1帧图中按照sample的坐标点取值（非整数坐标插值），重建0帧图像，可以和原始0帧图像计算损失。这就是反向warp的操作，这样可以保证坐标点一一对应（虽然会有重复像素），正向warp是重建1或-1帧，不能保证一一对应。

5.计算损失：
compute_losses函数计算损失，包括重建损失和平滑损失。重建损失分别计算了每一层深度图（已上采样到原始分辨率）每一组前后帧输入的重建损失reprojection_losses，指标采用SSIM和L1加权平均，这个操作对应了主要贡献的第二条。然后又计算了identity_reprojection_losses，也就是前后帧之间的相似度，然后全拼接在一起按channel取最小值，这样就同时实现了主要贡献中的第一、三条，即把多个图像相应像素损失的最小值而不是平均值纳入loss,可以更好地处理遮挡场景，使得边缘清晰，同时实现了auto-mask, 忽略了前后帧像素没怎么变化的区域（运动区域），保留了有变化的区域。代码中还提供了其他mask形式的对照。如果是预输入的mask，则直接乘以mask矩阵。平滑损失用到了inputs中其它分辨率的输入图像，和相应的深度图联合计算。最后还计算了总损失。

6.由于第一次看pytorch代码，记录一些小收获：
a.nn.Sequential和nn.ModuleList的区别，见详解PyTorch中的ModuleList和Sequential – 知乎 (zhihu.com)
b.pytorch把所有的参数分类都写在options.py里面，用self.parser.add_argument读取，非常清晰。里面还包括了作者做对照试验用到的参数，很多都是可配置的。
c.网络里用到了nn.init.kaiming_normal_这个初始化函数(一看就是大神的),专门针对relu做初始化，见https://blog.csdn.net/dss_dssssd/article/details/83959474，还有 nn.ELU激活函数，可输出负数，再就是SSIM网络利用了反射padding：nn.ReflectionPad2d
d.model.model_dict()和optimizer.state_dict（）存储了模型参数和优化器参数字典。
e. SummaryWriter可以做可视化，包括loss、模型等
f .SSIM计算用到了方差=平方的均值-均值的平方，且用平均池化做了局部均值方差的计算。
g.checkpoints的意思https://www.cnblogs.com/jiangkejie/p/13049684.html
h. len(self)和__getitem__(self, index)这种格式用来自定义一些属性，这两个代表len()和直接取索引

Original: https://blog.csdn.net/weixin_43148897/article/details/122453979
Author: 苹果姐
Title: 深度估计自监督模型monodepth2论文总结和源码分析【理论部分】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/701520/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python实现新年倒计时代码

最近老想着过年和我的一个哥哥打游戏于是乎就敲了一个新年倒计时的代码出来大家用的时候可以更改上面的日期，以后年年都可以用话不多说，上代码代码： import datetime…

人工智能 2023年7月31日
0056
TensorFlow2.0 —— 模型保存与加载

保存模型权重（model.save_weights）保存HDF5文件（model.save）保存pb文件（tf.saved_model） tf.saved_model和mode…

人工智能 2023年5月25日
0087
基于LSTM电商评论情感分析-多评价指标可视化版（内附源码）【自然语言处理NLP-100例】

🔗 运行环境：python3 🚩 作者：K同学啊 🥇 精选专栏：《深度学习100例》 🔥 推荐专栏：《新手入门深度学习》 📚 极品专栏：《Matplotlib教程》 📔 选自专栏：…

人工智能 2023年5月25日
00100
《天池龙珠 – Python训练营》04.Python数据分析：从0完成一个数据分析实战

目录 1、赛前准备 2、数据处理 3、数据探索与清洗 4、数据分析与数据可视化 5、补充 1、赛前准备按照官方的新手教程，大致可概括为以下内容：数据源介绍（详情参考训练营文档）…

人工智能 2023年6月11日
0073
python数据处理包——pandas

目录 pandas.DataFrame * – 新建dataframe 将数据转化为dataframe + dict与dataframe list与dataframe …

人工智能 2023年7月7日
00108
Matlab实现扩频通信系统

1 简介本文阐述了扩展频谱通信技术的理论基础和实现方法,利用MATLAB提供的可视化工具Simulink建立了扩频通信系统仿真模型,详细讲述了各模块的设计,并指出了仿真建模中要注…

人工智能 2023年6月22日
0054
Python 微信自动化工具开发系列01_自动获取微信聊天信息（2022年10月可用）

前言 一个需求 需要利&a…

人工智能 2023年7月5日
0074
多目标进化优化（MOEA）方法

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0082
Dataframe按行按列遍历的几种方式

遍历数据有以下三种方法：目录按行遍历iterrows(): 按行遍历itertuples(): 按列遍历iteritems(): 简单对上面三种方法进行说明： iterr…

人工智能 2023年7月6日
0088
【机器学习】第一章

监督学习(Supervised Learning)分两类回归(Regression)，连续的(直线或曲线) 分类(Classification)，离散的(1或0) 回归：尝试预…

人工智能 2023年6月18日
0092
无人驾驶汽车的相关技术,无人驾驶相关技术知识

无人驾驶涉及哪些技术无人驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，通过电脑实现无人驾驶，可以在没有任何人类主动的操作下，自动安全地操作机动车辆。无人…

人工智能 2023年6月25日
0095
Gremlin vs Cypher vs nGQL

图数据库是使用图结构进行语义查询的数据库，它使用节点、边和属性来表示和存储数据。虽然和关系型数据库存储的结构不同（关系型数据库为表结构，图数据库为图结构），但不计各自的性能问题，…

人工智能 2023年6月10日
0065
Learning算法中的优化算法有哪些常见的类型

关于优化算法的介绍在机器学习（ML）和深度学习（DL）中，优化算法是非常重要的一部分，因为它们能够帮助我们寻找最优的模型参数，从而提高学习算法的性能。常见的优化算法包括梯度下降、…

人工智能 2024年1月1日
0047
关于多标签分类任务的损失函数和评价指标的一点理解

关于多标签分类任务的损失函数和评价指标的一点理解之前有接触到多标签分类任务，但是主要关注点都放在模型结构中，最近关于多标签分类任务进行了一个讨论，发现其中有些细节不是太清楚，经过…

人工智能 2023年7月3日
0070
CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面7–对接讯时FXO网关落地

CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面7–对接FXO网关落地 1、创建自动话务台 2、创建PBX SIP中继并设置呼入权限 3、…

人工智能 2023年6月29日
0084
极端气候？自然灾害？【实战】机器学习预测森林火灾

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 本文地址：https://www.showm…

人工智能 2023年6月16日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度估计自监督模型monodepth2论文总结和源码分析【理论部分】

大家都在看