论文地址:https://authors.elsevier.com/c/1bJn23I9x1cgDq
arXiv:https://arxiv.org/abs/2006.12712
很多人都在思考,怎么来表达我们所处的这个三维环境。传统的像3D点云,体素等等表征背后都有一套完整的3D视觉解决方法。3D点云显然很直观也很直接。但是,这其实和我们人类对环境的认知有点区别。当我们通过记忆回忆某个场景时,想起某个位置,可以由此联想到这个位置所对应的大致场景内容。借鉴这个思路,有没有可能提出一些新的思路来解决3D视觉中的某些问题呢?
在尝试解决这个问题前,我们找了一个切入点,3D视觉中的相机位姿估计(camera localization)问题,试图通过这个问题,深入的思考包括SLAM在内的一些3D视觉问题,是否存在不一样的解决方案?
当我们用GAN来做相机的位姿估计时(取了个名字叫PoseGAN),发现了一些很有趣的应用。
上图!
1.PoseGAN能生成数据库中没有的图片。这些图片的内容以及对应的位姿都能和场景很好的关联起来。图1 中蓝色曲线是相机的运动轨迹。我们虚拟了两条相机并未走过的路线,路线A和路线B,接着让PoseGAN沿着这两条虚拟的路线进行图片生成。生成的图片也能和场景很好的吻合在一起。
图1. View synthesis based on the Pumpkin dataset by the proposed PoseGANs. (a) camera trajectory of seq-01 in the Pumpkin dataset. (b) corresponding camera shot images along the camera’s trajectory. (c) generated images along the camera’s trajectory. (d) and (e) are images synthesized along virtual routes A and B where the poses along the routes are obtained by linear and parabola interpolations between the start and the end points of the camera’s trajectory, respectively.
2.视频的超帧率。两段视频左边的是数据库的原视频,右边是10倍帧率还原(生成的)。生成的原理可以用图2 来说明,即我们在相邻两帧中插入10帧,这样视频看起来就连贯多了。数据库里面原本视频分辨率不高,清晰度一般。
知乎视频www.zhihu.com
知乎视频www.zhihu.com
图2. Frame Interpolation of seq-01 in the Fire dataset. (a) and (c) are the start and end frame, respectively, which are taken from the Fire dataset, and (b) shows frames interpolated between (a) and (c).
- 对运动物体的鲁棒性。3D点云很大一个干扰源就是运动物体。场景中存在运动物体时,点云的呈现效果会有折扣。PoseGAN对运动物体有很好的鲁棒性。当场景中有运动物体时,用PoseGAN进行生成会把这些运动的物体给抹掉。
图3. Moving Object Elimination. (a) seq-01 of the KingsCollege dataset, (b) seq-02 of the ShopFacade dataset. Original images from datasets are at the top, and generated images are at the bottom. Red circles in (a) and (b) mark pedestrians. As a comparison, PoseGANs only synthesize the scene, and remove the pedestrians in the scene.
其实,PoseGAN主要是设计来做相机位姿估计的。在相机位姿估计这个任务上,不需要没有像PoseNet那样深的网络。PoseGAN本身还是很轻量化的。GAN能不能用到SLAM这一类任务上呢?欢迎一起探讨!
Original: https://blog.csdn.net/weixin_36046702/article/details/112064924
Author: 纤雀
Title: pygame里面物体闪烁运动_PoseGAN:用GAN做3D视觉可以做到什么程度?相机位姿估计、超帧率、运动物体的消除。。。。。…
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/784211/
转载文章受原作者版权保护。转载请注明原作者出处!