插帧中grid_sample函数详解

2023年7月23日上午9:16 • 人工智能 • 阅读 59

从之前VSR到后来做MEMC，基本都要用到该函数，但是VSR后期后很多工作很多抛弃了warp操作，因此没有深入研究。但是MEMC是必须用的，否则就要用超级大的网络直接端到端的生成。认准原创https://blog.csdn.net/longshaonihaoa/article/details/125964061

1、grid_sample基本功能讲解

官方讲解：
https://pytorch.org/docs/stable/generated/torch.nn.functional.grid_sample.html

函数原型：

torch.nn.functional.grid_sample(input, grid, mode='bilinear', padding_mode='zeros', align_corners=None)

参数选择：
函数有两个输入项，三个可选参数项。
input：输入，原始图像。维度[B，3，H，W]
grid：映射表。维度[B，H，W，2]，值归一化为[-1, 1]
mode: 插值模式，可选双线性’bilinear’，最近邻’nearest’。
padding_mode: 补边模式，可选反射’reflection’，边缘’border’，零’zero’。
align_corners: 对齐模式，是否选择对齐。

函数功能：
首先我们区分一下坐标和值的区别。比如一张图片，坐标是指某个位置，如（2，3）就是指定图像的第2行第3列那个位置。值是说这个位置上的像素值。
对应到grid上，他每个坐标处会有两个值，对应的是映射后的坐标。所以grid的最后一维是2，分别对应X，Y。这里XY的值归一化到了[-1,1]，在应用是需注意，在函数内部实现中会映射到原始尺寸。下面例子中为了形象讲grid时用非归一化的值。（为啥要归一化，开始我觉得蛮多此一举，最近我看图形学也有类似的归一化，应该有一样的原理？）当对输入图像进行处理时，比如需要处理（2，3）这个坐标。那就查grid中坐标为（2，3）的值，假设为（3，3），那就把原图中（2，3）这个坐标上的值赋给输出（3，3）这个坐标。

参数介绍：
padding_mode：当grid的值超出了宽高界限，该怎么选择值。
reflection: 用关于边界的对称点的值，直到坐标落在界内。
border：用边界的值代替
zeros：用0代替。

align_corner: 双线性插值的固有参数，是否对其。
这两个参数在下文代码中会更详细介绍。

2、ATen代码实现

基本逻辑如下：

逐像素循环处理
for (const auto h : c10::irange(out_H)) {
    for (const auto w : c10::irange(out_W)) {
        ...

        // 对坐标进行处理，接下来会讲这个函数
        scalar_t ix = grid_sampler_compute_source_index(x, inp_W, padding_mode, align_corners);
        scalar_t iy = grid_sampler_compute_source_index(y, inp_H, padding_mode, align_corners);
        if (interpolation_mode == GridSamplerInterpolation::Bilinear) {
            // 双线性插值操作
            ...

            }
        else if (interpolation_mode == GridSamplerInterpolation::Nearest) {
            // 最近邻插值操作
            int64_t ix_nearest = static_cast(std::nearbyint(ix));
            int64_t iy_nearest = static_cast(std::nearbyint(iy));
            ...

            }

从以下可以看出它调用了两个函数，一个是unnormalize，一个是计算坐标。

scalar_t grid_sampler_compute_source_index(...) {
  coord = grid_sampler_unnormalize(coord, size, align_corners);
  coord = compute_coordinates(coord, size, padding_mode, align_corners);
  return coord;
}

unnormalize 实现如下。根据align_corner的设置得到不同运算。当align_corner为True时，原来的[-1,1]映射为[0, size – 1]。False则将[-1, 1] to [-0.5, size – 0.5]。具体代码如下

scalar_t grid_sampler_unnormalize(scalar_t coord, int size, bool align_corners) {
  if (align_corners) {
    // unnormalize coord from [-1, 1] to [0, size - 1]
    return ((coord + 1.f) / 2) * (size - 1);
  } else {
    // unnormalize coord from [-1, 1] to [-0.5, size - 0.5]
    return ((coord + 1.f) * size - 1) / 2;
  }
}

注意align_corner并非只有此处使用。
计算坐标主要是说对padding_mode的处理。主要可以看以下这部分代码：

scalar_t reflect_coordinates(scalar_t in, int twice_low, int twice_high) {
  ...

  scalar_t min = static_cast(twice_low) / 2;
  scalar_t span = static_cast(twice_high - twice_low) / 2;
  in = ::fabs(in - min);
  scalar_t extra = ::fmod(in, span);
  int flips = static_cast(::floor(in / span));
  if (flips % 2 == 0) {    // return略有修改，因为我觉得这样更清楚
    return min + extra;
  } else {
    return min + （span - extra）;
  }
}

3、CUDA实现

4、注意点

grid给定的事归一化的坐标值，而非偏移量。区别在于，坐标值直接通过unnormalize得到目标坐标。而偏移量需要加上当前坐标才能的到目标坐标。

Original: https://blog.csdn.net/longshaonihaoa/article/details/125964061
Author: 是暮涯啊
Title: 插帧中grid_sample函数详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710365/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

spark dataFrame withColumn

说明：withColumn用于在原有DF新增一列初始化sqlContext val sqlContext = new org.apache.spark.sql.SQLContex…

人工智能 2023年6月2日
0070
WWW 2021｜多元知识图谱的自动化稀疏张量分解建模

©PaperWeekly 原创 · 作者｜邸世民学校｜香港科技大学博士生研究方向｜神经结构搜索、知识图谱嵌入简介近年来，不同的嵌入（Embedding）模型被提出用以解决多…

人工智能 2023年6月1日
0068
模型实践｜ CLIP 模型

实验｜Aircloud 算力支持｜幻方萤火二号 CLIP(Contrastive Language-Image Pre-Training，以下简称 CLIP) 模型是 OpenAI…

人工智能 2023年7月28日
0051
java 连接janusgraph_图数据库JanusGraph服务化

完全开源最好的图数据库之一安装JanusGraphServer 1) 创建系统账号janus groupadd janus && useradd -d /home…

人工智能 2023年6月4日
0081
Chapter 6 pandas中的时间序列

时间序列的创建 start——创建时间序列的起始时间end——创建时间序列的结束时间freq——创建时间间隔依据 D天 M月，若每隔三天可以使用3D。periods——创建时间序…

人工智能 2023年7月8日
0078
最新Anaconda3的安装配置及使用教程（详细过程）

最新Anaconda3的安装配置及使用教程（详细过程） 1. Anaconda下载 * 方式一：官网下载方式二：清华镜像下载（推荐） 2. Anaconda安装 3. Anaco…

人工智能 2023年5月31日
00155
Vue基于django的超时代停车场管理系统python

智能停车场管理系统在住宅小区、大厦、单位的应用越来越普遍。而人们对停车场管理的要求也越来越高，智能化程度也越来越高，使用更加方便快捷，也给人类的生活带来了方便和快乐。不仅提高了现代…

人工智能 2023年6月27日
0053
新技术的成熟、商业模式的完备，产业互联网的落地提供了土壤

仅仅只是站在互联网的角度来看待产业互联网，只会把产业互联网带入到互联网的发展怪圈之中。这是我们看到如此多的产业互联网玩家投身其中，却一直并未有所突破的关键原因。纵然是那些头部的互联…

人工智能 2023年5月30日
0082
tensorflow2.5.0 pb模型转tensorrt

环境如下： tensorflow2.5.0 / tensorrt8.0/ cuda11.0/ pycuda2021/ bazel3.7.2/ python3.8/ cudatool…

人工智能 2023年5月25日
0091
Linux服务器安装pytorch更换conda清华镜像源

1、添加清华镜像源依次输入以下命令： conda config –add channels https://mirros.tuna.tsinghua.edu.cn/a…

人工智能 2023年7月22日
0039
知识图谱推理论文阅读 Know-Evolve: Deep Temporal Reasoning for Dynamic Knowledge Graphs

一、主要贡献 1、提出了一种基于新出现事实的随时间演化的深度学习架构。动态进化网络将吸收新的事实，从中学习，并基于它们最近的关系和时间行为更新相关实体的嵌入。 2 、除了预测事实的…

人工智能 2023年6月1日
0069
轻松入门自然语言处理系列 03 机器学习基础-逻辑回归

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0054
zcu111 with pynq环境下安装tensorflow

zcu111是RFSoc，基本结构仍然是ARM+FPGA。最近想在板子上跑CNN，由于训练集较小，故打算直接在ARM上训练，因此需要在linux（pynq）环境下install深度…

人工智能 2023年5月25日
0071
如何判断一组数据是否符合正态分布呢？

在很多模型及假设检验中都需要满足一个假设条件：数据需服从正态分布。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法：描述统计方法和统计检验方法。判断一组数据是否为正…

人工智能 2023年7月15日
00171
【OpenCV-Python】：查找物体轮廓+计算轮廓面积、长度、重心

✨博客主页：米开朗琪罗~🎈✨博主爱好：羽毛球🏸✨年轻人要：Living for the moment（活在当下）！💪🏆推荐专栏：【图像处理】【千锤百炼Python】【深度学习】【排…

人工智能 2023年7月26日
00115
（记录深度学习）关于解决torch not compiled with CUDA enabled报错问题

pov：电脑是暗影精灵3，显卡1050ti，跟着csdn大佬教程在conda上安装cuda和CUDNN以及pytorch，出现Torch not compiled with CUD…

人工智能 2023年6月16日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

插帧中grid_sample函数详解

1、grid_sample基本功能讲解

2、ATen代码实现

3、CUDA实现

4、注意点

大家都在看