NeRF：神经辐射场论文原理讲解

2023年6月15日上午1:19 • 人工智能 • 阅读 76

一、新视角合成

NeRF是开创了一种全新的视角合成方法。新视角合成任务指的是给定源图像（Source Image）及对应的源姿态(Source Pose)以及目标姿态(Target Pose)，渲染生成目标姿态对应的图片(Target)。源姿态指的是从相机坐标转换为世界坐标的变换矩阵。涉及2D和3D之间的坐标转换。

如上图所示，一共有三个坐标系：世界坐标系[X,Y,Z]、相机坐标系[X c, Y c, Z c] T_和图像坐标系[x,y] _T。

（一）、相机坐标系与世界坐标系的转换

相机坐标系和三维世界坐标系之间的转换关系如下：

（二）、图像坐标与相机坐标系的转换

二维图像的坐标和相机坐标系中的坐标转换关系如下：

坐标转换详细可见：新视角合成 (Novel View Synthesis) – (1) 任务定义 – 知乎

二、NeRF的作用

NeRF即神经辐射场，就是将全连接神经网络（非卷积）引入到物体的3维场景表示中。只需要同一物体不同角度的若干张图片作为监督，神经网络可以隐式地对该物体进行三维场景建模，然后在新视角下通过体渲染（volume rendering）的方法渲染生成新的角度的二维图像。在3D重建，数据增强，AR/VR等领域有着广泛的应用。

三、NeRF的流程

首先，是通过相机光线穿过场景，采样三维点集（x,y,z）。

然后，将这些采样的三维点集和相关的2维视角(θ,Φ)作为输入，输入到神经网络（MLP）中，输出采样点对应的颜色（view-dependent）和体密度（volume density）。

最后，用经典的体渲染方法将输出的颜色（c=(r,g,b)）和体密度（σ）渲染成2维图片。

通过最小化已知图片和通过渲染得到的图片之间的像素差值进行训练。方法的总体流程图如下所示：

四、NeRF的实施细节

（一）、场景表示

NeRF将一个连续的场景表示为一个5D的向量函数，它的输入包括空间点3D坐标X=（x,y,z）以及2D的视角方向d = (θ,Φ)。输出是与位置相关的体素密度σ和视角相关的该3D点颜色c=(r,g,b)。

1 、输入坐标表示

根据光线追踪的基本只是，一条射线可以用公式rt=o+td 表示，其中o表示原点的坐标，d是方向向量，t是参数，射线上的每个点都可以由（x,y,z，θ,Φ）表示，即三维空间坐标和视角。

如上图所示，射线上的点可以用（x,y,z,theta,phi）来表示。详细可见新视角合成 (Novel View Synthesis) – (2) Scene Representation – 知乎。

2 、 MLP 网络结构

在训练过程中通过优化神经网络权重Θ，使输入的5D坐标与输出体密度、方向相关的颜色对应起来。体素密度σ只和x相关，c和x、d均相关。网络结构如下图所示：

首先将3D位置坐标x输入到8层全连接层中，每一层有256个通道，输出为一维的体素密度σ（通过（256,1）的全连接层实现），以及一个256维的特征向量。将256维的中间特征向量与视角串联起来，组成一个256+24位的特征向量，再通过一个（256+24，128）全连接层，以及一个（128,3）的全连接层输出RGB颜色值。在第5层有一个跳跃链接，将位置信息直接串联到第五层的特征向量上，再进行前向传播。黑色箭头表示用ReLU做为激活函数，橙色箭头表示没有激活函数，黑色虚线箭头表示用sigmoid作为激活函数（实际作者在代码中并没有使用这个激活函数）。

（二）、体渲染

一条有近端（ t n）和远端边界（ t f）的相机光线rt=o+td的颜色为：

表示射线从 t n_到 _t_这一段路径上的累积透明度，可以理解为这条射线从 _t _n_到 _t_一路上没有击中任何粒子的概率。在实际运用中不可能用NeRF去估计连续的3D信息，因此就需要数值近似的方法。作者提出了一种均匀随机采样方法，第i个采样点如下式所示：

首先将射线需要积分的区域分为N份，然后在每一个小区域中进行均匀随机采样，这种方法可以保证采样位置的连续性。上式求颜色的积分公式可以简化为如下求和公式：

（三）、位置编码

NeRF函数的输入为位置和角度信息，作者发现直接将位置和角度作为网络的输入得到的结果相对模糊，而用position encoding的方式将位置信息映射到高频则能有效提升清晰度效果。作者提出的位置编码函数如下：

P代表需要编码的位置，在NeRF中指的是X=（x,y,z），d = (θ,Φ)，其中对X编码时L=10，对d编码时L=4。故对一个采样点

中有60个数，在nerf-pytorch-master项目中，在给视角编码时多加了一个维度，详见run_nerf.py 文件第44行，故 NeRF：神经辐射场论文原理讲解

中有24个数。

项目代码详见：

GitHub – yenchenlin/nerf-pytorch: A PyTorch implementation of NeRF (Neural Radiance Fields) that reproduces the results.

（四）、分层体素采样

NeRF的渲染过程计算量很大，每条射线上都要采样很多点，但实际上一条射线上的大部分区域都是空区域，或者被遮挡，对最终颜色的影响不大。作者提出了用coarse和fine两个网络同时优化的方法。首先用体渲染这一节中提出的采样方法，采样较为稀疏的 N c_个点，优化coarse网络，NeRF中 _N c =64。

得到颜色累加公式重新表述如下：

此处的可以看作是沿着射线的概率密度函数（PDF），如下图所示，通过这个概率密度函数，我们可以粗略地得到射线上的物体的分布情况。

接下来基于得到的概率密度函数来采样 N f_个点，并用这 _N f_个点和前面的 _N _c_个点共同计算优化fine网络，光线最终的渲染颜色为，采样点如下图所示：

该采样算法的核心就是用coarse网络来生成概率密度函数，再基于概率密度函数采样更精细的点。具体可参考：【NeRF论文笔记】用于视图合成的神经辐射场技术 – 知乎

Original: https://blog.csdn.net/qinseheming0820/article/details/125900794
Author: qinseheming0820
Title: NeRF：神经辐射场论文原理讲解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613310/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

简要总结一篇关于知识图谱嵌入的综述

回顾word2vec，一个典型的例子：v k i n g − v m a n ≈ v q u e e n − v w o m a n v_{king}-v_{man}\approx…

人工智能 2023年6月1日
0080
归纳偏置是什么？从现实生活中观察到的现象中归纳出一定的规则，然后对模型做一定的约束，从而可以起到“模型选择”的作用

归纳偏置在机器学习中是一种很微妙的概念：在机器学习中，很多学习算法经常会对学习的问题做一些假设，这些假设就称为归纳偏置(Inductive Bias)。归纳偏置这个译名可能不能…

人工智能 2023年5月31日
0070
The Neuroscientist：整合TMS、EEG和MRI——研究大脑连接性的时空动态方法

人类的大脑是一个复杂的网络，其中数百个脑区通过数千条轴突相互连接。这种复杂系统的能力来自于较小实体之间的特定交互作用，即一组可以通过脑区之间相互连接的激活来描述的事件。研究大脑连…

人工智能 2023年6月10日
0084
【Python】：SIFT算法的实现

✨博客主页：米开朗琪罗~🎈✨博主爱好：羽毛球🏸✨年轻人要：Living for the moment（活在当下）！💪🏆推荐专栏：【图像处理】【千锤百炼Python】【深度学习】【排…

人工智能 2023年6月18日
0079
pytorch训练BERT模型实现文本分类的详细过程

之前对BERT的预训练过程做过详细解释，文章中的代码就是一段简洁的预训练Demo代码，对于了解BERT的预训练原理有很大帮助。然后对BERT+CRF的实体识别做过详解，在这篇中对…

人工智能 2023年5月28日
0082
Python中with…as…的用法详解

简介 with是从Python2.5引入的一个新的语法，它是一种上下文管理协议，目的在于从流程图中把 try,except 和finally 关键字和资源分配释放相关代码统统去掉，…

人工智能 2023年6月12日
0064
opencv报错The function is not implemented. Rebuild the library with Windows, GTK+ 2.x or Cocoa support

运行环境:windows10 python版本:3.6 opencv版本:3.4.3.18 由于安装了一个图像库Multi-Template-Matching,导致再次运行一个处理…

人工智能 2023年6月17日
00203
深入浅出 Yolo 系列之 Yolov7 基础网络结构详解

从 2015 年的 YOLOV1， 2016 年 YOLOV2， 2018 年的 YOLOV3，到 2020 年的 YOLOV4、 YOLOV5，以及最近出现的 YOLOV6 和…

人工智能 2023年6月4日
0073
大型医院叫号管理系统源码

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月25日
0056
基于卷积神经网络VGG实现水果分类识别

基于卷积神经网络VGG实现水果分类识别一. 前言二. 模型介绍三. 数据处理四. 模型搭建 * 4.1 定义卷积池化网络 4.2 搭建VGG网络 4.3 参数配置 4.4 …

人工智能 2023年7月26日
0080
OPMC多视图聚类算法

原文：One-pass Multi-view Clustering for Large-scale Data 创新点：传统的N M F NMF N M F聚类分两步走：求得H H…

人工智能 2023年5月31日
0086
YOLOV7训练自己的数据集，我先来试试火（VisDrone数据集）

源码：https://github.com/WongKinYiu/yolov7论文：https://arxiv.org/abs/2207.02696 这个yolov7是yolov4…

人工智能 2023年5月26日
0080
深度学习-详细讲解Transformer

图解Transformer 1.关于Transformer 2.宏观视角分析 3.将张量带入图片 4.开始”编码” 5.宏观角度的Self-Attentio…

人工智能 2023年5月30日
0077
Python初级教程-廖雪峰Python教程

demo1-输入输出 demo2-布尔变量 demo3-变量 demo4-字符串格式化 demo5-列表 demo6-元组 demo7-条件判断 demo8-for循环 demo9…

人工智能 2023年7月15日
00155
Yolov5目标检测模型运行遇到的相关问题汇总

具体报错如下： requirements: pycocotools>=2.0 not found and is required by YOLOv5 pkg_resource…

人工智能 2023年7月9日
00107
Faster-RCNN

关于对Faster-RCNN的个人理解背景在这之前已有加快版的Fast-RCNN，但是由于候选区域仍然是特别的多的（大约有2000个），这就会导致在后续的类别预测以及box修正…

人工智能 2023年7月10日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NeRF：神经辐射场论文原理讲解

大家都在看