NeRF论文解析 – Neural Radiance Field

2023年5月26日下午3:34 • 人工智能 • 阅读 45

摘要

NeRF 的基本思想是用神经网络作为一个 3D 场景的隐式表达，代替传统的点云、网格、体素、TSDF 等方式，同时通过这样的网络可以直接渲染任意角度任意位置的投影图像。

其主要工作如下：
1）提出一种用 5D 神经辐射场 (Neural Radiance Field) 来表达复杂的几何+材质连续场景的方法，该辐射场使用 MLP 网络进行参数化；
2）提出一种基于经典体素渲染 (Volume Rendering) 改进的可微渲染方法，能够通过可微渲染得到 RGB 图像，并将此作为优化的目标。该部分包含采用分层采样的加速策略，来将 MLP 的容量分配到可见的内容区域；
3）提出一种位置编码 (Position Encoding) 方法将每个 5D 坐标映射到更高维的空间，这样使得我们可以让我们优化神经辐射场更好地表达高频细节内容。

; pipeline

我的理解：

对于某张图的一个像素，从该像素发射ray，在这条ray上采样，每个点的5D参数送入MLP训练，输出是该点的颜色和体密度。

然后该条ray上的所有点进行累加（就是经典体素渲染ray-casting的方法），就可以得到原图像的该像素的颜色。

渲染后像素的颜色-原图像素的颜色的残差，采用梯度下降的方法，进行训练

最终训练好的网络，可以输入一个图像的pose，输出该pose下的图像

1 Neural Radiance Field Scene Representation (基于神经辐射场的场景表示)

NeRF 将一个连续的场景表示为一个 5D 向量值函数（vector-valued function），其中：

输入为：3D 位置x = ( x , y , z ) \pmb{x}=(x,y,z)x x x =(x ,y ,z )和 2D 视角方向( θ , ϕ ) (\theta, \phi)(θ,ϕ)
输出为：发射颜色 c=$(r,g,b) $和体积密度 σ。

在实际实现中，视角方向表示为一个三维笛卡尔坐标系单位向量 d d d\pmb{d}d d d d，我们用一个 MLP 全连接网络表示这种映射：
F Θ : ( x , d ) → ( c , σ ) F_Θ:(\pmb{x},\pmb{d})→(\pmb{c},σ)F Θ:(x x x ,d d d )→(c c c ,σ) —— (1)

通过优化这样一个网络的参数 Θ 来学习得到这样一个 5D 坐标输入到对应颜色和密度输出的映射。

为了让网络学习到多视角的表示，我们预测体积密度 σ 的网络部分输入仅仅是输入位置 x，而预测颜色 c 的网络输入是视角和方向 d d d\pmb{d}d d d d。在具体实现上：
1）MLP 网络F Θ F_ΘF Θ 首先用 8 层的全连接层（使用 ReLU 激活函数，每层有 256 个通道），处理 3D 坐标 x，得到 σ 和一个 256 维的特征向量。
2）将该 256 维的特征向量与视角方向与d d d\pmb{d}d d d d 视角方向一起拼接起来，喂给另一个全连接层（使用 ReLU 激活函数，每层有 128 个通道），输出方向相关的 RGB 颜色。

本文中一个示意的网络结构如下：

其中：γ \gamma γ 表示从R \mathbb{R}R到更高维 R 2 L \mathbb{R}^{2 L}R 2 L的编码函数

（神经网络倾向于学习到频率较低的函数。而通过将输入通过高频函数映射到高维空间中，可以更好地拟合数据中的高频信息。）

; 2 Volume Rendering with Radiance Fields (基于辐射场的体素渲染)

2.1 经典的体素渲染方法

我们的 5D 神经辐射场将场景表示为：其所在空间中任意点的体素密度和有方向的辐射亮度。

体素密度 σ ( x ) \sigma(\mathbf{x})σ(x )定义为光线停留在位置 x \mathbf{x}x 处无穷小粒子的可导概率（或者也可以理解为光线穿过此点后终止的概率）。使用经典的立体渲染的原理，我们可以渲染出任意射线穿过场景的颜色。

因此对于某个视角 o \mathbf{o}o 发出的方向为 d \mathbf{d}d 的光线，其在 t 时刻到达点为：
KaTeX parse error: \tag works only in display equations —— （2）

那么沿这个方向在范围 ( t n , t f ) (t_n, t_f)(t n ,t f )对颜色积分，获得最终的颜色值 C ( r ) C(\mathbf{r})C (r ) 为：
C ( r ) = ∫ t n t f T ( t ) σ ( r ( t ) ) c ( r ( t ) , d ) d t , where T ( t ) = exp ⁡ ( − ∫ t n t σ ( r ( s ) ) d s ) C(\mathbf{r})=\int_{t_{n}}^{t_{f}} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) d t, \text { where } T(t)=\exp \left(-\int_{t_{n}}^{t} \sigma(\mathbf{r}(s)) d s\right)C (r )=∫t n t f T (t )σ(r (t ))c (r (t ),d )d t ,where T (t )=exp (−∫t n t σ(r (s ))d s )
—— （3）

函数 T(t) 表示光线从 t n t_n t n 到 t t t 累积的透明度 (Accumulated Transmittance)。换句话说，就是光线从 t n t_n t n 到 t t t 穿过没有碰到任何粒子的概率。按照这个定义，视图的渲染就是表示成对于 C ( r ) C(\mathbf{r})C (r )的积分，它是就是虚拟相机穿过每个像素的相机光线，所得到的颜色。

不过在实际的渲染中，我们并不能进行连续积分，我们使用求积法（quadrature）进行积分的数值求解。通过采用分层采样 (stratified sampling) 的方式对 [ t n , t f ] \left[t_{n}, t_{f}\right][t n ,t f ]划分成均匀分布的小区间，对每个区间进行均匀采样，划分的方式如下：
t i ∼ U [ t n + i − 1 N ( t f − t n ) , t n + i N ( t f − t n ) ] t_{i} \sim \mathcal{U}\left[t_{n}+\frac{i-1}{N}\left(t_{f}-t_{n}\right), t_{n}+\frac{i}{N}\left(t_{f}-t_{n}\right)\right]t i ∼U [t n +N i −1 (t f −t n ),t n +N i (t f −t n )] —— （4）

对于采样的样本，我们采用离散的积分方法：
C ^ ( r ) = ∑ i = 1 N T i ( 1 − exp ⁡ ( − σ i δ i ) ) c i , where T i = exp ⁡ ( − ∑ j = 1 i − 1 σ j δ j ) \hat{C}(\mathbf{r})=\sum_{i=1}^{N} T_{i}\left(1-\exp \left(-\sigma_{i} \delta_{i}\right)\right) \mathbf{c}{i}, \text { where } T{i}=\exp \left(-\sum_{j=1}^{i-1} \sigma_{j} \delta_{j}\right)C ^(r )=∑i =1 N T i (1 −exp (−σi δi ))c i ,where T i =exp (−∑j =1 i −1 σj δj ) —— （5）

其中，δ i = t i + 1 − t i \delta_{i}=t_{i+1}-t_{i}δi =t i +1 −t i 是相邻样本之间的距离。

下图非常形象地演示了体素渲染的流程：

; 3 Optimizing a Neural Radiance Field (优化一个神经辐射场)

上述方法就是 NeRF 的基本内容，但基于此得到的结果并能达到最优效果，存在例如细节不够精细、训练速度较慢等问题。为了进一步提升重建精度和速度，我们还引入了下面两个策略：

Positional Encoding (位置编码)：通过这一策略，能够使得 MLP 更好地表示高频信息，从而得到丰富的细节；
Hierarchical Sampling Procedure (金字塔采样方案)：通过这一策略，能够使得训练过程更高效地采样高频信息。

3.1 Positional Encoding (位置编码)

尽管神经网络理论上可以逼近任何函数，但是通过实验发现仅用 MLP 构成的 F Θ F_{\Theta}F Θ 处理输入$ (x, y, z, \theta, \phi)$ 不能够完全表示出细节。这和 Rahaman 等人工作（《On the spectral bias of neural networks. In: ICML (2018) 》）所证明的结论相符，即：神经网络倾向于学习到频率较低的函数。同时他们的工作也表明，通过将输入通过高频函数映射到高维空间中，可以更好地拟合数据中的高频信息。

通过这些发现应用到神经网络场景表达任务中，我们将 F Θ F_{\Theta}F Θ 修改成两个函数的组合： F Θ = F Θ ′ ∘ γ F_{\Theta}=F_{\Theta}^{\prime} \circ \gamma F Θ=F Θ′∘γ，通过这样的方式可以明显提升细节表达的性能，其中：

γ \gamma γ 表示从R \mathbb{R}R 到更高维R 2 L \mathbb{R}^{2 L}R 2 L 的 编码函数
F Θ ′ F_{\Theta}^{\prime}F Θ′ 是正常的 MLP 网络

本文使用的编码函数如下：

KaTeX parse error: Expected ‘EOF’, got ‘}’ at position 158: …p\right)\right)}̲ —— （6）

该函数 γ ( ⋅ ) \gamma(\cdot)γ(⋅)会应用于三维位置坐标 x \mathbf{x}x （归一化到 [-1, 1] ）和三维视角方向笛卡尔坐标 d \mathbf{d}d 。

在本文中对于 γ ( x ) \gamma(\mathbf{x})γ(x )设置 L=10；对于γ ( d ) \gamma(\mathbf{d})γ(d ) 设置 L=4。

相似地，在 Transformer 中也有一个类似的位置编码操作，不过本文中与其还是根本不同。在 Transformer 中位置编码是用来表示输入的序列信息的，而这里的位置编码是做用于输入将输入映射到高维从而让网络能够更好地学习到高频信息。

3.2 Hierarchical Sampling Procedure (分层采样方案)

分层采样方案来自于经典渲染算法的加速工作，在前述的体素渲染 (Volume Rendering) 方法中，对于射线上的点如何采样会影响最终的效率，如果采样点过多计算效率太低，采样点过少又不能很好地近似。那么一个很自然的想法就是希望对于 颜色贡献大的点附近采样密集，贡献小的点附近采样稀疏，这样就可以解决问题。基于这一想法，NeRF 很自然地提出由粗到细的分层采样方案（Coarse to Fine）。

Coarse 部分：首先对于 粗网络，我们采样 N c N_c N c 个稀疏点（c 表示 Coarse），并将公式 (3) 用新的形式修改（加入权重）：

原公式：

加入权重后：

C ^ c ( r ) = ∑ i = 1 N c w i c i , w i = T i ( 1 − exp ⁡ ( − σ i δ i ) ) \hat{C}{c}(\mathbf{r})=\sum{i=1}^{N_{c}} w_{i} c_{i}, \quad w_{i}=T_{i}\left(1-\exp \left(-\sigma_{i} \delta_{i}\right)\right)C ^c (r )=∑i =1 N c w i c i ,w i =T i (1 −exp (−σi δi )) —— （7）

其中权重需要进行归一化： w ^ i = w i ∑ j = 1 N c w j \hat{w}{i}=\frac{w{i}}{\sum_{j=1}^{N_{c}} w_{j}}w ^i =∑j =1 N c w j w i

这里面的权重 w ^ i \hat{w}_{i}w ^i 可以看成沿着射线的分段常数概率密度函数 (Piecewise-constant PDF)。通过这个概率密度函数可以粗略地得到射线上物体的分布情况。

Fine 部分：在第二阶段，我们使用逆变换采样 (Inverse Transform Sampling)，根据上面的分布采样出第二个集合 N f N_f N f ，最终我们仍然使用公式 (3) 来计算 C ^ f ( r ) \hat{C}_{f}(\mathbf{r})C ^f (r ) 。但不同的是使用了全部的 N c + N f N_c + N_f N c +N f 个样本。使用这种方法，第二次采样可以根据分布采样更多的样本在真正有场景内容的区域，实现了重要性抽样 (Importance Sampling)。

如图所示，白色点为第一次均匀采样的点，通过白色均匀采样后得到的分布，第二次再根据分布对进行红色点采样，概率高的地方密集，概率低的地方稀疏 (很像粒子滤波)。

; 3.3 Implementation Details (实现细节)

在训练损失函数方面，本文的定义非常简单直接，就是对于粗网络和精网络都用渲染的 L 2 L_2 L 2 Loss，公式如下：（同时优化coarse 和 fine）
L = ∑ r ∈ R [ ∥ C ^ c ( r ) − C ( r ) ∥ 2 2 + ∥ C ^ f ( r ) − C ( r ) ∥ 2 2 ] \mathcal{L}=\sum_{\mathbf{r} \in \mathcal{R}}\left[\left\|\hat{C}{c}(\mathbf{r})-C(\mathbf{r})\right\|{2}^{2}+\left\|\hat{C}{f}(\mathbf{r})-C(\mathbf{r})\right\|{2}^{2}\right]L =∑r ∈R [∥∥∥C ^c (r )−C (r )∥∥∥2 2 +∥∥∥C ^f (r )−C (r )∥∥∥2 2 ] —— （9）

其中：

R \mathcal{R}R表示一个 batch 中的所有采样的射线集合
C ( r ) C(\mathbf{r})C (r )表示真值的 RGB 颜色
C ^ c ( r ) \hat{C}_{c}(\mathbf{r})C ^c (r ) 表示 Coarse 网络预测的 RGB 颜色
C ^ f ( r ) \hat{C}_{f}(\mathbf{r})C ^f (r ) 表示 Fine 网络预测的 RGB 颜色

Original: https://blog.csdn.net/sjjssuwjn/article/details/123259875
Author: 敲键盘少女
Title: NeRF论文解析 – Neural Radiance Field

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/520248/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

动手实现深度学习（10）：第五篇：解决过拟合的方法

第五篇：解决过拟合的方法 DroupOut作为抑制过拟合的一种方法，会在每次训练的时候随机的将一些神经元失活。左图是使用了dropout, 右图是没有使用dropout. 之所…

人工智能 2023年6月4日
0084
【基于pyAudioKits的Python音频信号处理（七）】端点检测和语音识别

pyAudioKits是基于librosa和其他库的强大Python音频工作流支持。 API速查手册通过pip安装： pip install pyAudioKits 本项目的Gi…

人工智能 2023年5月25日
0071
相机成像原理

目录 1、相机成像原理说明 2、相机成像过程 2.1、世界坐标系->相机坐标系 2.2、相机坐标系–>图像坐标系 2.3、图像坐标系–>像素平面坐标系 3、单点无…

人工智能 2023年5月26日
00101
pandas DataFrame的创建方法

pandas DataFrame的增删查改总结系列文章： pandas DaFrame的创建方法 pandas DataFrame的查询方法 pandas DataFrame行或列…

人工智能 2023年6月2日
0082
机器学习基础篇（4）滤波器

目录 1.卷积 1.1.何为卷积 1.2.卷积步长 1.3卷积填充 padding 1.4卷积大小 1.6卷积的API 1.7卷积的意义 2.滤波 2.1.方盒滤波与均值滤波 2….

人工智能 2023年7月20日
0067
图像去雾算法–暗通道先验去雾算法

图像去雾：在雾天拍摄的图像容易受雾或霾的影响，导致图片细节模糊、对比度低以至于丢失图像重要信息，为解决此类问题图像去雾算法应运而生。图像去雾算法是以满足特定场景需求、突出图片细节…

人工智能 2023年5月26日
0078
win10+pycharm 调用相机进行拍摄图片并自动进行相机标定、矫正

利用pycharm工具+python语言，设计一个单目摄像头的调用函数，可以进行实时的抓拍的功能。具体封装的函数，实现的代码如下： def read_show(): cap = c…

人工智能 2023年7月18日
0048
【文献调研】多模态生理信号的特征提取与特征融合

项目原因进行了一些调研，慢慢更新~ 文章目录多模态情绪识别研究综述 2020 * 多模态混合策略 – 数据级融合特征级融合决策级融合模型级融合多模态混合形式 …

人工智能 2023年6月24日
0064
【Windows配置三】Python3.6安装rosbag

以下所以命令，均需在激活 anaconda 环境下进行安装 conda activate [your anaconda] conda activate pytorch pip in…

人工智能 2023年6月19日
0046
web前端期末大作业——网页制作基础大二dw作业——动画漫展学习资料电影模板(6页)

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置，有div的样式格局，这个实例比较全面，有助于同学的学习,本文将介绍如何通过从头开始设计个…

人工智能 2023年6月27日
0088
腾讯语音识别 java api_腾讯云：一句话语音识别API接入步骤和说明

语音识别 API 升级到 3.0 版本。全新的 API 接口文档更加规范和全面，统一的参数风格和公共错误码，统一的 SDK/CLI 版本与 API 文档严格一致，给您带来简单快捷的…

人工智能 2023年5月27日
0073
【PyTorch教程】P10-11 Transform的用法

完整目录 P6-P7 数据加载 P8-9 Tensorboard使用 P10-11 Transform的用法 P12-13 常用的tranforms P14 torchvision…

人工智能 2023年6月20日
0073
tensorrt加速yolov5(5m.pt)

tensorrt 加速yolov5模型配置过程 https://zhuanlan.zhihu.com/p/430470397https://blog.csdn.net/qq_41…

人工智能 2023年7月12日
0042
数据治理之数据质量评估办法（参考）

下面将从数据质量评估核心指标、数据质量评估模式、数据质量评估管理流程三个方面介绍数据质量评估方法。数据质量评估的核心指标数据质量问题频率指标定义：数据质量问题频率＝数据质量问题…

人工智能 2023年7月18日
0039
FCM模糊聚类学习笔记

就总结注释一下怕忘了我看的博客地址（模糊聚类算法 – 知乎）逐步模糊聚类：逐步聚类法类是中心点聚类法。（上述博客原话）逐步聚类法是一种基于模糊划分的模糊聚类分…

人工智能 2023年5月31日
0089
回归模型第5篇：knn回归

基于最邻近算法的分类，本质上是对离散的数据标签进行预测，实际上，最邻近算法也可以用于对连续的数据标签进行预测，这种方法叫做基于最邻近数据的回归，预测的值(即数据的标签)是连续值，通…

人工智能 2023年6月18日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30