NeRF 源码分析解读（一）

2023年6月16日下午1:12 • 人工智能 • 阅读 59

NeRF 源码解读（一）

前言

NeRF 是三维视觉中新视图合成任务的启示性工作，最近领域内出现了许多基于 NeRF 的变种工作。本文以pytorch 版 NeRF 作为基础对 NeRF 的代码进行分析。
主要从以下方面开展：

数据的加载
光线的生成
NeRF 网络架构
渲染过程

一、数据的加载

本文以加载合成数据集中 lego 图像为例。
首先我们观察 ./data/nerf_synthetic/lego 文件夹下的树结构：

train、test、val 三个文件夹下包含了训练要用到的 .png 图像，每个文件夹下包含 100 个文件。.json 文件包含了相机的 camera2word 转置矩阵，下图展示了部分文件中的内容。关于此转置矩阵不再展开叙述，具体知识可查看 SLAM 14 讲。了解以上基本信息后解析数据加载的代码。
NeRF 源码分析解读（一）

frame 的值是一个列表，其中列表中的值是字典

def train():

    parser = config_parser()
    args = parser.parse_args()

    ...

    elif args.dataset_type == 'blender':
        images, poses, render_poses, hwf, i_split = load_blender_data(args.datadir, args.half_res, args.testskip)
        print('Loaded blender', images.shape, render_poses.shape, hwf, args.datadir)
        i_train, i_val, i_test = i_split

        near = 2.
        far = 6.

        if args.white_bkgd:

            images = images[...,:3]*images[...,-1:] + (1.-images[...,-1:])
        else:
            images = images[...,:3]

我们通过 load_blender_data() 函数得到了指定文件夹下的所有图像、pose、测试渲染的pose、宽高焦距以及分割数组。下面对数据加载函数进行分析。

def load_blender_data(basedir, half_res=False, testskip=1):
"""
    :param basedir: 数据文件夹路径
    :param half_res: 是否对图像进行半裁剪
    :param testskip: 挑选测试数据集的跳跃步长
    :return:
"""
    splits = ['train', 'val', 'test']
    metas = {}
    for s in splits:

        with open(os.path.join(basedir, 'transforms_{}.json'.format(s)), 'r') as fp:
            metas[s] = json.load(fp)

    all_imgs = []
    all_poses = []
    counts = [0]

    for s in splits:
        meta = metas[s]
        imgs = []
        poses = []

        if s=='train' or testskip==0:
            skip = 1
        else:
            skip = testskip

        for frame in meta['frames'][::skip]:

            fname = os.path.join(basedir, frame['file_path'] + '.png')

            imgs.append(imageio.imread(fname))
            poses.append(np.array(frame['transform_matrix']))
        imgs = (np.array(imgs) / 255.).astype(np.float32)
        poses = np.array(poses).astype(np.float32)
        counts.append(counts[-1] + imgs.shape[0])

        all_imgs.append(imgs)
        all_poses.append(poses)

    i_split = [np.arange(counts[i], counts[i+1]) for i in range(3)]

    imgs = np.concatenate(all_imgs, 0)
    poses = np.concatenate(all_poses, 0)

    H, W = imgs[0].shape[:2]
    camera_angle_x = float(meta['camera_angle_x'])
    focal = .5 * W / np.tan(.5 * camera_angle_x)

    render_poses = torch.stack([pose_spherical(angle, -30.0, 4.0) for angle in np.linspace(-180,180,40+1)[:-1]], 0)

    if half_res:
        H = H//2
        W = W//2
        focal = focal/2.

        imgs_half_res = np.zeros((imgs.shape[0], H, W, 4))
        for i, img in enumerate(imgs):
            imgs_half_res[i] = cv2.resize(img, (W, H), interpolation=cv2.INTER_AREA)
        imgs = imgs_half_res

    return imgs, poses, render_poses, [H, W, focal], i_split

通过对以上代码的分析，我们可以得到以下结果：

imgs : 根据 .json 文件加载到的所有图像数据。（N，H，W，4）N 代表用于 train、test、val 的总数量
poses : 转置矩阵。（N，4，4）
render_poses : 用于测试的 pose 。（40，4，4）
i_split : [[0:train], [train:val], [val:test]]

完成数据加载以后，就可以根据 image 数据模拟生成光线。具体代码解析见下一节：
NeRF源码分析解读（二）

Original: https://blog.csdn.net/qq_41071191/article/details/125440451
Author: 面里多加汤
Title: NeRF 源码分析解读（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624294/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用transformer进行图像分类

文章目录 1、导入模型 2、定义加载函数 3、定义批量加载函数 4、加载数据 5、定义数据预处理及训练模型的一些超参数 6、定义数据增强模型 7、构建模型 7.1 构建多层感知器（…

人工智能 2023年5月25日
0071
Ubuntu 利用Anaconda安装tensorflow

Ubuntu 利用Anaconda安装tensorflow 本篇博客写在安装tensorflow不断踩坑之后，众所周知，CS某N中的大部分博客疯狂灌水抄袭，甚至还有一个错误抄几篇博…

人工智能 2023年5月24日
0072
深入理解PSNR（峰值信噪比）(附matlab代码)

深入理解PSNR 作者：老李日期：2022-1-19 本文引入MSE、SNR、变异系数（Coefficient of Variation），并希望从统计学的角度上解释这个变量这个…

人工智能 2023年5月26日
0067
图像金字塔、高斯金字塔、拉普拉斯金字塔是怎么回事？附利用拉普拉斯金字塔和高斯金字塔重构原图的Python-OpenCV代码

图像金字塔是对图像进行多分辨率表示的一种有效且简单的结构。一个图像金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像。图像金字塔的底部是待处理图像的高分辨率表示，而顶部是低分辨率…

人工智能 2023年5月28日
0070
pandas实现筛选功能方式

1 筛选出数据的指定几行数据 data=df.loc[2:5] #这里的[2:5]表&amp…

人工智能 2023年7月9日
0069
菜鸟驿｜多分类的精准率和召回率

在二分类中，结果的评价指标有召回率、精准率和f1值，将结果分为四类TP(true positive)、TN(true negative)、FP(false positive)、FN…

人工智能 2023年7月2日
0092
R语言ggplot2画图

Content * – 1 r语言散点图 – + 1.1 散点图 + 1.2 散点图阵 – 2 r语言直方图 – + 2.1 规定柱…

人工智能 2023年7月17日
0074
Halcon–图像分类

文章目录前言一、思路二、实现三、源码总结前言基于Halcon做图像分类处理一、思路【1】明确有哪些类别，根据类别去寻找合适的图像作为样本的数据集【2】创建分类器…

人工智能 2023年7月2日
0062
pytorch复现U-Net 及常见问题汇总（2021.11.14亲测可行）

目录 2021.11.14复现过程：训练过程常见问题整理：之前简单地写了一个pytorch的U-net 复现过程，有很多小伙伴在评论里有很多疑问，抽空又复现了一遍，简单整理了常…

人工智能 2023年6月16日
0056
0091 平衡二叉树

/* 平衡二叉树* 1.也叫平衡二叉搜索树，也成为AVL树，可以保证查询效率较高* 2.特点：是一颗空树或左右子树的高度差的绝对值不超过1，且左右两个子树都是一颗平衡二叉树* 常见…

人工智能 2023年6月27日
0079
MySQL数据库基础笔记

数据库就是存储和管理数据的仓库，用户可以对数据库中的数据进行增删改查等操作。关系型数据库（Oracle、MySQL、SQLite等）非关系型数据库（Redis、MongoDB等…

人工智能 2023年6月12日
0077
PyTorch：梯度计算之反向传播函数backward()

一、计算图计算图，是一种用来描述计算的有向无环图。我们假设一个计算过程，其中X 1 \mathbf{X_1}X 1 、W 1 \mathbf{W_1}W 1 、W 2 \m…

人工智能 2023年7月6日
0060
【浙政钉】微信-专有钉钉小程序-开发踩坑实记

⭐【浙政钉】微信-专有钉钉小程序-开发踩坑实记最近有个需求，要将微信小程序转为浙政钉小程序进行开发。一开始的思路是先将微信小程序转为钉钉小程序。（至于为什么，我只能说钉钉的开…

人工智能 2023年6月6日
0094
R语言将因子类型数据转化为字符串类型数据

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0052
数据分析工具Pandas

学习目标：一，掌握数据结构分析，索引操作及高级索引二，掌握算术运算与数据对齐，数据排序三，掌握统计计算与描述，层次化索引四，掌握读写数据操作学习内容： 1.Pa…

人工智能 2023年7月6日
0079
超实用的7种 pytorch 网络可视化方法，进来收藏一波

引导 * – 前言 – 1. torchsummary – 2. graphviz + torchviz – 3. Jupyter …

人工智能 2023年6月16日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NeRF 源码分析解读（一）

前言

一、数据的加载

大家都在看