ICCV 2021 Oral | 姿态估计——零基础看懂RLE

2023年6月18日上午6:44 • 人工智能 • 阅读 103

最近ICCV 2021上有一项姿态识别领域非常厉害的工作，它就是今天要介绍的残差似然估计（Residual Log-likelihood Estimation）。其工作的核心在于，通过flow方法，估计出模型输出关节的分布概率密度。一旦估计出令人满意的先验分布函数，就能动态优化损失函数loss，从而促进模型的回归训练。

从结果上讲，该论文也交出了一份令人满意的答卷：有史以来第一次，回归关节坐标的方法比高斯热图方法取得了更好的效果，而且，回归方法还能保持更快、更轻。（For the first time, regression based methods achieve superior performance to the heatmap-based methods, and it’s more computation and storage efficient.）

通过flow方法，估计出模型输出关节的分布概率密度。一旦估计出令人满意的先验分布函数，就能动态优化损失函数loss，从而促进模型的回归训练。

然而，对于没有太多这方面基础知识的同学而言，这段话可能有点不好理解，脑子里也会很快地跳出几个问题：

1、为什么要估计关节的概率密度函数？有什么好处？

2、估计出来关节的概率密度分布和我损失函数又有什么关系？

3、为什么要用所谓的flow方法来估计概率密度函数，说到底什么是flow方法？

4、这个残差Residual又是起什么作用的？

没关系，这篇文章的目的就是用尽量简单的语言，从零开始，来一一解答上面的几个小问题。

一、概率密度分布，损失函数与最大似然估计

1、为什么要估计关节的概率密度函数？

2、估计出来关节的概率密度分布和我损失函数又有什么关系？

先拿一个简单的问题问大家：你们有没有想过，为什么平时我们第一印象上总喜欢用均方误差作为回归的损失函数？

可能有人说，因为均方误差衡量了距离，也有人会说均方误差衡量了目标在预测周围的集中程度，这都有其直觉上的道理。但数学上讲，这其实是和一种常见而重要的概率分布联系在一起的，那就是高斯分布。我们默认用均方误差作为损失函数，其实就是因为高斯分布在自然界中比较常见，而且有较好的性质，所以我们默认要预测的变量服从高斯分布。

是的，如果我们有一个想要预测的变量y，那么变量y的分布情况影响了我们要采用的损失函数。如果y是高斯分布的变量，我们会倾向采用均方误差（l2 loss）来衡量。如果y是拉普拉斯分布的变量，我们会倾向采用绝对值误差来衡量(l1 loss)，不一而足。

可是概率分布和损失函数到底是怎么对应上的呢？为什么高斯用l2 loss，拉普拉斯就用l1 loss呢？这就要讲到小标题”最大似然估计，概率密度分布与损失函数”中的第三个词，也就是”最大似然估计”了，正是最大似然估计，将loss和概率密度联系在了一起。

这一段将由变量的高斯分布，推导出一个结论：均方误差

是最大似然法下的损失函数

。假设我们要用线性函数

预测y，而我们事先知道 y 被高斯噪声

影响，那么真实情况下 y 被加性噪声影响的表达式为

，把噪声单独放在等式一边则有

。可以看出y也就服从均值为

，方差为

那么我们在得到了一系列的样本

以及

之后，对

取对数得到对数似然函数

。而最大似然估计的定义就是：找到合适的参数 ω ，让我们刚刚得到的对数似然函数

最大。写作：

这里的MLE是最大似然估计(Maximum likelihood estimation)的英文简写.带入y的高斯分布表达式(式子1)有

用最大似然估计得到参数w后，现在我们来看损失函数。损失函数的定义就是：找到一个

，当参数w使真实值

和预测值

越接近时，它就越小。写作：

写出用最大似然估计(3)和损失函数(4)优化出的参数 ω ，放在一起对比一下：

观察两式argmin的右端，画上等号，我们就得到了用最大似然估计法给出的损失函数,终于也就得到了我们的均方值误差！

这就解答了为什么 y 服从高斯分布时，损失函数推荐采用均方值误差。通过这种手段，概率分布，最大似然估计和损失函数就联系在一起啦。

用MLE来估计概率密度：flow方法

经过了第一阶段的学习，我们现在知道了很重要的一点，那就是只有在预先知道目标变量分布的情况下，我们才可以更好地构建损失函数，来完成模型参数的学习。

那么问题来了，人体的关节 y ，它是怎样一个分布情况呢？更具体一点讲，我们真正关心的其实是：当我们的标注

不可能做到完美无误的情况下，它在真实关节点周围是以一种什么样的概率分布出现的呢？因为只有知道了这种偏差

的概率密度分布函数，我们在回归的时候，才能够建立起恰当的损失函数，来帮助模型更高效地学习。

那么问题来了，我们怎么得到标记与真实值之间偏差

的概率密度分布呢？这就用到所谓的flow方法了。

问题3，为什么要用所谓的flow方法来估计概率密度函数，说到底什么是flow方法？

问起怎么逼近一个概率密度分布？这个问题大家可能会一头雾水。但如果问题是怎么逼近一个函数

，这大家肯定是再熟悉不过了。”要逼近一个函数时，为什么不问问神奇的神经网络呢”

通用近似定理：在人工神经网络的数学理论中，通用近似定理（或称万能近似定理）指出人工神经网络近似任意函数的能力[1]。此定理意味着神经网络可以用来近似任意的复杂函数，并且可以达到任意近似精准度。（wiki百科）

我们现在可以用神经网络估计任意函数

，那么怎么利用这个特性，来估计出一个概率密度

呢？很简单，答案就是去估计一个简单分布

到目标分布

的映射函数

。例如，把待映射的简单分布

设成高斯分布，再通过神经网络得到映射函数

。最后，把拟合的映射函数

带入简单分布

，我们就可以得到目标分布

了。

即由这两个式子：

，还要乘上雅可比行列式

, 以对应于一维情况

。

因此有：

用最大似然估计法，取目标分布的似然函数

，就得到了论文中的式子(4). 对应本文的式子2的第一行看一下，是不是一模一样呢？

（论文中

代表测试集中的样本，

代表我们上面提到的待映射的简单分布

，我这里是为了具象化说明，所以用高斯分布作为简单分布的例子）

这就是用flow方法来估计概率密度分布的核心思想。至于为什么叫”flow”，因为事实上为了计算雅可比行列式的方便，我们对映射函数

会进行一系列的链式分解。这个链子的形状就是flow一词的来源。

流形的计算式，这就是flow一词的来源

三、RLE与flow的异与同

现在，将图片和坐标作为训练集，通过flow方法不断学习，我们可以得到关节坐标在图片上的分布y了。

但是，不要忘记了我们的目标，我们想估计出标注在真实值周围的分布情况，来计算损失函数，而不是关节坐标本身。

目标：在标注不完美的情况下，最好估计出标注

偏离真实值 y 的偏差

的分布

那怎么估计出这个差值

的分布呢？我们反向思考一下

假如这个差值

的分布形式已知，它会怎么影响最终的结果？

现在, 假装我们已经求出来了差值的分布形式

，它均值为零，方差为单位一。现在将这个误差作用到通过图片回归出来的坐标

上。怎么个作用法呢？我们采用最最朴实无华的作用方式：因为差值分布的方差是标准化的，我们将它先乘一个拉伸量

，再加到回归的坐标

上：

就完成了偏差之于坐标的作用过程。

因此，要反过来估计差值分布

，我们只需要有：

坐标值的回归模型
拉伸系数的回归模型

就可以用flow方法，求的差值

的分布啦！这对应于论文中的下图：

通过建立回归模型回归出对应值，再通过flow模型估计分布，至此，我们就完成了我们的最高目标了：

那么是不是到这里就结束了？其实还有最后一个问题，这个RLE（Residual Log-likelihood Estimation）中的R (Residual) 在哪里体现呢？原来，为了更快地逼近理想结果，我们不去直接估计目标分布

，而是选择去估计目标分布与原始分布(e.g. 高斯分布)的残差

，记作

。但分布不能直接除，因此引入中间因子 s 使得残差过程成立：

取对数得到似然函数：

这就对应于文章中的公式六：

论文中

代表某个简单的分布，作用是和残差项结合，以快速逼近目标分布。

代表误差的最佳估计，对应于上文的

。

到这里，论文的核心思想才真正结束。

四、总结

最后对本文来一个小小的总结吧：

第一部分：通过经典的最大似然估计法，简单解释了概率分布之于损失函数的重要作用
第二部分：利用flow方法，让神经网络有能力拟合一个概率分布函数。
第三部分：完成了终极目标：标注偏差的估计。并通过残差模块，让网络的训练过程更快更平滑。

作者：兔兔兔

｜关于 深延科技｜

深延科技成立于2018年，是深兰科技（DeepBlue）旗下的子公司，以”人工智能赋能企业与行业”为使命，助力合作伙伴降低成本、提升效率并挖掘更多商业机会，进一步开拓市场，服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台，涵盖从数据标注及处理，到模型构建，再到行业应用和解决方案的全流程服务，一站式助力企业”AI”化。

Original: https://blog.csdn.net/shenlanshenyanai/article/details/121981089
Author: 深兰深延AI
Title: ICCV 2021 Oral | 姿态估计——零基础看懂RLE

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634060/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 离散小波变换（DWT） pywt库

文章目录 * – + 一、小波变换 + * 离散小波变换函数 + 二、Haar 变换 + * 2.1 一维Haar变换 * 2.2 二维离散小波变换 * 2.3 pyw…

人工智能 2023年5月26日
0090
微信小程序-百度AI语音识别——（二）

微信小程序-百度AI语音识别（二）上次在浏览器上实现了小demo，但毕竟pc端的录音还是体验不怎么好，这次用微信小程序实现一下。 ; 一、新建工程采用原生小程序的方式进行开发…

人工智能 2023年5月27日
00147
（最新）基于python（tensorflow）（OpenCV）卷积神经网络人脸识别

（最新）基于python（tensorflow）（OpenCV）卷积神经网络人脸识别对于深度学习有了一些了解，想着自己做一些项目，对个人脸识别就特别感兴趣，话不多说，首先我是在An…

人工智能 2023年5月26日
0084
【实战 02】Iris 鸢尾花（IRIS）数据集的逻辑回归分类实践

目录 1. 数据集 2. 数据可视化 3. 利用逻辑回归模型在三（多）分类上进行训练和预测 4. 混淆矩阵 numpy （Python进行科学计算的基础软件包） pandas（pa…

人工智能 2023年6月19日
0060
超简单教你在树莓派上安装opencv(一)

使用须知：本文章主要是针对 python3.8 版本以下的python，如果你的python版本不在 python3.8 以下，那么本篇文章的方法将不适合你使用，如果你的Pytho…

人工智能 2023年6月19日
0089
pandas–groupby相关操作

pandas——groupby操作实验目的熟练掌握pandas中的groupby操作实验原理groupby(by=None, axis=0, level=None, as_in…

人工智能 2023年7月6日
0072
如何通过抖音来进行广告宣传

在短视频平台快速发展的今天，抖音、快手等短视频平台正在迅速崛起。其中，截至2021年11月9日，抖音总下载量已达555亿。在这个几乎每个人的手机上都安装了抖音的时代，抖音是最好的广…

人工智能 2023年5月25日
0090
盘点PC端超好用的文字转语音工具，赶紧收藏起来

文语转换一直是日常生活中常见的问题。目前，市场主要分为直播配音和软件配音。 [En] Text-to-speech has always been a common problem…

人工智能 2023年5月25日
0092
C#(winform)调用pytorch模型

项目是写一个辅助诊断系统软件，用winform写软件，调用pytorch和matlab的模型。这篇博客只包含调用pytorch模型的部分。 1.c++(libtorch)调用模型 …

人工智能 2023年7月22日
0073
基于Anaconda的pandas学习

基于Anaconda的pandas学习 * – Pandas安装 – 创建对象 – + 创建Series对象 + 创建DataFrame对象 +…

人工智能 2023年7月7日
0070
分类问题：Logistic回归算法

分类问题 Logistic回归算法如果使用直线来拟合数据的话，我们将分类器输出阈值设为0.5，若h θ ( x ) ⩾ 0.5 h_\theta(x)\geqslant0.5 h…

人工智能 2023年7月2日
0087
基于Anaconda的pandas学习

基于Anaconda的pandas学习 * – Pandas安装 – 创建对象 – + 创建Series对象 + 创建DataFrame对象 +…

人工智能 2023年6月16日
0076
大数据导论（五：大数据分析）

1、数据分析概念和分类数据分析是指收集、处理数据并获取数据隐含信息的过程。大数据具有数据量大、数据结构复杂、数据产生速度快、数据价值密度低等特点，这些特点增加了对大数据进行有效分…

人工智能 2023年7月17日
0059
Windows Server系统 PaddleOCR失败解决方案

因PaddleOCR引用了Opencv,在windows server 上使用opencv出现 DLL load failed错误,发现缺失部分dll：MFPlat.dll、MF…

人工智能 2023年6月4日
0090
OpenCV Java入门一在MAC系统上安装OpenCV

OpenCV网上讲的一个都不对，要么卡死电脑，要么训练模型写死，要么都只是显示显示人脸就说入门了。没有一个从安装、使用、驱动摄像头、训练模型、辩别人脸的全过程。最夸张的是连怎么安装…

人工智能 2023年5月26日
0074
基于自己的数据集实现dso-slam三维重建方案

在搭建完dso slam方案的运行环境后，使用官方给定的数据集能够实现效果不错的三维重建。由于官方给定的数据集已经进行了校准，这样的话，用我们自己构建的数据集会实现怎样的效果？ …

人工智能 2023年6月1日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ICCV 2021 Oral | 姿态估计——零基础看懂RLE

大家都在看