【计算机视觉】简述对KPConv的理解

2023年6月25日下午5:23 • 人工智能 • 阅读 100

之前有篇博客介绍了自己对PointConv的理解，那篇文章虽然在某种程度上实现了高效卷积，并且利用了一种注意力的方法（密度加权），但是其分割的效果并不是特别的理想，miou并不是特别的高，所以这篇文章讲述一下自己对CVPR2019年发表的一篇文章KPConv的理解。
一、这篇文章的贡献我觉得是提出了一种新的点卷积设计，就是Kernel卷积的方法，它使用任意点数量的核点使KPConv比固定卷积更加具有灵活性，并且论文中提出了两种KPConv，grid型的KPConv用于简单的任务，可变形的KPConv可用于执行更复杂的任务。并且它的实验结果有大大提升。
二、对于输入的话有两个，一个是点P，另一个是特征F，并且它的local选择的是半径搜索的方法，因为如果采用KNN的搜索方法的话，会导致感受野忽大忽小，导致一定的不确定性。像图像卷积一样，我们希望核点卷积对不同区域的点的权重也是不同的，所以我们利用一种距离的方法，利用这个距离对Kernel中点的权重进行激活，KPConv中使用的是线性相关的方法，这种方法比较简单，以在学习内核变形时简化梯度反向传播。

上述分别是邻域、核点的定义域、核点以及每个Kernel点的权重。最终的卷积方法可以写成下图的方式，并且上文也提到了一种利用距离激活的方法实现加权。
【计算机视觉】简述对KPConv的理解

它卷积的计算方法与图像不太一样，图像是将卷积核（也就是Kernnel）分别与输入矩阵进行乘法然后加权，KPConv是将Kernel种所有点与输入点进行卷积，以致于处理完所以local内的点的特征，然后进行加权，得到一个点x的特征输出。
【计算机视觉】简述对KPConv的理解

三、文章开头也提到了这篇文章的一个贡献是提出了一个可变形的KPConv，作者刚开始想着对于每一层都使用不同的Kernel Points，但是这种方法会降低网络的表述能力，刚性的KPConv中的内点是不动的，特别是给定一个特别大的K来足够覆盖核的球域时，核函数g对于x是可微的，意味着它们是可学习的，所以原作者为了更加适应点云学习，给每个卷积位置生成一组Local shifts，用于执行更复杂的任务。

为了防止邻域内的点出现聚集，不均匀，或者说我们更希望点会靠近中心点，而且在实践中，内核点最终会被拉离输入点，核点就会被网络丢失，所以文章添加了两个正则化损失，用于惩罚该问题。第一个损失函数是让Kernel Points中的点形状更像点云的形状，就是领域点到核点之间的距离和尽量小，第二个损失函数是Kernel Points的两点之间的距离更远一点，更均匀一点。
【计算机视觉】简述对KPConv的理解

四、对于KPConv的网络架构的话，主要有种，一种KP-FCNN用于分割，KP-CNN用于分类，前面都是一个5层的网络结构，以点和特征作为输入，进行卷积、池化并且提升维度，分类其实就是选择半径球域，然后进行KPConv聚合成更少的点，最终加入FC和softmax进行分类打分。分割的话是一个还原的过程，先利用上采样，将聚合的点进行降维，然后与之前的点进行一个skip link后进行一个one by one的卷积，逐渐的还原，以致于还原到原始点云的情况。
【计算机视觉】简述对KPConv的理解

对每一个block而言，以Din为输入，先进行一个1×1卷积，进行一个上采样，降维到D/2，然后在进行KPConv，与maxpooling之后的进行相加，全块用ReLU函数激活，在deformableKPConv中，添加将输入Din映射到3K值的刚性KPConv的输出，其他的与rigid一样。
【计算机视觉】简述对KPConv的理解

五、对于实验的话，以为做的实验比较多，而且论文后面有一些内核点的学习以及Kernel的具体结构，可以去参考论文，在这里不详细说明，以上是我对这篇文章的一个初步了解，如有不对或者错误，请多多指正！！！
附上原文的网址：https://arxiv.org/abs/1904.08889

Original: https://blog.csdn.net/weixin_48845174/article/details/123183336
Author: YXLiu_XMYang_PCSS
Title: 【计算机视觉】简述对KPConv的理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651302/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

傅里叶与图像特征简介

傅里叶变换在图像处理中有着广泛的应用，主要应用方向有：图像增强与去噪、边缘检测、特征提取、图像压缩等。其核心思想是使用傅里叶变换将图像由空间域转换至频率域，通过对频率域进行不同的运…

人工智能 2023年6月22日
0071
pytorch 保存模型+加载模型+修改部分层+冻结部分层+删除部分层

pytorch的一些细节操作本文以普通的CNN为例实验用的模型参考博客。 ; 2. 模型代码原始代码分成两个部分：第一个是写CNN模型框架的py文件，cnn.py第二个是主…

人工智能 2023年6月16日
0086
机器学习笔记 – 生成对抗网络 (GAN)概述和入门示例

一、生成对抗网络 (GAN) 1、原理简述生成对抗网络 (GAN) 是一类功能强大的神经网络，用于无监督学习。它是由 Ian J. Goodfellow 在 2014 年开发和引…

人工智能 2023年5月23日
0092
IOT设备情况数据分析

共建网络世界共创数字未来携手构建网络空间命运共同体——2022世界互联网大会主题文章目录前言一、IOT设备关注问题 * （一）设备SN和MAC的赋值情况（二）设备的激活…

人工智能 2023年6月28日
0076
OpenCv连通区域分析——Two-Pass 算法&区域生长算法

连通区域（Connected Component）一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。连通区域分析是指将图像中的各个连通区域找出并标记，通常连通区域…

人工智能 2023年7月19日
0074
python面试题——抽象基类和接口

; 一、抽象基类与接口 1、抽象基类(abstract base class,ABC) 提到这个概念,我们应该会马上联想到面向对象、继承。作为继承的一种，它拥有继承中代码共享、提高…

人工智能 2023年7月5日
0059
数据载入、存储及文件格式（数据分析）

目录第6章数据载入、存储及文件格式 6.1 文本格式数据的读写 6.1.1 分块读入文本文件 6.1.2 将数据写入文本格式 6.1.3 使用分隔格式 6.1.4 JSON数据…

人工智能 2023年7月7日
0057
如何使用Keras进行自然语言处理（NLP）任务，例如文本分类或情感分析

介绍本文将详细介绍如何使用Keras进行自然语言处理（NLP）任务，以文本分类和情感分析为例。我们将使用一个开源数据集来展示整个流程，同时提供详细的算法原理、公式推导、计算步骤，…

人工智能 2024年1月4日
0053
从dataframe中提取一列，并作散点图

以鸢尾花数据集为例创造环境 import pandas as pd from pandas.plotting import parallel_coordinates import…

人工智能 2023年7月7日
0056
Python图像处理库的默认导入格式、坐标轴方位易错点辨析

Python进行图像处理、计算机视觉时有若干常用库，他们导入后的张量形状、坐标轴位置、相互转换方法各有不同。本文的总结包括PIL、skimage、numpy、opencv、pyto…

人工智能 2023年6月22日
0099
DeFMO: Deblurring and Shape Recovery of Fast Moving Objects

DeFMO: Deblurring and Shape Recovery of Fast Moving Objects 论文链接一、摘要和介绍摘要: 用相机拍摄高速移动的物体时…

人工智能 2023年6月22日
0075
Elasticsearch：使用向量搜索来查询及比较文字 – NLP text embedding

Elastic Stack 机器学习功能可以生成嵌入（embeddings），你可以使用它在非结构化文本中搜索或比较不同的文本片段。传统上，我们在搜索文本的时候，更加倾向于把文字进…

人工智能 2023年5月27日
00104
语音信号预处理提取特征

环境：matlab 2020a 目录目录一、预处理 1.1、语音读取 1.2、标签导入 1.3、降噪 1.4、带通滤波 1.5、特征提取 1.5.1 方差选取12000点 1…

人工智能 2023年5月25日
0054
基于MindSpore的CycleGAN介绍和实现

前言我们这次介绍下著名的CycleGAN，同时提供了基于MindSpore的代码，方便大家运行验证。 CycleGAN的介绍 CycleGAN图像翻译模型，由两个生成网络和两个判…

人工智能 2023年7月13日
00110
爆改YOLOV7的detect.py制作成API接口供其他python程序调用（超低延时）

一、前言 YOLO系列框架凭借其超高的运行流畅度和不俗的准确率，一直被广泛地应用到各个领域。刚刚推出不久的YOLOV7在5 FPS到160 FPS范围内的速度和精度达到了新的高度…

人工智能 2023年7月4日
0060
箱线图的几种画法-Python

箱线图的几种画法-Python 欢迎关注笔者的微信公众号箱线图是一种强大的数据可视化工具，用于了解数据的分布。它将数据分成四分位数，并根据从这些四分位数得出的五个数字对其进行汇总…

人工智能 2023年7月5日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【计算机视觉】简述对KPConv的理解

大家都在看