KNN缺失值的插补原理介绍（你肯定需要）

2023年6月15日下午1:35 • 人工智能 • 阅读 67

缺失值是数据处理过程中不可跳过的一个步骤！当然，如果你的数据不存在缺失值，那就不需要这个文档了！你可能需要查看一下异常值了！！！
现在我们来理解一下缺失值（类型）：

完全随机缺失（missing completely at random，MCAR）：指的是数据的缺失是随机的， 数据的缺失不依赖于任何不完全变量或完全变量。空值的出现与数据集中已知或者未知的特征是完全无关的（没有任何已知特征与其相关，类似自然选择无筛选条件）。比如：一调查问卷中的性别字段，是否缺失属于完全随机，它取决于调查对象。
随机缺失 (missing at random,MAR)：指的是数据的缺失不是完全随机的，即 该类数据的缺失依赖于其他完全变量。比如：一个关于教育的数据集缺失了很多小孩的IQ测试分数，只是因为相比十二岁的孩子，四岁的孩子很少会通过这个测试。所以出现的空值与IQ实际值没有相关性，而与年龄相关。IQ字段缺失记录主要集中在低年龄人群中！
非随机缺失 (missing not at random,MNAR)：指的是 数据的缺失依赖于不完全变量自身。比如：只有具有低分个体的IQ变量值缺失。

我们可以简单的理解其算法为：通过距离测量来识别数据集中空间相似或相近的 k k k个样本。然后，使用这些 k k k 样本来估计缺失数据点的值。每个样本的缺失值使用数据集中找到的 k k k 邻域的 平均值进行插补。

在存在缺失坐标的情况下，通过忽略缺失值并放大非缺失坐标的权重来计算欧几里德距离。
d x y = w e i g h t × s q u a r e d d i s t a n c e f r o m p r e s e n t c o o r d i n a t e s d_{xy} = \sqrt{weight \times squared \; distance \; from \; present \; coordinates}d x y =w e i g h t ×s q u a r e d d i s t a n c e f r o m p r e s e n t c o o r d i n a t e s
其中，
w e i g h t = T o t a l n u m b e r o f c o o r d i n a t e s N u m b e r o f p r e s e n t c o o r d i n a t e s weight = \frac{Total \; number \; of \; coordinates}{Number \; of \; present \; coordinates}w e i g h t =N u m b e r o f p r e s e n t c o o r d i n a t e s T o t a l n u m b e r o f c o o r d i n a t e s

示例
例如：两点（3，NA，5）和（1，0，0）之间的欧几里德距离为：
3 2 × { ( 3 − 1 ) 2 + ( 5 − 0 ) 2 } = 6.595453 \sqrt{\frac{3}{2} \times {(3-1)^2+(5-0)^2}} = 6.595453 2 3 ×{(3 −1 )2 +(5 −0 )2 }=6 .5 9 5 4 5 3

示例1：两个一维数组的计算


import numpy as np
from sklearn.metrics.pairwise import nan_euclidean_distances
x = [[3, np.nan, 5]]
y = [[1, 0, 0]]
nan_euclidean_distances(x, y)

Out[6]: array([[6.59545298]])

示例2：具有多个维度的单个数组

x = [[3, np.nan, 5], [1, 0, 0]]
nan_euclidean_distances(x, x)

Out[8]:
array([[0.        , 6.59545298],
       [6.59545298, 0.        ]])

基本思想：KNNImputer通过欧几里德距离矩阵寻找最近邻样本，使用最近邻样本的对应位置的非空数值的均值填补缺失的数值。

from sklearn.impute import KNNImputer
import numpy as np

X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]
np.array(X)
Out[16]:
array([[ 1.,  2., nan],
       [ 3.,  4.,  3.],
       [nan,  6.,  5.],
       [ 8.,  8.,  7.]])

nan_euclidean_distances(X, X)
Out[12]:
array([[ 0.        ,  3.46410162,  6.92820323, 11.29158979],
       [ 3.46410162,  0.        ,  3.46410162,  7.54983444],
       [ 6.92820323,  3.46410162,  0.        ,  3.46410162],
       [11.29158979,  7.54983444,  3.46410162,  0.        ]])

结果：以点（1，2，np.nan）为例，距离最近的两个是（3，4，3）和（np.nan，6，5）；此时，点（1，2，np.nan）中的缺失值为：( 5 + 3 ) 2 = 4 \frac{(5+3)}{2} = 4 2 (5 +3 )=4

imputer = KNNImputer(n_neighbors=2)
imputer.fit_transform(X)
Out[14]:
array([[1. , 2. , 4. ],
       [3. , 4. , 3. ],
       [5.5, 6. , 5. ],
       [8. , 8. , 7. ]])

大家可以自己计算一下另一个缺失值。

Original: https://blog.csdn.net/nixiang_888/article/details/123180128
Author: Xiaofei@IDO
Title: KNN缺失值的插补原理介绍（你肯定需要）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614867/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyTorch官方教程笔记：文本主题

诸神缄默不语-个人CSDN博文目录 PyTorch官方教程网址：Welcome to PyTorch Tutorials — PyTorch Tutorials 1.11.0+cu…

人工智能 2023年5月30日
0076
深度理解感受野（一）什么是感受野？

Introduction 经典目标检测和最新目标跟踪都用到了RPN(region proposal network)，锚框(anchor)是RPN的基础，感受野(receptive…

人工智能 2023年7月22日
0067
基于微分方程的图像去噪处理(改进型P-M法)附MATLAB代码

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
0069
目标检测详解

文章目录前言一、基本概念 * 目标检测的思路边界框锚框交并比（loU）标注锚框 – 在训练数据中标注锚框 + 将真实边界框分配给锚框标记类别和偏移量使用…

人工智能 2023年7月12日
0081
Python基于OpenCV的异常行为检测系统[源码＆部署教程]

1.项目背景智能视频监控（Intelligent Video Surveillance , IVS）[1.2·3.4是计算机视觉技术5l在安防领域的应用，实现了由”被…

人工智能 2023年6月19日
0093
GRU神经网络

在处理时序数据时候，RNN是一种十分简单的方法，但是它并不完美。它会记住太多的信息。回忆一下能够状态函数H t H_t H t ，它对每个进入的X t X_t X t 都记录…

人工智能 2023年7月14日
0047
数据挖掘学习笔记

第一章 python基础 1.4 python基本数据类型 #1.41数值类型 int,float,bool #1.42字符串str s1=’abcd’ s2=”’ab cd”…

人工智能 2023年7月16日
0072
数据分析师必备的python包

1. numpy numpy提供大量数值编程工具，可以方便处理向量矩阵等运算。是科学计算方面的利器。 2. scipy 统计就是在做宏观分析的工作。拿到一组数据，分析数据的特征，具…

人工智能 2023年7月17日
0050
如何通过.exe文件控制一台电脑

CVE-2022-21999漏洞如何实现发送一个.exe文件偷偷控制他人的电脑？这个想法很刑的，所以我只是说明我的实现方式，具体操作建议仅用于hvv等专业领域，请勿以身试法。首…

人工智能 2023年7月31日
0062
无人机通信方式及原理

无人机的信号传输组合：遥控图传信号和定位导航信号（GPS、北斗、格洛纳斯）无人机的遥控信号是2.4GHz/5.8GHz频段，这个是无人机自带的天地（飞机与云台）之间的信号传播频段…

人工智能 2023年6月25日
00117
又到一年情人节,用Html和Python来个花式表白

📢📢📢📣📣📣哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10年DBA工作经验一位上进心十足的【大数据领域博主】！😜😜😜中国DBA联盟(ACDU)成员，目前从事DBA…

人工智能 2023年7月5日
0046
ubuntu 22.04安装独立显卡驱动方法以及一些问题，以及安装pytorch&cuda和cudnn的问题

linux 这种东西就是玩的越多就慢慢上手了，我这种就是换个显卡重装一次系统的傻子（删错了东西），驱动也是linux下面比较麻烦的一些东西，下列的显卡驱动主要以nvidia的卡为主…

人工智能 2023年7月21日
0055
PyTorch中的神经网络是如何构建的

问题：PyTorch中的神经网络是如何构建的？详细介绍在PyTorch中，构建神经网络可以通过构建一个继承自torch.nn.Module的Python类来完成。这个类包含了神…

人工智能 2024年1月4日
0053
【斯坦福大学公开课CS224W——图机器学习】六、图神经网络1：GNN模型

【斯坦福大学公开课CS224W——图机器学习】六、图神经网络1：GNN模型文章目录【斯坦福大学公开课CS224W——图机器学习】六、图神经网络1：GNN模型 * 1. Deep…

人工智能 2023年7月14日
0075
像素（Pixel）、DPI与PPI一看就明白

像素（Pixel）、DPI与PPI 像素（Pixel） DPI 英文全写是(Dots Per Inch，每英寸点数) PPI 英文全写是(Pixels Per Inch，每英寸像素…

人工智能 2023年6月20日
00102
python格式化字符串

目录格式化字符串是什么？ 1.使用占位符格式化字符串：占位符：例子：占位符%s、%c、%%的使用：占位符%d、%o、%x的使用：占位符 %f、%e的使用： 2.使用fo…

人工智能 2023年7月5日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KNN缺失值的插补原理介绍（你肯定需要）

大家都在看