Python中缺失值的填充

2023年7月15日上午5:38 • 人工智能 • 阅读 65

0 常用方法

在Python中最常用的处理数据格式为DataFrame格式，当数据为其他格式时可以使用pandas包中的.DataFrame方法转化为该格式。

此处以原数据为list来转换数据格式。

import pandas as pd
a=[[1,2,3],[4,5,6]]
print(pd.DataFrame(a),type(pd.DataFrame(a)))

## &#x8F93;&#x51FA;&#x7ED3;&#x679C; ##
   0  1  2
0  1  2  3
1  4  5  6 <class 'pandas.core.frame.dataframe'>
</class>

当然可以直接使用pandas包打开csv或者xlsx格式的数据集，这样数据的打开格式为DataFrame。

import pandas as pd
a=pd.read_csv("&#x6587;&#x4EF6;&#x540D;.csv")
b=pd.read_excel("&#x6587;&#x4EF6;&#x540D;.xlsx")

在寻找缺失值的时候，一般使用fillna()方法寻找数据中的NA/NaN值，并在括号内写入填充的数据。

import pandas as pd
a=[['1','2'],['4','5','6']]
a=pd.DataFrame(a)
print(a)

## &#x8F93;&#x51FA;&#x7ED3;&#x679C; ##
   0  1     2
0  1  2  None
1  4  5     6

a=a.fillna('3')
print(a)

## &#x8F93;&#x51FA;&#x7ED3;&#x679C; ##
   0  1  2
0  1  2  3
1  4  5  6

1 填充None

在处理一些文本数据时，数据的缺失值一般可以使用众数或者none值填充，需要根据实际数据格式而定，有的数据集会有数据描述文件，可以根据文件描述，决定哪些特征下的数据缺失值填充none。

a['&#x7279;&#x8BC1;&#x540D;']=a['&#x7279;&#x5F81;&#x540D;'].fillna('None')

2 填充众数

数据集中文本特征和数字特征都可以在缺失值中填充众数。

文本特征填充的为文本中出现最多的特征值，数字特征则填充出现最多的数字。

填充众数时一般使用.mode()方法，该方法可以选出固定特征中出现最多的数字或者文本，可能筛选出众数不止一个，一般会使用下标去选择填充的值。

a=['&#x7279;&#x5F81;&#x540D;']=a['&#x7279;&#x5F81;&#x6C11;'].fillna(a['&#x7279;&#x5F81;&#x540D;'].mode()[0])    # &#x586B;&#x5145;&#x7B2C;&#x4E00;&#x4E2A;&#x4F17;&#x6570;

3 检查是否含有缺失值

在检查数据集中是否存在缺失值时，一般采用isnull()方法来判断是否存在缺失值，如果有缺失值则会在缺失值处标记为True，可以使用sum()来按列统计每一列的缺失值个数。

import pandas as pd
a=[['1','2'],['4','5','6']]
a=pd.DataFrame(a)
print(a.isnull())
print(a.isnull().sum())

## &#x8F93;&#x51FA;&#x7ED3;&#x679C; ##
       0      1      2
0  False  False   True
1  False  False  False

0    0
1    0
2    1
dtype: int64

如果只想判断是否有缺失值，则可以使用any()函数来判断，如果没有缺失值则返回False，存在缺失值则返回True。

import pandas as pd
a=[['1','2'],['4','5','6']]
a=pd.DataFrame(a)
print(a.isnull().sum().any())

## &#x8F93;&#x51FA;&#x7ED3;&#x679C; ##
True

Original: https://blog.csdn.net/weixin_51744807/article/details/125090954
Author: 烟火风流
Title: Python中缺失值的填充

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693646/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

vs2022重新编译opencv-python cuda加速时报错

今天重新编译了一下Windows的opencv-python的cuda加速在生成INSTALL的时候报错 严重性…

人工智能 2023年5月28日
0076
爆肝一周，用Python在物联网设备上写了个智能语音助手-阿里云智能语音交互

基于HaaS云端一体框架，用Python打造HaaS EDU K1智能语音助手的过程中需要用到云端能力。本篇文章介绍如何开通阿里云智能语音交互，并创建配置语音识别及语音合成项目，获…

人工智能 2023年5月25日
0088
bp神经网络算法matlab程序,bp神经网络的matlab实现

MATLAB中BP神经网络的训练算法具体是怎么样的先用newff函数建立网络，再用train函数训练即可。 1）正向传播：输入样本－>输入层－>各隐层（处理）－&gt…

人工智能 2023年7月12日
0060
22神经网络-线性回归- demo2

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月24日
0056
【蓝桥杯Web】第十四届蓝桥杯（Web 应用开发）模拟赛 1 期-大学组 | 精品题解

🧑‍💼 个人简介：一个不甘平庸的平凡人🍬🖥️ 蓝桥杯专栏：蓝桥杯题解/感悟🖥️ TS知识总结：十万字TS知识点总结👉 你的一键三连是我更新的最大动力❤️！📢 欢迎私信博主加入前端交…

人工智能 2023年7月31日
00198
Java美颜相机（1）图像处理

图像处理美颜相机——基本功能实现项目完整知识点（这里只实现了基本功能）基本功能图像原理像素矩阵二进制位运算十进制十六进制基本的文件操作读取照片保存照片界面开…

人工智能 2023年6月21日
0066
window10环境下tensorflow-gpu-2.7.0安装

window10环境下tensorflow-gpu-2.7.0安装：cuda11.1 + cudnn8.1.1 + pycharm2020.3.5 + anaconda2021.1…

人工智能 2023年5月24日
0079
（三）碳排放如何计算

碳排放量是如何计算的？中国提出”2030 碳达峰、2060 碳中和”的目标，描绘了全国的减排图景，而这个全国性目标分解下沉后，各地的压力和任务大不相同。在…

人工智能 2023年6月15日
0078
模型训练时gpu内存不足的解决办法

最近在训练微调bert预训练模型的时候，gpu内存老是不足，跑不了一个epoch就爆掉了，在网上来来回回找了很多资料，这里把一些方法总结一下：半精度float16比单精度floa…

人工智能 2023年7月22日
0054
论文笔记-F3Net：Fusion, Feedback and Focus for Salient Object Detection

论文笔记之2020-AAAI-F3Net-F3Net：Fusion, Feedback and Focus for Salient Object Detection论文地址：htt…

人工智能 2023年7月10日
0067
中文NER的那些事儿1. Bert-Bilstm-CRF基线模型详解&代码实现

这个系列我们来聊聊序列标注中的中文实体识别问题，第一章让我们从当前比较通用的基准模型Bert+Bilstm+CRF说起，看看这个模型已经解决了哪些问题还有哪些问题待解决。以下模型实…

人工智能 2023年6月4日
00127
使用element-ui组件库上传文件及自定义上传文件(包含多文件上传及自定义上传携带其他参数)

组件使用使用上传组件需要引入并注册Upload组件而这个组件中又用到了Button，所以也需要注册一下Button，我们只需要在main.js(new Vue实例的文件里边)，加…

人工智能 2023年6月26日
0061
tensorflow GPU安装

安装CUDA 先查看自己NVIDIA对应的cuda版本到官网下载 CUDA下载地址：https://developer.nvidia.com/cuda-toolkit-archi…

人工智能 2023年5月25日
0065
Android App开发超实用实例 | 约束布局

从多个角度介绍约束布局设计中的控件定位。 01、约束布局基础从 Android Studio 2.3版本起，约束布局是Android Studio布局文件的默认布局。其他布局方…

人工智能 2023年6月30日
0084
【python三维深度学习】python三维点云从基础到深度学习

点云法向量、质心、体素、三角面。含数据与python源码。旋转、平移、立体几何投影理论分析、投影变换、仿射变换、缩放等，特别是包含了基于法向量的点云旋转，可以将激光雷达地面点云…

人工智能 2023年7月4日
0084
百度PaddleOCR识别与训练及部署

1、安装python-3.9版本链接：https://pan.baidu.com/s/1IgF1RwGyV7Qu-FqspeloYg提取码：pn9k 2、安装PaddlePa…

人工智能 2023年7月12日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python中缺失值的填充

0 常用方法

1 填充None

2 填充众数

3 检查是否含有缺失值

大家都在看