还原填充错误的缺失数据

还原填充错误的缺失数据

手动方法 map() 函数映射

map(func)

import pandas as pd
import numpy as np

df = pd.DataFrame()
df['身高'] = [170, -1, 190, 150, 166]
df['体重'] = [50, 65, 70, 60, -1]
df.index = ['a', 'b', 'c', 'd', 'e']

结果:

还原填充错误的缺失数据

很明显人的身高不可能是 -1 , 体重也不可能是 -1 , 这些数据属于有违反常识的数据值。 因此这里是误填充操作(或者可以理解成:异常值)

那么我们应该如何发现它们,并将其替换成缺失值形式呢?

df['身高'] = df['身高'].map(lambda x : x if x != -1 else None)
df['体重'] = df['体重'].map(lambda x : x if x != -1 else None)
df

结果:

还原填充错误的缺失数据

自动方法 for循环 + replace() 替换

如果我们的数据列数较小的时候,我们可以进行手动填充,但是有许多数据列都存在缺失,那就需要进行自动填充以提高效率

columns = df[df == -1].columns.tolist()
for col in columns:
    df[col].replace([-1], [np.nan], inplace=True)
df

注意: 这里使用的 np.nan 和之前使用的 None 均可以代表缺失数据,None (是 python中的 ) , np.nan(是numpy中的)

还原填充错误的缺失数据

说明

以上这些心得是在特征工程中体会得到的,如果数据存在缺失,那么对缺失值的操作不是很方便,不妨先将缺失值用一些独特的值来填充,然后进行特征构建组合,这样的话可能会破坏原始的数据结构,但是却能打开数据各个特征之间的关系,可以结合具体业务展开。
使用方法:

1. 缺失数据检查
2. 缺失数据用独特的值填充 (一般使用-1, -9999,等)
3. 进行特征构建
4. 判断构架之后特征的相关性
5. 把数据还原会原始状态(本blog的内容)

以上方法结合具体的情况使用。

Original: https://blog.csdn.net/qsx123432/article/details/117014970
Author: 小王做笔记
Title: 还原填充错误的缺失数据

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/754542/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • python2 之 DataFrame

    1. 拼接: a. concat: pd.concat(axis=0,在下方;axis=1,在右方) eg:adfoutputexpand=pd.concat([a1,b1,c1,…

    Python 2023年8月16日
    054
  • Google Earth Engine 批量点击RUN任务,批量取消正在上传的任务

    本文内容参考自: https://blog.csdn.net/qq_21567935/article/details/89061114 https://blog.csdn.net/…

    Python 2023年6月3日
    089
  • 学生选课管理系统(python)最后附源码,码字不易点个关注!

    目录 项目描述: 开发计划 学生选课管理系统主要包括三大内容: 进度计划 需求分析 1.系统总体设计需求分析 2.系统功能模块需求分析 系统设计 1.系统总体设计 2.系统详细设计…

    Python 2023年7月31日
    0122
  • python中的with关键字

    with关键字用于管理 _不受控_的资源,就是需要我们在使用完后及时关闭的资源,比如文件流。这是python设计的语法糖,用于替代 try-finally语句,确保即使发生了异常,…

    Python 2023年6月12日
    059
  • MYSQL卸载

    MYSQL卸载 卸载MYSQL一共需要经过5步: 第一步:停止MySQL的服务(正在运行的软件无法卸载) 第二步:删除MySQL相关文件 第三步:进入控制面板卸载MySQL(全卸载…

    Python 2023年6月3日
    090
  • 业务脚本封装一

    业务脚本类型 01、独立+无序 02、独立+有序 03、关联+单一参数传递 04、关联+多个参数传递 01、独立+无序 的脚本封装 设计思路 脚本实例: #************…

    Python 2023年9月12日
    034
  • python爬虫——scrapy+mysql存储数据

    启动mysql:net start mysql 进入mysql:mysql -u root -p 创建数据库: create database xxx(表名称); 查看数据库:sh…

    Python 2023年10月2日
    039
  • 【Pygame实战】你知道这款升级版的《猜数字》游戏吗?玩过的都直呼“真香”~

    导语 ” 你有没有经历过这样的”灵异事件”—— 一旦打开了游戏,便再也感觉不到时间的流逝,直到猛然一看窗外,发现天黑了; 一旦玩起了游戏,便再也…

    Python 2023年9月20日
    060
  • [Pandas] 数据迭代

    df 1.迭代Series Series本身是一个可迭代的对象,可直接对Series使用for语句来遍历它的值 import pandas as pd df = pd.DataFr…

    Python 2023年8月7日
    036
  • Numpy库的学习

    定义:移除指定数据中长度为 1 的轴;形式:numpy.squeeze(a, axis=None);参数:a 是输入的数据;axis 目前我也就用到 int,用于删除指定维度的轴,…

    Python 2023年8月25日
    032
  • Scrapy + 案例

    那我们就直接来一个案例来仔细讲解一下,步骤是怎么样的。这个例子是前不久一个学妹的作业。我拿来写写博客哈哈哈哈哈。 例子是爬取人邮教育区里面的书籍。老步骤 ; 一、创建爬虫项目 打开…

    Python 2023年10月3日
    052
  • pandas办公自动化

    1.读取excle文件 import pandas as pd pd = pd.read_excel(r’D:\01.xlsx’) ##文件路径 print(pd) 2.数据结构 …

    Python 2023年8月9日
    064
  • scrapy框架的使用

    1.什么是scrapy框架? 文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html 这个详细的文档…

    Python 2023年10月3日
    044
  • python 文本文件改写_unittest自动测试多个文件如何改写为pytest

    –– coding: utf-8 –– “”” :copyright: © 2019 by th…

    Python 2023年9月14日
    071
  • IVX低代码平台——微信小程序获取用户信息

    写在前面 小程序可以通过方便地获取微信提供的用户身份标识,快速建立小程序内的用户体系。本文将向大家展示低代码开发:小程序实现获取用户信息的方法,供大家参考。 文章目录 写在前面 开…

    Python 2023年11月5日
    038
  • 【数据挖掘】Pandas介绍

    🔥一个人走得远了,就会忘记自己为了什么而出发,希望你可以不忘初心,不要随波逐流,一直走下去🎶🦋 欢迎关注🖱点赞👍收藏🌟留言🐾🦄 本文由 程序喵正在路上 原创,CSDN首发!💖 系列…

    Python 2023年8月7日
    049
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球