数据分析-数据预处理

数据分析-数据预处理

处理重复值

duplicated( )查找重复值

import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
a=a.duplicated()
print(a)

数据分析-数据预处理

只判断全局不判断每个

any()

import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
a=any(a.duplicated())
print(a)

数据分析-数据预处理

drop_duplicates( )删除重复值

参数inplace 是否在原数据上修改

import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
b=a.drop_duplicates(inplace=False)
a.drop_duplicates(inplace=True)
print(a)
print('--------------------------')
print(b)

数据分析-数据预处理

处理缺失值

NaN表示缺失值

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)

数据分析-数据预处理

isnull( )判断所有位置元素是否缺失

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a.isnull())

数据分析-数据预处理

any( )判断行列元素是否缺失

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a.isnull().any())
print(a.isnull().any(axis=1))

数据分析-数据预处理

del( )dropna( )删除

import pandas as pd
a=pd.read_csv(r'text.csv')
del a['name']
print(a)

数据分析-数据预处理
import pandas as pd
a=pd.read_csv(r'text.csv')
b=a.dropna(axis=0)
print(b)
c=a.dropna(axis=1)
print(c)

数据分析-数据预处理

del( )删除指定列,dropna( )删除含有缺失值的列(行)

fillna( )缺失值填补

import pandas as pda=pd.read_csv(r'text.csv')a=a.fillna('wu')print(a)

数据分析-数据预处理

根据上(下)数据填充

pad / ffill: 按照上一行进行填充
backfill / bfill: 按照下一行进行填充

import pandas as pda=pd.read_csv(r'text.csv')print(a)print('---------------------')b=a.fillna(method='pad')print(b)print('---------------------')c=a.fillna(method='bfill')print(c)

数据分析-数据预处理

数值型数据填充

平均值mean()

每列的平均值填充

import pandas as pda=pd.read_csv(r'text.csv')
print(a)
print('---------------------')
a=a.fillna(a.mean())
print(a)

数据分析-数据预处理

中位数median( )

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)print('---------------------')
a=a.fillna(a.median( ))
print(a)

数据分析-数据预处理

字符型数据填充

众数mode( )

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)
print('---------------------')
for i in a.columns:
    a[i] = a[i].fillna(a[i].mode()[0])
    print(a)

数据分析-数据预处理

数据变换

map( )数据转换

import pandas as pd
data={'sex':[1,0,1,1,0]}
a=pd.DataFrame(data)
a['sex-T']=a['sex'].map({1:'男',0:'女'})
print(a)

数据分析-数据预处理

哑变量

import pandas as pd
data={'sex':['男','女','男','女','保密']}
a=pd.DataFrame(data)
a=pd.get_dummies(a)
print(a)

数据分析-数据预处理

Original: https://blog.csdn.net/weixin_42403632/article/details/121435675
Author: 小旺不正经
Title: 数据分析-数据预处理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/754724/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • Django Ninja简单教程

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年8月4日
    048
  • 【愚公系列】2022年04月 Python教学课程 74-DRF框架之过滤

    REST 框架的通用列表视图的默认行为是返回模型管理器的整个查询集。通常,您希望 API 限制查询集返回的项目。 筛选子类的任何视图的查询集的最简单方法是重写该方法。 Generi…

    Python 2023年8月4日
    046
  • 宝塔Linux面板部署flask(详细步骤)

    文章目录 前言 一、将项目上传至宝塔面板 二、使用步骤 * 1.在宝塔面板安装python项目管理器 2.安装python并添加项目 3.安装缺少的模块(报错502) 总结 前言 …

    Python 2023年8月9日
    069
  • Python ❀ 文件与异常

    ​​1、文件中读取数据​​ ​​1.1 读取文件​​ ​​1.2 文件路径​​ ​​1.3 逐行读取​​ ​​1.4 创建一个包含文件各行内容的列表​​ ​​1.5 使用文件内容​…

    Python 2023年5月25日
    046
  • 如何实时、高效地处理如此海量的路况数据?

    摘要:数据是智慧交通的基础和命脉,如何实时、高效地处理如此海量的路况数据却绝非易事。 四通八达的路网和车水马龙的盛景诠释着城市的繁荣和进步,但是水泄不通的路口和暴躁不安的司机也暴露…

    Python 2023年10月29日
    043
  • 模型

    字段选项 null 如果设置为 True,当该字段为空时,Django 会将数据库中该字段设置为 NULL。默认为 False 。 blank 如果设置为 True,该字段允许为空…

    Python 2023年5月23日
    050
  • SpringBoot整合Docker实现一次构建到处运行

    写在前面 🍁个人主页:微枫Micromaple✨本期专栏:《0到1项目搭建》欢迎订阅学习~📌源码获取:GitCode、GitHub、码云Gitee 持续更新中,别忘了 star 喔…

    Python 2023年9月26日
    048
  • 爬虫之Scrapy框架

    安装 pip install scrapy在命令行输入scrapy,出现提示说明安装成功 ; 创建项目 scrapy startproject my_scrapy会生成一个项目名文…

    Python 2023年10月2日
    035
  • Django之 Timezone 详解

    最近在做项目时发现存储的时间比本地时间慢了八小时,查了很多文章,感觉都没有讲的很明白,本文根据自己的理解和如何解决的详细的记录下来,但也参考了一些文章和官网介绍。 datetime…

    Python 2023年8月5日
    045
  • Python小游戏——外星人入侵(保姆级教程)第一章 03设置飞船图片 04创建Ship类

    系列文章目录 第一章:武装飞船 03:设置飞船图片 04:创建Ship类——管理飞船行为的类 一、设置飞船图片 1.注意事项 A.将图片设置为位图bmp格式最简单,因为pygame…

    Python 2023年6月11日
    0102
  • TensorFlow之文本分类算法-3

    1 前言 2 收集数据 3 探索数据 4 选择模型 5 准备数据 N-gram 向量集 序列向量集 序列向量集主要是用于序列模型中对文本执行分词与向量化,与n-gram向量集类似,…

    Python 2023年10月11日
    033
  • Flask1.1.4 Werkzeug1.0.1 源码分析:启动流程

    基于QuickStart中的一个demo来分析 from flask import Flask app = Flask(__name__) @app.route("/&q…

    Python 2023年8月12日
    061
  • Socket

    1.不同的协议在同一条网线上传递(传递的都是数据流) 1.send 发 2.receive 收2.OSI七层协议 应用层 表示层 会话层 传输层 网络层 ip 数据链路层 mac …

    Python 2023年6月3日
    096
  • pytest框架(一)

    pip依赖与虚拟环境管理 上面的选项:勾选继承全局的包,即pip list下的全部包;不勾选就创建的是全新的虚拟环境下面的选项:勾选后这个虚拟环境将用于所有的项目 命令行绝对路径进…

    Python 2023年9月14日
    051
  • 关于送礼的一些知识

    1、送穷亲戚,好不好的不重要,重点是要贵,要送价值明显的、他们觉得贵平时舍不得买的。比如进口的水果、包装豪华而又昂贵的点心等等。 2、送富亲戚,要送性价比比较低的,越不划算的东西越…

    Python 2023年9月7日
    063
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球