数据分析-数据预处理

2023年8月7日下午9:04 • Python • 阅读 64

数据分析-数据预处理

处理重复值

duplicated( )查找重复值

import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
a=a.duplicated()
print(a)

只判断全局不判断每个

any()

import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
a=any(a.duplicated())
print(a)

drop_duplicates( )删除重复值

参数inplace 是否在原数据上修改

import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
b=a.drop_duplicates(inplace=False)
a.drop_duplicates(inplace=True)
print(a)
print('--------------------------')
print(b)

处理缺失值

NaN表示缺失值

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)

isnull( )判断所有位置元素是否缺失

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a.isnull())

any( )判断行列元素是否缺失

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a.isnull().any())
print(a.isnull().any(axis=1))

del( )dropna( )删除

import pandas as pd
a=pd.read_csv(r'text.csv')
del a['name']
print(a)

import pandas as pd
a=pd.read_csv(r'text.csv')
b=a.dropna(axis=0)
print(b)
c=a.dropna(axis=1)
print(c)

del( )删除指定列，dropna( )删除含有缺失值的列（行）

fillna( )缺失值填补

import pandas as pda=pd.read_csv(r'text.csv')a=a.fillna('wu')print(a)

根据上（下）数据填充

pad / ffill: 按照上一行进行填充
backfill / bfill: 按照下一行进行填充

import pandas as pda=pd.read_csv(r'text.csv')print(a)print('---------------------')b=a.fillna(method='pad')print(b)print('---------------------')c=a.fillna(method='bfill')print(c)

数值型数据填充

平均值mean()

每列的平均值填充

import pandas as pda=pd.read_csv(r'text.csv')
print(a)
print('---------------------')
a=a.fillna(a.mean())
print(a)

中位数median( )

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)print('---------------------')
a=a.fillna(a.median( ))
print(a)

字符型数据填充

众数mode( )

import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)
print('---------------------')
for i in a.columns:
    a[i] = a[i].fillna(a[i].mode()[0])
    print(a)

数据变换

map( )数据转换

import pandas as pd
data={'sex':[1,0,1,1,0]}
a=pd.DataFrame(data)
a['sex-T']=a['sex'].map({1:'男',0:'女'})
print(a)

哑变量

import pandas as pd
data={'sex':['男','女','男','女','保密']}
a=pd.DataFrame(data)
a=pd.get_dummies(a)
print(a)

Original: https://blog.csdn.net/weixin_42403632/article/details/121435675
Author: 小旺不正经
Title: 数据分析-数据预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740893/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PySpark之SparkSQL基本操作

SparkSQL DataFrame的优点： DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性…

Python 2023年8月19日
0071
MySQL-8.0.20

第一章 MySQL的介绍及安装 1.1 数据库管理系统(DBMS)RDBMS : Oracle SQLServer DB2 MySQLNoSQL : Redis MongoDB E…

Python 2023年6月3日
0063
python基于OCR深度学习实现商品配料表识别

1、概述当前人民和国家对食品安全十分重视，但商家为了保证食品长时间储存，味道鲜美，在食品中添加超量或对人有严重危害得食品添加剂，严重危害到人民的安全，我们以方便面为例，一包方便面…

Python 2023年8月15日
0061
pytest入门

安装 pip install pytest 基本用例 def add(x): return x+1 def test_x(): assert add(2) == 3 执行在命令行…

Python 2023年9月13日
0072
Electron学习（四）之应用程序打包

写在前面人真的是会变得越来越懒的，也正是人的惰性吧，真的是很讽刺。关于这个应用程序的开发，断更了很久，但是代码部分还算没落下吧，终于在周一、周二终把这个应用程序写完了。开发完…

Python 2023年10月23日
0056
Python自动化测试框架之Pytest相关用法-断言（4）

1、pytest断言assert （1）基本使用 assert断言的使用比较简单，只需assert + 逻辑判断语句即可 coding: utf-8 import pytest c…

Python 2023年9月13日
0048
flask框架—-介绍

目录 flask是什么常用的扩展包安装 pycharm配置虚拟环境 requirements文件第一个flask应用 request对象的属性和方法视图中的响应案例练习 …

Python 2023年8月10日
0078
Python读写excel文件

1 、使用 pandas 库读取 Excel —– 最常用 pandas 可以读取各种各样格式的数据文件，一般输出dataframe 格式。如：txt 、…

Python 2023年8月21日
0091
在Python中使用LSTM和PyTorch进行时间序列预测

顾名思义，时间序列数据是一种随时间变化的数据类型。例如，24小时内的温度，一个月内各种产品的价格，一年中特定公司的股票价格。去年，我们为一位客户进行了短暂的咨询工作，他正在构建一…

Python 2023年9月29日
0048
python报错ValueError: Must pass 2-d input. shape=(5, 1, 10)解决方案

1.承接上一篇博文，上文提到append（）函数中的参数ignore_index=True，如果加上该参数，是a.append（b，ignore_index=True)，数据不支持…

Python 2023年8月6日
0059
Python之Django 基本使用

1. 虚拟环境默认情况下使用 sudo pip install xxx 会将对应的模块安装到 Python安装目录下的Scripts中，此时如果在一台电脑上, 想开发多个不同的…

Python 2023年8月3日
0060
使用 Python 实现一个简单的智能聊天机器人

使用 Python 实现一个简单的智能聊天机器人文章目录 * – + 使用 Python 实现一个简单的智能聊天机器人 + * 简要说明 * 总体的思路 * 需要准备…

Python 2023年8月2日
00105
XCTF-攻防世界CTF平台-Web类——16、shrine（Flask框架之Jinja2模板渲染引擎、查看app.config[‘FLAG‘]）

目录标题 python模板注入代码分析：构造Python模板注入 url_for()函数查看flag get_flashed_messages()函数查看flag 打开题目地址…

Python 2023年8月11日
0075
BERTopic：NLP主题模型的未来！

文| ZenMoore编| 小轶以前我一直以为，主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具，现在肯定已经到头了，虽然…有时效果可能不是那么让人满…

Python 2023年9月15日
0034
Python图形绘制：如何用Matplotlib和pandas绘图？

用Matplotlib库绘图 Matplotlib是一个非常好用的高质量绘图工具库，可以根据输入的数据绘制各种图形，如折线图、柱状图、饼图、散点图等。 1．绘制折线图折线图是用直…

Python 2023年9月2日
0051
python将data文件转换为csv文件_Python将字典转换为dataframe并将其导出为csv文件

df = pd.read_csv(‘test.csv’) for i in range(len(df[‘name’])): name…

Python 2023年8月8日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析-数据预处理

处理重复值

duplicated( )查找重复值

drop_duplicates( )删除重复值

处理缺失值

isnull( )判断所有位置元素是否缺失

any( )判断行列元素是否缺失

del( )dropna( )删除

fillna( )缺失值填补

根据上（下）数据填充

数值型数据填充

字符型数据填充

数据变换

map( )数据转换

哑变量

大家都在看