Pandas数据载入与预处理

2023年8月19日上午1:08 • Python • 阅读 61

Pandas数据载入与预处理

一、数据载入

1 读取excel，文本文件，csv

import numpy as np
#&#x8BFB;&#x53D6;excel&#xFF0C;&#x9ED8;&#x8BA4;&#x8BFB;&#x53D6;&#x7B2C;&#x4E00;&#x4E2A;sheet
p = pd.read_excel('data//tips.xls')
#&#x5982;&#x679C;&#x60F3;&#x8BFB;&#x53D6;student&#x7684;sheet
p = pd.read_excel('data//tips.xls','student')
print(p.head())
#&#x8BFB;&#x53D6;txt&#x6587;&#x4EF6;
a = pd.read_table('data//a.txt')
print(a.head())
#&#x8BFB;&#x53D6;CSV&#x6587;&#x4EF6;
d = pd.read_csv('data//dots.csv')
print(d.head(3))

2、读取json，数据库

二、数据合并

1、merge数据合并

x = pd.DataFrame({'name':['A','B','C','D'],'age':[1,2,3,4]})
print(x)
y = pd.DataFrame({'name':['A','B','E'],'age':[1,5,6]})
print(y)
#&#x9ED8;&#x8BA4;&#x5408;&#x5E76;&#x7684;&#x53D6;&#x7684;&#x662F;&#x4E24;&#x4E2A;&#x6570;&#x636E;&#x7684;&#x4EA4;&#x96C6;
print(pd.merge(x,y))

输出结果：

1.1 内连接-inner

#&#x6309;name,&#x5C06; x,y&#x6709;&#x76F8;&#x540C;name&#x7684;&#x8FDB;&#x884C;&#x5408;&#x5E76;
print('outer:\n',pd.merge(x,y,how='inner',on='name'))

输出结果：

1.2 外连接–outer

#&#x5916;&#x8FDE;&#xFF1A;x,y&#x7684;&#x6240;&#x6709;name&#x7F57;&#x5217;&#x51FA;&#x6765;
print('outer:\n',pd.merge(x,y,how='outer',on='name'))

输出结果：

1.3 左连接-left

#&#x5916;&#x8FDE;&#xFF1A;x,y&#x7684;&#x6240;&#x6709;name&#x7F57;&#x5217;&#x51FA;&#x6765;
print('outer:\n',pd.merge(x,y,how='outer',on='name'))

输出结果：

1.4 右连接-right

print('right:\n',pd.merge(x,y,how='right',on='name'))

输出结果：

1.5 参数suffiexes作用：重复列名的修改

print(pd.merge(x,y,on='name',suffixes=('_left','_right')))

输出结果：

2、concat数据连接

默认情况下，会按行堆叠数据。

s1 = pd.Series([0,1],index=['a','b'])
s2 = pd.Series([2,3,4],index=['a','b','c'])
s3 = pd.Series([5,6],index=['f','g'])
print(pd.concat([s1,s2,s3]))

输出结果：

2.2 两个DataFrame的数据合并

data1 = pd.DataFrame(np.arange(6).reshape(2,3),columns=list('abc'))
print(data1)
data2 = pd.DataFrame(np.arange(20,26).reshape(2,3),columns=list('ayz'))
print(data2)
data = pd.concat([data1,data2],axis=0)
print(data)

输出结果：

2.3

s1 = pd.Series([0,1],index=['a','b'])
print(s1)
s2 = pd.Series([2,3,4],index=['a','d','e'])
#print(s2)
s3 = pd.Series([5,6],index=['f','g'])
#print(s3)
s4 = pd.concat([s1*5,s3],sort=False)
print(s4)
s5 = pd.concat([s1,s4],axis=1,sort=False)
print(s5)

输出结果：

axis=1，按列进行合并，axis=0 表示的按行进行合并

s6 = pd.concat([s1,s4],axis=1,join='inner',sort=False)
print(s6)

输出结果：

三、数据清洗

1、缺失值检测和统计

1.1检测缺失值-isnull()

string_data = pd.Series(['lu','li','zhang',np.nan,'wang'])
print(string_data)
#&#x6253;&#x5370;&#x662F;&#x5426;&#x4E3A;&#x7A7A;&#x503C;
print(string_data.isnull())
#&#x7F3A;&#x5931;&#x503C;&#x7684;&#x4E2A;&#x6570;
print('&#x7F3A;&#x5931;&#x503C;&#x7684;&#x4E2A;&#x6570;&#x4E3A;:\n'&#xFF0C;string_data.isnull().sum())

输出结果：

1.2 isnull.sum() 统计缺失值

df = pd.DataFrame(np.arange(12).reshape(3,4),columns=['A','B','C','D'])
#iloc &#x6309;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x9009;&#x62E9;&#xFF08;&#x7D22;&#x5F15;&#x4E3A;2&#x884C;&#x4EE5;&#x540E;&#x7684;&#x884C;&#xFF0C;&#x90FD;&#x4E3A;NAN&#xFF09;
df.iloc[2,:] = np.nan
print(df)
&#x7EDF;&#x8BA1;&#x6BCF;&#x4E00;&#x5217;&#x7684;&#x7A7A;&#x503C;&#x7684;&#x548C;
print(df.isnull().sum())

1.3、使用info可以查看缺失值

print(df.info()) #&#x67E5;&#x770B;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x60C5;&#x51B5;&#xFF0C;&#x6BCF;&#x4E00;&#x5217;&#xFF0C;&#x6709;&#x51E0;&#x4E2A;&#x4E0D;&#x662F;&#x7F3A;&#x5931;&#x503C;

输出结果：

2、缺失值的处理

删除缺失值 -dropna()

在缺失值的处理方法中，删除缺失值是常用的方法之一。通过dropna方法可以删除具有缺失值的行。

dropna方法的格式：

dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)

2.1 缺失值在Series的应用

from numpy import nan as NA
data = pd.Series([23,7,NA,3.5,NA])
print(data)
print(data.dropna())
not_null = data.notnull()#&#x5224;&#x65AD;&#x662F;&#x5426;&#x4E0D;&#x4E3A;&#x7A7A;
print(not_null)

2.2 缺失值在DataFrame中的应用：

dropna(）默认会删除任何含有缺失值的行

data = pd.DataFrame([[1,2,3,4],[5,NA,NA],[NA,NA,NA],[NA,6,7]])
print(data)
print('&#x5220;&#x9664;&#x7F3A;&#x5931;&#x503C;&#x540E;:\n',data.dropna())

2.3 dropna 参数how-any(只要含有任何一个 ) all(全部为缺失值时删除)

data = pd.DataFrame([[1,2,3,4],[5,NA,NA],[NA,NA,NA],[NA,6,7]])
print(data)
print('&#x5220;&#x9664;&#x5168;&#x90E8;&#x4E3A;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x884C;:\n',data.dropna(how='all'))

2.4 dropna参数axis=0（按行） axis=1 (按列) 默认按行

data = pd.DataFrame([[1,2,3,NA],[5,NA,NA],[NA,NA,NA],[NA,6,7]])
print(data)
print('&#x6309;&#x5217;&#x5220;&#x9664;&#x5168;&#x90E8;&#x4E3A;&#x7F3A;&#x5931;&#x503C;&#x540E;:\n',data.dropna(how='all',axis=1))

输出结果:

2.5 dropna中的thresh参数表示一行至少有N个非NaN才参存活

data = pd.DataFrame([[1,2,NA],[5,NA,NA],[NA,NA,NA],[NA,6,7]])
print(data)
#&#x8868;&#x793A;&#x4E00;&#x884C;&#x4E2D;&#x6709;&#x4E24;&#x4E2A;&#x4E0D;&#x662F;&#x7F3A;&#x5931;&#x503C;&#x53EF;&#x4EE5;&#x5B58;&#x6D3B;
f = data.dropna(thresh=2)
#&#x6309;&#x5217;&#x6765;&#x770B;&#xFF0C;&#x6709;&#x8D85;&#x8FC7;10%&#x7684;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x5217;&#x5220;&#x9664;
#f = data.dropna(thresh=len(data)*0.9,axis=1)
print(f)

输出结果：

3.填充缺失值–fillna

3.1 给定值填弃缺失值：df.fillna({1:0.88,2:0.99}

df = pd.DataFrame(np.random.randn(5,3))
print(df)
#&#x7D22;&#x5F15;&#x884C;0-3&#xFF0C;&#x7D22;&#x5F15;&#x5217;1 &#x8BBE;&#x4E3A; NaN
df.loc[:3,1]=NA
#&#x7D22;&#x5F15;&#x884C;0-2&#xFF0C;&#x7D22;&#x5F15;&#x5217;2 &#x8BBE;&#x4E3A; NaN
df.loc[:2,2]=NA
#&#x5C06;&#x7D22;&#x5F15;&#x5217;1&#x7684;NaN&#x586B;&#x5145;&#x4E3A;0.88&#xFF0C;&#x7D22;&#x5F15;&#x5217;2&#x7684;NaN&#x586B;&#x5145;&#x4E3A;0.99&#xFF0C;inplace=True&#x8868;&#x793A;&#x6539;&#x53D8;&#x539F;&#x6570;&#x636E;
df.fillna({1:0.88,2:0.99},inplace=True)
print(df)

输出结果：

3.2 fillna中的method中的应用

注method=’ffill’ 向下填充

df = pd.DataFrame(np.random.randn(6,3))
#&#x7D22;&#x5F15;&#x4E3A;2&#x884C;&#x5230;&#x6700;&#x540E;&#xFF0C;&#x7D22;&#x5F15;&#x4E3A;1&#x7684;&#x5217;
df.iloc[2:,1] = NA
#&#x7D22;&#x5F15;&#x4E3A;4&#x884C;&#x5230;&#x6700;&#x540E;&#xFF0C;&#x7D22;&#x5F15;&#x4E3A;2&#x7684;&#x5217;
df.iloc[4:,2] = NA
print(df)
df.fillna(method='ffill',inplace=True)
print(df)

输出结果：

3.3 用Series的均值-mean()填充

data = pd.Series([1.,NA,3.5,NA,7])
print(data)
#&#x4F7F;&#x7528;&#x5747;&#x503C;&#x586B;&#x5145;
print(data.fillna(data.mean()))

输出结果：

4、检测与处理重复值

4.1 检测重复值—duplicates()

在DataFrame中利用duplicates方法判断每一行是否与之前的行重复。duplicates方法返回一个布尔值

data = pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,1,4,4],'k3':[1,1,5,2,1,4,4]})
print(data)
#&#x5224;&#x65AD;&#x662F;&#x5426;&#x548C;&#x4E4B;&#x524D;&#x7684;&#x884C;&#x91CD;&#x590D;
print(data.duplicated())

输出结果：

4.2 删除重复的行— drop_duplicates()

data = pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,1,4,4],'k3':[1,1,5,2,1,4,4]})
print(data)
//&#x5220;&#x9664;&#x91CD;&#x590D;&#x8BB0;&#x5F55;&#xFF0C;&#x9ED8;&#x8BA4;&#x4FDD;&#x7559;&#x7B2C;&#x4E00;&#x4E2A;
b = data.drop_duplicates()
print(b)

指定列名看是否重复

data = pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,1,4,4],'k3':[1,1,5,2,1,4,4]})
print(data)
#&#x6307;&#x5B9A;&#x90E8;&#x5206;&#x5217;&#x91CD;&#x590D;&#x53BB;&#x91CD;,&#x53EA;&#x770B;k2,k3&#x5217;,&#x6709;&#x91CD;&#x590D;&#x7684;&#x5220;&#x9664;
b = data.drop_duplicates(['k2','k3'])
print(b)

默认保留的数据为第一个出现的记录，通过keep=’last’ 可以保留最后一个出现的记录

data = pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,1,4,4],'k3':[1,1,5,2,1,4,4]})
print(data)
#&#x4FDD;&#x7559;&#x6700;&#x665A;&#x51FA;&#x73B0;&#x7684;&#x91CD;&#x590D;&#x503C;
b = data.drop_duplicates(['k2','k3'],keep='last')
print(b)

5、数据转换

5.1 替换

replace(要替换的值, 替换为的值）

data = {'&#x59D3;&#x540D;':['&#x5C0F;&#x7EA2;','&#x5C0F;&#x660E;','&#x5C0F;&#x4E3D;','&#x5C0F;&#x5F20;'],'&#x6027;&#x522B;':['0','1','0','1'],'&#x7C4D;&#x8D2F;':['&#x5317;&#x4EAC;','&#x4E0A;&#x6D77;','','&#x77F3;&#x5BB6;&#x5E84;']}
df = pd.DataFrame(data)
f=df.replace('','&#x4E0D;&#x8BE6;')
print(f)

传入列表实现多个值同时替换，第一个参数是要替换的值，第二个参数是替换为的值

data = {'&#x59D3;&#x540D;':['&#x5C0F;&#x7EA2;','&#x5C0F;&#x660E;','&#x5C0F;&#x4E3D;','&#x5C0F;&#x5F20;'],'&#x6027;&#x522B;':['0','1','0','1'],'&#x7C4D;&#x8D2F;':['&#x5317;&#x4EAC;','&#x4E0A;&#x6D77;','','&#x77F3;&#x5BB6;&#x5E84;']}
df = pd.DataFrame(data)
f=df.replace('','&#x4E0D;&#x8BE6;')
print(f)
#&#x5C06;'&#x4E0D;&#x8BE6;'&#x66FF;&#x6362;&#x4E3A;'&#x77F3;&#x5BB6;&#x5E84;',&#x5C06;'&#x4E0A;&#x6D77;'&#x66FF;&#x6362;&#x4E3A;'&#x5E7F;&#x5DDE;'
fs = f.replace(['&#x4E0D;&#x8BE6;','&#x4E0A;&#x6D77;'],['&#x77F3;&#x5BB6;&#x5E84;','&#x5E7F;&#x5DDE;'])
print(fs)

传入字典实现多值替换

data = {'&#x59D3;&#x540D;':['&#x5C0F;&#x7EA2;','&#x5C0F;&#x660E;','&#x5C0F;&#x4E3D;','&#x5C0F;&#x5F20;'],'&#x6027;&#x522B;':['0','1','0','1'],'&#x7C4D;&#x8D2F;':['&#x5317;&#x4EAC;','&#x4E0A;&#x6D77;','','&#x77F3;&#x5BB6;&#x5E84;']}
df = pd.DataFrame(data)
f=df.replace('','&#x4E0D;&#x8BE6;')
print(f)
fs = f.replace({'1':'&#x7537;','0':'&#x5973;'})
print(fs)

使用map方法映射数据

data = {'&#x59D3;&#x540D;':['&#x5C0F;&#x7EA2;','&#x5C0F;&#x660E;','&#x5C0F;&#x4E3D;','&#x5C0F;&#x5F20;'],'&#x6027;&#x522B;':['0','1','0','1'],'&#x7C4D;&#x8D2F;':['&#x5317;&#x4EAC;','&#x4E0A;&#x6D77;','&#x6B66;&#x6C49;','&#x77F3;&#x5BB6;&#x5E84;']}
df = pd.DataFrame(data)
df['&#x6210;&#x7EE9;']=[89,68,50,92]
print(df)
def grade(x):
    if x>=90:
        return '&#x4F18;'
    elif 70<=x<90: return '良' elif 60<="x<70:" '中' else: '差' df['等级']="df['&#x6210;&#x7EE9;'].map(grade)" print(df)< code></=x<90:>

6、数据的标准化

6.1 离差标准化数据

def MinMaxScale(data):
    data = (data-data.min())/(data.max()-data.min())
    return data
x = np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
print('&#x539F;&#x59CB;&#x6570;&#x636E;&#x4E3A;:\n',x)
x_sc=MinMaxScale(x)
print('&#x6807;&#x51C6;&#x5316;&#x540E;&#x77E9;&#x9635;&#x4E3A;:\n',x_sc)

6.2 标准差标准化数据

def StandardScale(data):
    data = (data-data.mean())/data.std()
    return data
x = np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
print('&#x539F;&#x59CB;&#x6570;&#x636E;&#x4E3A;:\n',x)
x_sc = StandardScale(x)
print('&#x6807;&#x51C6;&#x5316;&#x540E;&#x77E9;&#x9635;&#x4E3A;:\n',x_sc)

输出结果：

6.3 数据转化

类别型数据的哑变量处理

df = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'],
            ['red', 'L', 13.5, 'class2'],
            ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'prize','class label']
print(df)
#&#x54D1;&#x53D8;&#x91CF;&#x5904;&#x7406;
print(pd.get_dummies(df))

输出结果：

6.4 连续型变量的离散化

等宽法：cut

df = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'],
            ['red', 'L', 13.5, 'class2'],
            ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'prize','class label']
print(df)
#&#x54D1;&#x53D8;&#x91CF;&#x5904;&#x7406;
print(pd.get_dummies(df))

本章实训

使用文件： tips_mod.xls

1、导入模块

import pandas as pd import numpy as np

2、获取模块

data = pd.read_excel('data//tips_mod.xls')
print(data.head())

3、分析数据

data = pd.read_excel('data//tips_mod.xls')
print(data.shape)
print(data.describe())

4、显示聚餐时间段

print(data['&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;'].unique())

5、修改拼写错误的字段值

data.loc[data['&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;']=='Dier','&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;']='Dinner'
data.loc[data['&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;']=='Diner','&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;']='Dinner'
print(data['&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;'].unique())

6、检测数据中的缺失值

print(data.isnull().sum())

输出结果：

7、删除一行内有两个缺失值的数据

data.dropna(thresh=6,inplace=True)#&#x56E0;&#x4E3A;&#x4E00;&#x5171;&#x662F;8&#x5217;&#xFF0C;&#x6709;6&#x5217;&#x4E0D;&#x7F3A;&#x5931;&#xFF0C; &#x8868;&#x793A;&#x6709;&#x4E24;&#x5217;&#x7F3A;&#x5931;
print(data.isnull().sum())

8、删除性别或时间段为空行

data.dropna(subset=['&#x6027;&#x522B;','&#x805A;&#x9910;&#x65F6;&#x95F4;&#x6BB5;'],inplace=True)
print(data.isnull().sum())

9、对剩余的空缺的数据用平均值替换

data.fillna(data.mean(),inplace=True)
print(data.isnull().sum())

Original: https://blog.csdn.net/luyufen_luise/article/details/126213875
Author: 华为大数据
Title: Pandas数据载入与预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753532/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一维时序数据_时序分析汽车销量预测

0x00 前言新能源慢慢进入我们的生活，现在大街上随处可见新能源车，2019年特斯拉国产化了，进入2020年，特斯拉已经交付了第一批国产化的新能源车，同时价格已经压到29.9W元…

Python 2023年8月8日
0048
MyBatis详解（二）

MyBatis执行Sql的流程分析【1】基于前面已经将XML文件进行build解析了并且返回了SqlSessionFactory 【1.1】那么分析SqlSessionFacto…

Python 2023年10月13日
0028
FAQ Selenium中提示can not connect to the service chromedriver 的解决方法

一个同学反馈运行如下代码 from selenium import webdriver from time import sleep driver = webdriver….

Python 2023年6月12日
0048
箱图在数据预处理中的应用

箱图简介框图是一种统计图表，用于显示一组数据的分布，因其形状像盒子而得名。 [En] A box chart is a statistical chart used to sho…

Python 2023年5月24日
0085
2022版的IDEA创建一个maven项目（超详细）

一.设置idea中指定的maven的位置以及本地存储仓库开发中一般我们使用自己下载的maven，不使用IDEA工具自带的，这就需要将我们下载的maven配置到IDEA工具中，配置…

Python 2023年9月26日
0047
Django个人博客开发练手demo笔记

目录序言一、环境搭建、项目结构二、设计阶段三、创建数据库模型四、使用后台管理系统五、创建视图类六、网站成型七、问题修复八、完整项目效果九、其他序言 Djang…

Python 2023年8月5日
0065
Python openpyxl模块简单介绍

文章目录 * – + openpyxl + 创建文件 + * Workbook() —创建 excel 文件 * Workbook.create_sheet…

Python 2023年8月1日
0043
numpy.ndarray基本语法

[### 回答1： “numpy. ndarray object is not callable” 的意思是” numpy. ndarray_对…

Python 2023年8月27日
0037
idea怎么使用jacoco生成报告_使用scoop安装allure2，以及pytest生成报告

安装scoop 环境要求 Windows 7 SP1 + / Windows Server 2008+ PowerShell 5 4(或更高版本，包括PowerShell Core…

Python 2023年9月14日
0025
selenium打开新标签页而非新窗口

需求：用firefox浏览器打开新页面时，习惯点击浏览器顶部的加号打开新标签页，而非打开新窗口。多次测试，python通过selenium 模块打开的都是新窗口，不满足习惯，那么…

Python 2023年11月3日
0035
python 【实例100】

文章目录前言 * 1. 两数之和：输入两个数字，打印数字之和 2. 数字的阶乘：6的阶乘：654321 ；3的阶乘：32*1 3. 计算圆的面积：输入圆的面积，返回圆的面积 4…

Python 2023年8月24日
0041
【教程】Python科研数据可视化、MATLAB科研数据可视化

在过去的20年中，随着社会产生数据的大量增加，对数据的理解、解释与决策的需求也随之增加。而固定不变是人类本身，所以我们的大脑必须学会理解这些日益增加的数据信息。所谓”一…

Python 2023年9月2日
0058
基于改进粒子群的柔性作业车间调度问题优化研究（Python代码实现）

💥💥💞💞 欢迎来到本博客❤️❤️💥💥 🏆博主优势： 🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️ 座右铭：行百里者，半于九十。目录💥1 概述📚2 运行结果🎉3 …

Python 2023年8月23日
0057
mac conda安装

目录安装把anaconda的路径配置到系统环境变量中默认base环境新建虚拟环境对虚拟环境中安装额外的包配置国内镜像源清华源：中科大源: 与他人分享虚拟环境的配置 …

Python 2023年9月8日
0040
【自学前端】我只学这些够吗？好难

表弟也终于到了马上要大学毕业的时间，然后听说我在做前端开发工作，就想着能不能和我一起搞一搞。我说这又不是小时候一起去地里抓兔子，说走就一起走，拿上工具一起走了，这得学啊。看着表弟期…

Python 2023年10月11日
0027
python爬取YouTube视频

最近，我喜欢看视频，所以我四处游荡，终于来到了世界上最大的视频平台。 [En] Recently, I like to watch videos, so I wander arou…

Python 2023年5月24日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas数据载入与预处理

本章实训

大家都在看