pandas数据处理大全（必备）

2023年8月7日下午7:21 • Python • 阅读 66

文章目录

目录
*
pandas读取文件
pandas存储文件
pandas处理空值和缺失值
pandas创建空dataframe
dataframe索引值的修改
dataframe选择行与列
dataframe转置
dataframe添加数据
dataframe修改数据
dataframe删除数据
dataframe计算
dataframe排序
dataframe删除重复的行数据
dataframe合并
dataframe按照关键字分类
dataframe透视表
dataframe替换，更改列的数据类型

pandas读取文件

import pandas as pd

'''读取txt文件为dataframe'''
df1 = pd.read_csv("./read.txt")

'''读取csv文件为dataframe'''
df2 = pd.read_csv('./read.csv')

df3 = pd.read_csv('./read.csv',header=None)
df3.columns=['列1','列2','列3','列4']

df4=pd.read_csv('read.csv',usecols=[0,1,2,3])

'''读取excel文件为dataframe'''
df5=pd.read_excel('read.xlsx')

df6=pd.read_excel('read.xlsx',sheet_name='sheet1')

df7=pd.read_excel('read.xlsx',sheet_name=[0,1])
data1=df7.values

df8=pd.read_excel('read.xlsx')
data2=df8.ix[0].values
data3=df8.ix[[1,2]].values

df9=pd.read_excel('read.xlsx')
data4=df9['data'].values

df10=pd.read_excel('read.xlsx')
data5=df9.ix[1,2]
data6=df10.ix[[1,2],['列1','列2']].values

df11=pd.read_excel('read.xlsx')
data7=df11.ix[:,['列1','列2']].values

df12=pd.read_excel('read.xlsx')
print("输出行号列表：\n",df12.index.values)

df13=pd.read_excel('read.xlsx')
print("输出列标题：\n",df13.columns.values)

df14=pd.read_excel('read.xlsx')
print("三行：\n",df14.sample(3).values)

df15=pd.read_excel('read.xlsx')
data15=[]
for i in df15.index.values:

    row_data=df15.ix[i,['列1','列2','列3','列4']].to_dict()
    data15.append(row_data)
print("最终获取到的数据是：\n",data15)

pandas存储文件

import pandas as pd
import os

file_path='./save.excel'

if os.path.exists(file_path):
    os.remove(file_path)

'''写入txt文件, header=0不保存列名,index=0不保存行名'''
pd_data = pd.DataFrame(dataframe_data,columns=('列名1','列名2','列名3'))
pd_data.to_csv('./save.txt')

'''写入csv文件, header=0不保存列名,index=0不保存行名'''
pd_data = pd.DataFrame(dataframe_data,columns=('列名1','列名2','列名3'))
pd_data.to_csv('./save.csv',header=0,index=0)

'''写入excel文件, header=0不保存列名,index=0不保存行名'''
pd_data = pd.DataFrame(dataframe_data,columns=('列名1','列名2','列名3'))
pd_data.to_excel(file_path,sheet_name='sheet_1')

pd_data1 = pd.DataFrame(dataframe_data1,columns=('列名1','列名2','列名3'))
pd_data2 = pd.DataFrame(dataframe_data2,columns=('列名1','列名2'))
writer = pd.ExcelWriter(file_path)
pd_data1.to_excel(excel_writer=writer, sheet_name='sheet_1',startcol=1,startrow=1)
pd_data2.to_excel(excel_writer=writer, sheet_name='sheet_2',startcol=1,startrow=1)
writer.save()
writer.close()

pandas处理空值和缺失值

import pandas as pd
import numpy as np
df = pd.DataFrame({"name1": ['AAAAAA', None, 'CCCCCCC'],
                   "name2": [np.nan, '', 'DDDDDDD'],
                   "name3": [pd.NaT, pd.Timestamp("1999-01-01"),pd.NaT]})

df1=df[(df['name1'].notna()) & (df['name1']!='')]

df2=df.dropna()

df3=df.dropna(axis=1)

df4=df.dropna(how='all')

df5=df.dropna(thresh=3)

df6=df.dropna(subset=['列1', '列2'])

df7=df.fillna(axis=1,method='ffill')

df8=df.fillna(axis=0,method='ffill')

df9=df.fillna(999)

df10=df.fillna(value={'列1':1,'列2':2,'列3':3})

df11=df.isna()
df12=df.isnull()

pandas创建空dataframe

result =pd.DataFrame(columns=('列名1','列名1','列名3'))

dataframe索引值的修改

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(12).reshape((3,4)),index = ['one', 'two', 'three'],columns=('列名1','列名2','列名3','列名4'))

df=df.reindex(index=['a','b','c'],columns=['a','b','c','d'])

dataframe选择行与列

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(12).reshape((3,4)),index = ['one', 'two', 'three'],columns=('列名1','列名2','列名3','列名4'))

print("列名1 列为：\n",df["列名1"])
print("列名1=0.5 列为：\n",df.loc[df['列名1'] == 0.5])

print("one 行为：\n",df.loc['one'])
print("列名1=0.5 列为：\n",df.loc[df['列名1'].isin(['one', 'two'])])

print("列名1,列名2 列为：\n",df[["列名1","列名2"]])

print("one,two 行为：\n",df.loc[['one','two']])

print("根据索引值为：\n",df.iloc[[0,1]])

print("布尔型索引为：\n",df[df>0.5])
print("布尔型索引为：\n",df[df != 0.5])
print("布尔型索引为：\n",df[df[["列名1", "列名2"]] > 0.5])
print("布尔型索引为：\n",df.loc[df['列名1'] != 0.5])
print("布尔型索引为：\n",df[(df['列名1']==0.5)& (df['列名2']==0.4)])

dataframe转置

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(25).reshape((5,5)))
print(df)

print(df.T)

dataframe添加数据

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(25).reshape((5,5)))

df['f'] = 10

df.loc[5]=5

dataframe修改数据

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(25).reshape((5,5)),columns=['q','w','e','r','t'])

df['q'] = 0

df.loc[5]=5

df[['q','w']] = 1

df.loc[[0,1]] = 2

dataframe删除数据

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(25).reshape((5,5)),columns=['q','w','e','r','t'])

del df['q']

df.drop('w', axis=1,inplace=True)

df.drop(0,inplace=True)

dataframe计算

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.rand(25).reshape((5,5)),columns=['q','w','e','r','t'])
df2 = pd.DataFrame(np.random.rand(9).reshape((3,3)),columns=['q','w','e'])

print("和为：\n",df1+df2)
print("差为：\n",df1-df2)
print("乘为：\n",df1*df2)
print("商为：\n",df1/df2)

dataframe排序

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(25).reshape((5,5)),columns=['q','w','e','r','t'])

df.sort_values('q', ascending=False,inplace=True)

df.sort_values(['q','w'], ascending=False,inplace=True)
print(df)

df.sort_values(2, axis=1, ascending=False,inplace=True)
print(df)

df.sort_index(ascending=False,inplace=True)
print(df)

df.sort_index(axis=1,ascending=False,inplace=True)
print(df)

dataframe删除重复的行数据

import pandas as pd
import numpy as np
df= pd.DataFrame(np.random.rand(25).reshape((5,5)),columns=['q','w','e','r','t'])

df.drop_duplicates()

df.drop_duplicates(['q','w'])

dataframe合并

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.rand(25).reshape((5,5)),index = ['one', 'two', 'three','four','five'],columns=('列名1','列名2','列名3','列名4','列名5'))
df2 = pd.DataFrame(np.random.rand(16).reshape((4,4)),index = ['one', 'two', 'three','four'],columns=('列名1','列名2','列名3','列名4'))
df3 = pd.DataFrame(np.random.rand(9).reshape((3,3)),index = ['one', 'two', 'three'],columns=('列名1','列名2','列名3'))

res1 = pd.concat([df1, df2], axis=0, ignore_index=True,join='outer')

res2 = pd.concat([df1, df2], axis=1, ignore_index=True,join='outer')

res3 = pd.concat([df1, df2], axis=0,join='inner')

res4 = pd.concat([df1, df2], axis=1,join='inner')

res5 = df1.append(df2, ignore_index=True)

res6 = df1.append([df2, df3], ignore_index=True)

dataframe按照关键字分类

import pandas as pd
import numpy as np
df = pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

res1=df.groupby('key1').mean()
res2=df.groupby('key1').apply(np.mean)
group=df.groupby('key1')
res3=group['data1'].agg('mean')

res4=df.groupby(['key1','key2']).mean()

dataframe透视表

import pandas as pd
import numpy as np
df = pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

res1=pd.pivot_table(df, index='key1', columns='key2')
res2=df.pivot_table(['data1'], index='key1',columns='key2')

dataframe替换，更改列的数据类型

import pandas as pd
import numpy as np
df = pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

df1 = df['data1'].replace(0.5, 0)
df2 = df['data1'].replace([0.1,0.2,0.3,0.4,0.5], 0)

if df['实发工资']>0.5:
    df['实发工资']=df['应发工资']+20000

df=pd.DataFrame(df,dtype='float')

Original: https://blog.csdn.net/sinat_39616953/article/details/120058558
Author: 鼠小米
Title: pandas数据处理大全（必备）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740726/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

12┃音视频直播系统之 WebRTC 实现1对1直播系统实战

一、搭建 Web 服务器前面我们已经实现过，但是没有详细说HTTPS服务首先需要引入了 express 库，它的功能非常强大，用它来实现 Web 服务器非常方便同时还需要引入…

Python 2023年6月10日
0098
AIR32F103(六) ADC,I2S,DMA和ADPCM实现的录音播放功能

使用AIR32的ADC, I2S 和 DMA 实现简单的语音录音和播放功能, 以及使用 ADPCM 编码提升录音时长. 使用的MCU型号为 AIR32F103CCT6. 如果用CB…

Python 2023年10月14日
0077
python——利用pandas分析学生期末成绩

1.从excel文件中读出本班同学的成绩册，并处理好缺失值。2.根据’加分’和’减分’两列统计出平时成绩。3.将实验报告成绩从ABC…

Python 2023年8月7日
0066
行百里者半九十——scrapy 框架（1）

scrapy 框架初识 * – 安装 – 认识 – 简单的代码实现安装如果没记错，python 3.6 及以上版本可以直接用 pip ins…

Python 2023年10月6日
0050
在一维的世界里寻找迭代次数的影子

( A, B )—1302—( 1, 0 )( 0, 1 ) 让网络的输入只有1个节点，AB各由3张二值化的图片组成，排列组合A和B的所有可能性，固定收敛误…

Python 2023年10月7日
0051
进程

1 什么是进程进程是系统中资源分配和调度的基本单位，进程表示程序正在执行的进程是‘活的’，程序是躺在硬盘上的代码，是‘死的’。 [En] The process is the b…

Python 2023年5月23日
0071
pytest入门看着一篇就够了

直接执行如下命令即可安装 pytest pip install pytest 用例收集顺序： unittest：TestLoader+Testsuit 使用discover收集用…

Python 2023年9月14日
0038
用Python中的Numpy实现简单高效的扑克牌API（附代码）

用Python中的Numpy实现简单高效的扑克牌API 扑克牌可以用字典或者列表来表示，但是这样的话会浪费很多的空间。因此，本项目将使用 Numpy来实现，这样的话能保证性能的情况…

Python 2023年8月25日
0059
【Python爬虫 • selenium】selenium4新版本使用指南

提示：本文默认你已经学会使用selenium的旧版本，因此对一些可以直接搜索到很多的内容，你应该是已经学会的文章目录前言一、设置驱动 * 1. selenium4推荐方法 2…

Python 2023年7月31日
0073
Pytest（9）skip跳过用例

pytest.mark.skip可以标记无法在某些平台上运行的测试功能，或者您希望失败的测试功能你可以对那些在某些特定平台上不能运行的测试用例或者你预期会失败的测试用例做一个标记…

Python 2023年9月14日
0041
Linux的前世今生

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月28日
0058
python外星人入侵小项目（六）

python外星人入侵小项目（一）python外星人入侵小项目（二）python外星人入侵小项目（三）python外星人入侵小项目（四）python外星人入侵小项目（五）创建第一…

Python 2023年9月25日
0069
小程序canvas 缩放/拖动/还原/封装和实例–开箱即用

小程序canvas 缩放/拖动/还原/封装和实例一、预览二、使用 * 2.1 创建和配置方法三、源码 * 3.1 实例组件 3.2 核心类 3.2 工具类一、预览之前写…

Python 2023年10月7日
0068
pytest 参数化，小技巧

本文总结pytest的测试用例参数化。软件测试中，输入相应值，检查期望值，是常见测试方法。在自动化测试中，一个测试用例对应一个测试点，通常一组测试数据无法完全覆盖测试范围，所以，…

Python 2023年9月14日
0041
fft与psd的关系【傅里叶变化求功率谱】

2022-8-30到9-02学习笔记 1、查找python函数源码方法函数名. file,返回函数在包中的位置，然后可以一级一级的追踪；例子： import matplotlib…

Python 2023年8月26日
0065
【Python 实战基础】Pandas如何从字符串中解析某一数据，并统计多于一次的该数据

一、实战场景二、主要知识点文件读写基础语法 Pandas list 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景：Pandas如何从字符串中解析某一数据…

Python 2023年8月22日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas数据处理大全（必备）

文章目录

pandas读取文件

pandas存储文件

pandas处理空值和缺失值

pandas创建空dataframe

dataframe索引值的修改

dataframe选择行与列

dataframe转置

dataframe添加数据

dataframe修改数据

dataframe删除数据

dataframe计算

dataframe排序

dataframe删除重复的行数据

dataframe合并

dataframe按照关键字分类

dataframe透视表

dataframe替换，更改列的数据类型

大家都在看