python:pandas中dataframe的基本用法汇总

out:

out:

excel一个表格中可能有多个sheet,sheetname可以进行选取

describe会显示dataframe的一些基本统计数据,数量、均值、中位数、标准差等

head会显示dataframe的前几行,后几行:

单独计算某列的统计值

查看dataframe的数据类型:

查看dataframe的数据数目:

查看dataframe的形状:

返回列数:

查看横纵坐标的标签名:

iloc索引或切片(iloc中只能取整数值):

loc索引或切片(loc中可以取str):

筛选出dataframe中有某一个或某几个字符串的列:

筛选出dataframe中不含某一个或某几个字符串的列,相当于反选

缺失值可以删除也可以用均值或者0等数填充:

删除缺失值时可以指定列:

去重需要在subset指定哪一列的值进行筛选,如果不选择的话默认整行的值全部一样才去掉

first表示保留第一个出现的值所在行,last表示保留最后一个出现的重复值所在的行,false表示重复的行全部删除

去除有NaN值的行或列(axis=0去除行,=1去除列):

去除某一列:

去除含有某一个数的行:

修改数据类型

修改列名(需要写上所有列名,包括需要修改的和不需要修改的):

修改列名(只需写上需要修改的列)

重排序(by可以取多个列名,默认升序):

修改数据

用已有的列进行运算创建新的列

当删除掉不需要的行时,行索引会变的不连续,这时候可以重新设计新的索引

设置时间序列为索引

axis表示连接的方向,

axis=0表示两个dataframe的行数会增加,如果列名相同则直接共用列,如果列名不同会生成新的列;

axis=1,表示会加上新的列

在dataframe添加新的行

如果两个dataframe的列名是一样的,也可以用merge:

输出为excel或者csv格式,csv文件里的数据被读取时数据类型默认为object,excel则会保留原有的数据类型

输出为numpy的矩阵格式

输出为dict格式

参考:https://www.cnblogs.com/timotong/p/9678490.html

Original: https://www.cnblogs.com/Vincent-yuan/p/16217380.html
Author: Vincent-yuan
Title: python:pandas中dataframe的基本用法汇总

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/9198/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部