Python Pandas操作

2023年8月21日上午11:09 • Python • 阅读 39

文章目录

*
– 一、索引操作
– 二、四则运算
– 三、Pandas画图
– 四、文件读取与存储
– 五、缺失值处理
– 六、去重
– 七、数据离散化
– 八、数据合并
– 九、交叉表与透视表
– 十、分组聚合
– 十一、写入Excel不同Sheet页

一、索引操作

针对DataFrame的索引，有三种检索方式：

直接使用索引值；
loc：先行后列，索引值
iloc：先行后列，索引值的下标

首先创建一个DataFrame

df = pd.DataFrame({
    "class":[1,2,3],
    "name":['john','mary','sam'],
    'age':[18,19,20]
},index=['class1','class2','class3'])

df['class']['class1']
df.loc['class1':'class2','name']
df.iloc[:2,:]

二、四则运算

算术运算
某列值加10

data['close'].add(10).head()

逻辑运算
\>、\<、|、&< code>

data['open'] > 20
data[data['open'] > 20]

data[(data['open'] > 20) & (data['open'] < 24)]

逻辑运算函数

data.query('open20').head()

data['open'].isin([23.53,23.85])
data[data['open'].isin([23.53,23.85])]

统计运算

data.sum()
data.median()
data.mean()
data.mode()
data.idxmax()
data.idxmin()

累计统计函数

cumsum -->&#x8BA1;&#x7B97;&#x524D;1/2/3/.../n&#x4E2A;&#x6570;&#x7684;&#x548C;
cumprod -->&#x8BA1;&#x7B97;&#x524D;1/2/3/.../n&#x4E2A;&#x6570;&#x7684;&#x79EF;
cummax -->&#x8BA1;&#x7B97;&#x524D;1/2/3/.../n&#x4E2A;&#x6570;&#x7684;&#x6700;&#x5927;&#x503C;
cummin -->&#x8BA1;&#x7B97;&#x524D;1/2/3/.../n&#x4E2A;&#x6570;&#x7684;&#x6700;&#x5C0F;&#x503C;

stock_rise = data['p_change']

stock_rise = stock_rise.cumsum()

stock_rise.plot()
plt.show()

自定义运算
apply + lambda

data[['open','close']].apply(lambda x:x.max()-x.min(),axis = 1)

三、Pandas画图

kind：指定图类型
DataFrame.plot(x=None,y=None,kind='line')

line
bar
barh
hist
pie
scatter

四、文件读取与存储

csv
读取

DataFrame.read_csv(path=None,seq=',',usecols=)

seq：指定分隔符，默认’,’；
usecols：指定读取的列名，列表形式
例如：

pd.read_csv('./stock_day.csv',usecols=['open','high'])

写入


data2[:10].to_csv('./test.csv',columns=['open'],index=False)

HDF5
有限选择使用HDF5文件存储：

HDF5在存储时支持压缩，使用的方式是blosc，这个是速度最快也是pandas默认支持的;
使用压缩可以提高磁盘的利用率，节省空间；
HDF5还是跨平台的，可以轻松迁移到hadoop上使用；

读取

pandas.read_hdf(path_or_buff,key=None,**kwargs)

key：读取的键
写入
保存的文件是 xxx.h5格式

to_hdf(path,key)

JSON
读取

pd.read_json()

写入

&#x5BF9;&#x8C61;.to_json()

在进行写入和读取时，需要注意的参数：
orient：按照指定方式进行读写
lines：是否按照行读取和写入，一般为True。

五、缺失值处理

判断是否有缺失值


np.any(df.isnull())

np.all(df.notnull())

删除缺失值：dropna()

df.dropna()

替换缺失值：fillna(value,inplace=True)
inplace：是否在原数据(DataFrame)上替换。
1.缺失值为空值的：None


df["Revenue (Millions)"].fillna(value=movie["Revenue"].mean(),inplace=True)

针对数据量过多，无法判断缺失值在哪一列时：


for i in movie.columns:
    if np.any(movie[i].isnull()) == True:

    movie[i].fillna(value =movie[i].mean(),inplace=True)

2.缺失值是其他符号
把符号替换为None后处理

df= df.replace(to_replace="?",value=np.NaN)

六、去重

df["Director"].unique()
df["Director"].drop_duplicates()

七、数据离散化

含义：根据数据的属性，把其划分为不同的离散区间，用符号或者整数代表每个区间的属性。
例如：

转换为：

这里以股票涨跌幅为例：
Python Pandas操作

pd.qcut(data,q)：
a.对数据进行分组将数组分组，一般会与value_counts搭配使用，统计每组的个数；
b.q：大致分为多少组
c.series.value_counts():统计分组次数

自动分组：


data_p = data["p_change"]
qcut_r = pd.qcut(data_p,10)

qcut_r.value_counts()

自定义分组：


bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]

cut_r = pd.cut(data_p,bins=bins)

cut_r.value_counts()

股票涨跌幅分组数据变成one-hot编码
把每个类别生成一个布尔列，这些列中只有一列可以为这个样本取值为1，所以又称为热编码。
pd.get_dummies(data,prefix=None)
prefix:给各列标题附加一个前缀，用’_’拼接。

pd.get_dummies(cut_r,prefix="change")

八、数据合并

pandas.concat([data1,data2],axis=1)

axis=1:列合并 –>类似于SQL中的 join
axis=0:行合并 –>类似于SQL中的 union() (默认)

pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None)

how:连接方式：left,right,inner(默认),outer。
对应SQL中的join方式：
left –> left join
right –> right join
inner –> join
outer –> full join

九、交叉表与透视表

pd.crosstab()–>返回具体数量
对象.pivot_table()–>返回占比情况


time = pd.to_datetime(data.index)

data['week'] = time.weekday

data['p_n'] = np.where(data['p_change']>0,1,0)

count = pd.crosstab(data['week'],data['p_n'])

sum = count.sum(axis=1)

per = count.div(sum,axis=0)

per.plot(kind="bar",stacked=True)

data.pivot_table(['p_n'],index='week')

十、分组聚合

DataFrame.groupby(key,as_index=False)

col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})


col.groupby(['color'])["price1"].mean()

col['price1'].groupby(col['color']).mean()

col.groupby(['color'],as_index = False)["price1"].mean()

col.groupby(['color','object']).count()

需要注意的是，如果只是简单的进行分组，即 col.groupby(['color'])["price1"]或者 col.groupby(['color'])输出的是地址值，没有具体的数据，需要进行基本运算后(mean/count/sum等)，才可以得出结果。
除此之外，如果我们想查看每个分组后的结果，我们可以遍历获取值，例如：

for i,j in col.groupby(['color']):
    print('分组名称:',i)
    print('分组结果:',j)

得到的结果:

十一、写入Excel不同Sheet页

一般的写入方式相信大家都已经基本掌握，这里介绍如何同时写入Excel文件中不同sheet页中的方式。
我们主要是通过 pandas.ExcelWriter来保存我们需要写入的文件地址。


file_path = 'D:/Test/test.xlsx'

writePath = pd.ExcelWriter(file_path,engine='xlsxwriter')

df1.to-excel(writePath,index=False,sheet_name='test1')
df2.to-excel(writePath,index=False,sheet_name='test2')

Original: https://blog.csdn.net/qq_43012693/article/details/124895004
Author: 小五家的二哈
Title: Python Pandas操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755668/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python pytest django日志模块对比

文章目录 log和print的对比 logging模块的四大组件类日志级别 python定义日志示例 pytest定义日志示例 django定义日志示例 pytest日志模块的踩…

Python 2023年9月12日
0041
【Python】merge、join、concat和append用法比较

merge merge 函数通过一个或多个键将数据集的行连接起来。场景：针对同一个主键存在的两张包含不同特征的表，通过主键的链接，将两张表进行合并。合并之后，两张表的行数不增加，…

Python 2023年8月21日
0038
Pygame入门-游戏代码结构及背景轮播、声音音效及图像动态效果

一、游戏代码结构代码结构是代码的组织方式，也是游戏编程的思考框架。pygame官方文档中给出了以下建议，将游戏代码结构分为以下六个部分。 1导入游戏模块。2资源处理类;定义一些类…

Python 2023年9月19日
0059
五花八门的Pandas取数操作

公众号：尤而小屋作者：Peter编辑：Peter Pandas系列_DataFrame数据筛选（上）本文介绍的是如何在pandas进行数据的筛选和查看。因为pandas中有各种花…

Python 2023年8月18日
0064
python 教学

安装pygame库。安装2.1.0版本。 python2这样安装： pip install pygame==2.1.0 python3这样安装： pip3 install pyg…

Python 2023年9月25日
0055
100天精通Python（数据分析篇）——第57天：Pandas读写Excel（read_excel、to_excel）

### 回答1： Python_是一种功能强大的编程语言，可以用于各种 _数据分析_任务。而在 _Python_的 _数据分析_工具库中， _pandas_是最受欢迎和广泛使用的工…

Python 2023年8月1日
0047
机械设备—卷扬机

一、卷扬机简介卷扬机，用卷筒缠绕钢丝绳或链条提升或牵引重物的轻小型起重设备，又称绞车。卷扬机可以垂直提升、水平或倾斜拽引重物。卷扬机分为手动卷扬机、电动卷扬机及液压卷扬机三种。现…

Python 2023年11月6日
0034
Docker进阶-Dockerfile建立一个自定义的镜像执行自定义进程

前言 docker对我来说是一个很方便的工具，，上一篇文章也写了docker基本的一些使用，这篇文章重点描述一下Dockerfile的使用，从零建立一个自己定制化的镜像，并可以执行…

Python 2023年9月26日
0065
计算机网络–应用层

概述交互模式 C/S 方式 P2P 方式动态主机配置协议 DHCP 域名系统 DNS 域名系统 DNS 规则域名 DNS 的工作文件传输协议 FTP 电子邮件基于万维网的…

Python 2023年6月3日
0097
写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

通常，在利用python做数据分析时，pandas库的 pd.read_csv(‘XXX.csv’) 是个很好用的导入csv文件的工具。但是，今天在导入一份csv文件时却出现了Un…

Python 2023年8月7日
0079
python数据表元素不为空值_python 填充空值失败_怎么用 Python 做数据分析实例

01 生成数据表第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件…

Python 2023年8月21日
0055
Flask 框架：运用Echarts绘制图形

echarts是百度推出的一款开源的基于 JavaScript的可视化图表库，该开发库目前发展非常不错，且支持各类图形的绘制可定制程度高，Echarts绘图库同样可以与 Flask…

Python 2023年8月9日
0052
Android网络请求(3) 网络请求框架OkHttp

本节我们来讲解OkHtpp网络请求框架什么是网络请求框架在我的理解中，网络请求框架是为了方便我们更加便捷规范的进行网络请求所建的类，我们通过调用该类中的方法可以快速地进行网络请…

Python 2023年10月14日
0029
无卷积步长或池化:用于低分辨率图像和小物体的新 CNN 模块SPD-Conv

No More Strided Convolutions or Pooling:A New CNN Building Block for Low-Resolution Images…

Python 2023年8月2日
00138
ZZA的项目学习开发文档和算法学习笔记5/2

先复习一下数据结构考察T r i e Trie T r i e算法的题目通常会限制：字符串只有小写英文字母或者大写英文字母，且字母通常为26 26 2 6或52 52 5 2个 …

Python 2023年9月25日
0054
《实验细节》实验中处理DataFrame数据函数

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月21日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31