pandas使用方法汇总

2023年7月7日上午5:39 • 人工智能 • 阅读 67

1.dataframe的操作

1.1基本方法（后面记得加括号）

df.values  # &#x67E5;&#x770B;&#x6240;&#x6709;&#x5143;&#x7D20;
df[''].value_counts #&#x7EDF;&#x8BA1;&#x67D0;&#x5217;&#x4E2D;&#x7C7B;&#x7684;&#x6570;&#x91CF;,&#x53C2;&#x6570;&#xFF1A;normalize(&#x8FD4;&#x56DE;&#x5360;&#x6BD4;)&#x3001;sort&#xFF08;&#x6392;&#x5E8F;&#xFF09;&#x3001;
          ascending &#xFF08;boolean, default False&#xFF09;&#xFF08;&#x662F;&#x5426;&#x5347;&#x5E8F;&#x6392;&#x5217;&#xFF09;&#x3002;&#x3002;
          eg. df['company'].value_counts(normalize=True)
df.head    # &#x67E5;&#x770B;&#x524D;&#x4E94;&#x884C;&#x7684;&#x6570;&#x636E;
df.tail    # &#x67E5;&#x770B;&#x6700;&#x540E;&#x4E94;&#x884C;&#x7684;&#x6570;&#x636E;
df.index   # &#x67E5;&#x770B;&#x7D22;&#x5F15;
df.columns # &#x67E5;&#x770B;&#x6240;&#x6709;&#x5217;&#x540D;
df.dtype   # &#x67E5;&#x770B;&#x5B57;&#x6BB5;&#x7C7B;&#x578B;
df.size    # &#x5143;&#x7D20;&#x603B;&#x6570;
df.ndim    # &#x8868;&#x7684;&#x7EF4;&#x5EA6;&#x6570;
df.shape   # &#x8FD4;&#x56DE;&#x8868;&#x7684;&#x884C;&#x6570;&#x4E0E;&#x5217;&#x6570;
df.info    # DataFrame&#x7684;&#x8BE6;&#x7EC6;&#x5185;&#x5BB9;
df.describe # &#x751F;&#x6210;&#x63CF;&#x8FF0;&#x6027;&#x7EDF;&#x8BA1;&#x6C47;&#x603B;&#xFF0C;&#x5305;&#x62EC;&#x5747;&#x503C;&#x3001;max&#x7B49;
df.isna    # &#x5224;&#x65AD;&#x6570;&#x636E;&#x662F;&#x5426;&#x4E3A;&#x7F3A;&#x5931;&#x503C;&#xFF0C;&#x662F;&#x7684;&#x8BDD;&#x8FD4;&#x56DE;true
df.isna().any()  # &#x6570;&#x636E;&#x91CF;&#x8F83;&#x5927;&#x65F6;&#xFF0C;&#x4F7F;&#x7528;any()&#x67E5;&#x770B;&#x67D0;&#x4E00;&#x5217;&#x662F;&#x5426;&#x6709;&#x7F3A;&#x5931;&#x503C;
df.dropna # &#x5220;&#x6389;&#x542B;&#x6709;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x6570;&#x636E;
df.fillna # &#x586B;&#x5145;&#x6570;&#x636E;&#xFF0C;&#x4E3B;&#x8981;&#x53C2;&#x6570;&#xFF1A;value(&#x586B;&#x5145;&#x7684;&#x503C;)&#x3001; method(&#x7F3A;&#x5931;&#x503C;&#x586B;&#x5145;&#x65B9;&#x6CD5;)
df.sort_values  # &#x6309;&#x7167;&#x67D0;&#x5217;&#x8FDB;&#x884C;&#x6392;&#x5E8F;,eg.data.sort_values(by='salary') &#x4E5F;&#x53EF;&#x7528;ascending

1.2 dataframe数据的查看方法

&#x5355;&#x5217;&#x6570;&#x636E;&#xFF1A;df['col1']
&#x5355;&#x5217;&#x591A;&#x884C;&#xFF1A;df['col1'][2:7]
&#x591A;&#x5217;&#x591A;&#x884C;&#xFF1A;df[['col1','col2']][2:7]
&#x591A;&#x884C;&#x6570;&#x636E;&#xFF1A;df[:][2:7]     #&#x8FD9;&#x91CC;&#x4F7F;&#x7528;df[2:7][:]&#x4E5F;&#x80FD;&#x5F97;&#x5230;&#x540C;&#x6837;&#x7684;&#x6548;&#x679C;

1.3loc，iloc的查看方法

loc[&#x884C;&#x7D22;&#x5F15;&#x540D;&#x79F0;&#x6216;&#x6761;&#x4EF6;&#xFF0C;&#x5217;&#x7D22;&#x5F15;&#x540D;&#x79F0;]
iloc[&#x884C;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;&#xFF0C;&#x5217;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;]

&#x5355;&#x5217;&#x5207;&#x7247;&#xFF1A;df.loc[:,'col1']
         df.iloc[:,3]
&#x591A;&#x5217;&#x5207;&#x7247;&#xFF1A;df.loc[:,['col1','col2']]
         df.iloc[:,[1,3]]
&#x6309;&#x9700;&#x5207;&#x7247;&#xFF1A;df.loc[2:5,['col1','col2']]
         df.iloc[2:5,[1,3]]
&#x6761;&#x4EF6;&#x5207;&#x7247;&#xFF1A;df.loc[df['col1']=='245',['col1','col2']]
         df.iloc[(df['col1']=='245').values,[1,5]]

1.4删除数据（及时更新）

&#x5220;&#x9664;&#x67D0;&#x51E0;&#x884C;&#x6570;&#x636E;,inplace&#x4E3A;True&#x65F6;&#x5728;&#x6E90;&#x6570;&#x636E;&#x4E0A;&#x5220;&#x9664;&#xFF0C;False&#x65F6;&#x9700;&#x8981;&#x65B0;&#x589E;&#x6570;&#x636E;&#x96C6;
df.drop(labels=range(1,11),axis=0,inplace=True)
&#x5220;&#x9664;&#x67D0;&#x51E0;&#x5217;&#x6570;&#x636E;
df.drop(labels=['col1','col2'],axis=1,inplace=True)

1.5更新

df=df.reset_index(drop=True)     #&#x66F4;&#x65B0;&#x7D22;&#x5F15;&#x8303;&#x56F4;&#xFF0C;&#x4E0D;&#x66F4;&#x65B0;&#x7684;&#x8BDD;&#x4F1A;&#x5BFC;&#x81F4;&#x62A5;&#x9519;keyerror

2.处理时间序列数据

2.1字符串时间转换为标准时间

df['time'] = pd.to_datetime(df['time'])

2.2加减时间

&#x4F7F;&#x7528;Timedelta,&#x652F;&#x6301;weeks&#xFF0C;days&#xFF0C;hours&#xFF0C;minutes,seconds&#xFF0C;&#x4F46;&#x4E0D;&#x652F;&#x6301;&#x6708;&#x548C;&#x5E74;
df['time'] = df['time'] + pd.Timedelta(days=1)
df['time'] = df['time'] - pd.to_datetime('2016-1-1')
&#x65F6;&#x95F4;&#x8DE8;&#x5EA6;&#x8BA1;&#x7B97;&#xFF1A;
df['time'].max() - df['time'].min()

3.分组聚合（groupby）

(1)基本方法

df.groupby(by='',axis=0,level=None,as_index=True,sort=True,group_keys=True
           ,squeeze=False).count()
by--&#x5206;&#x7EC4;&#x7684;&#x5B57;&#x6BB5;  level--&#x6807;&#x7B7E;&#x6240;&#x5728;&#x7EA7;&#x522B;&#xFF0C;&#x9ED8;&#x8BA4;None  as_index--&#x805A;&#x5408;&#x6807;&#x7B7E;&#x662F;&#x5426;&#x4EE5;df&#x5F62;&#x5F0F;&#x8F93;&#x51FA;&#xFF0C;
  &#x9ED8;&#x8BA4;True&#xFF0C;sort--&#x662F;&#x5426;&#x5BF9;&#x5206;&#x7EC4;&#x4F9D;&#x636E;&#xFF0C;&#x5206;&#x7EC4;&#x6807;&#x7B7E;&#x8FDB;&#x884C;&#x6392;&#x5E8F;&#xFF0C;&#x9ED8;&#x8BA4;True  group_keys--&#x662F;&#x5426;&#x663E;&#x793A;&#x5206;&#x7EC4;
  &#x6807;&#x7B7E;&#x540D;&#x79F0;&#xFF0C;&#x9ED8;&#x8BA4;True  squeeze--&#x662F;&#x5426;&#x5BF9;&#x8FD4;&#x56DE;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x964D;&#x7EF4;&#xFF0C;&#x9ED8;&#x8BA4;False
&#x805A;&#x5408;&#x51FD;&#x6570;&#x6709;count&#xFF0C;head,max,min,median,size,std,sum

(2)具体使用：如图包含三个字段，company、salary、age

使用语句：

group = data.groupby("company")

结果：

In [8]: list(group)
Out[8]:
[('A',   company  salary  age
  3       A      20   22
  6       A      23   33),
 ('B',   company  salary  age
  4       B      10   17
  5       B      21   40
  8       B       8   30),
 ('C',   company  salary  age
  0       C      43   35
  1       C      17   25
  2       C       8   30
  7       C      49   19)]

可以清楚的看见，dataframe通过groupby（”company”），将df按company进行分组，得到了按company中不同的类别进行的分组，总的来说， groupby的过程就是将原有的 DataFrame按照 groupby的字段（这里是 company），划分为若干个 分组DataFrame，被分为多少个组就有多少个 分组DataFrame。

3.1agg、transform、apply方法的使用见下面的链接

参考链接：

groupby用法：Pandas教程 | 超好用的Groupby用法详解 – 知乎

pandas常见函数使用：Python笔记–Pandas常用函数汇总 – 知乎

Original: https://blog.csdn.net/xiaomingming99/article/details/122230443
Author: 独为我唱
Title: pandas使用方法汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675587/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

路由算法（凑够五个字）

即最短路径问题，说白了还是算法问题，分类有静态动态路由算法，和全局分散路由算法两种。静态：通过手工配置，路由更新慢，但是优先级高。动态：路由更新快（定期更新，能及时响应链路费用或拓…

人工智能 2023年6月30日
00113
numpy错题整理05——文件保存，格式转化

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0058
第十章文本生成

10.1 文本生成简介 10.2 文本生成方法 10.2.1 传统文本生成方法 10.2.2 神经网络文本生成方法 10.2.2.1 回顾 10.2.2.1 自回归方法 10.2….

人工智能 2023年5月28日
0069
健康管理师【16】

1.健康促进的核心策略为 A.实行干预措施B.社会动员C.对群众来说强调自愿D.非政府组织的参与E.专业人员的参与 2.下列属于肥胖症高危人群管理措施的是 3.以下步骤不属于健康风…

人工智能 2023年7月17日
0050
2022年数模国赛C题（岭回归、区间预测、矩阵热力图、Fisher判别分类模型）——总结心得（附最后一次数模经历，MatlabSPSSLingo的理解综合）

文章目录一、国赛二、国赛代码展示 * 1.1 问题一 1.2 问题二 1.3 问题三 1.4 问题四三、对于软件的理解 * 3.1 Matlab – 3.1.1 …

人工智能 2023年6月30日
0095
R语言学习笔记

目的通过数据分析信息。数据挖掘数据分析过程越准确，决策过程就越正确。六步骤1.数据采集2.数据存储3.数据分析4.数据挖掘5.数据可视化化6.进行决策1.数据采集采集的数据称为源数…

人工智能 2023年7月18日
0081
statemodels 笔记： lowess

机器学习笔记：局部加权回归 LOESS_UQI-LIUWJ的博客-CSDN博客 1 基本使用方法 statsmodels.nonparametric.smoothers_lowes…

人工智能 2023年6月17日
00128
Python制作短信发送程序

作者：虚坏叔叔博客：https://xuhss.com 早餐店不会开到晚上，想吃的人早就来了！😄 Python制作短信发送程序 ; 一、Python短信发送界面最后的效果二、准备…

人工智能 2023年7月4日
0082
【进阶版】机器学习之K均值聚类、层次聚类、密度聚类、实战项目含代码（15）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0093
【机器学习sklearn】两个例子轻松搞懂核密度估计KernelDensity

前言作业中遇到了需要使用KernelDensity的情况，但是网上的资料参差不齐，找了不短的时间却失望而归，最后还是靠着自己的理解才弄懂sklearn这个函数的使用，特此纪念。 …

人工智能 2023年7月28日
0085
你不知道的岗位，正在被大厂疯抢

2022年应届毕业生人数将达到1076万，就业队伍非常庞大。而受到疫情影响，大多数企业决定不招聘或减少招聘应届生，僧多粥少使得就业人难上加难。但是却有这么一类岗位，根本无需担心找不…

人工智能 2023年6月11日
0083
超图神经网络 Hypergraph Neural Networks

论文出处：AAAI 2019 论文写作单位：1.清华大学2.北京国家信息科学技术研究中心3.厦门大学论文关键字：超图神经网络（Hypergraph Neural Network …

人工智能 2023年7月28日
0070
PAMI19 – 强大的级联RCNN架构《Cascade R-CNN: High Quality Object Detection and Instance Segmentation》

文章目录 * – 原文 – 初识 – 相知 – + Challenge to High Quality Detection + Ca…

人工智能 2023年7月10日
0072
实验三：CART回归决策树python实现（两个测试集）（二）|机器学习

目录 * – python实现 – + 分步 + 源代码（全部） – 测试集1（波士顿房价数据集） – 测试集2（糖尿病数据集） &…

人工智能 2023年6月17日
0084
湖南科技大学数据挖掘复习提纲

2021/1/8更：根据消息人士透露：综合题大概率考Apriori和K-mean算法一、选择题。（每个2分，本题共20分）二、写出下列算法的主要思想(每题5分，本题共20分)1…

人工智能 2023年6月2日
00104
R数据可视化｜使用Scatterplot3d包制作3D散点图

介绍 R 中有许多包（RGL、car、lattice、scatterplot3d等）用于创建3D 图形。本教程介绍了如何使用 R 的 scatterplot3d包在 3D 空间…

人工智能 2023年6月15日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas使用方法汇总

大家都在看