pandas使用方法汇总

2023年7月7日上午5:39 • 人工智能 • 阅读 55

1.dataframe的操作

1.1基本方法（后面记得加括号）

df.values  # &#x67E5;&#x770B;&#x6240;&#x6709;&#x5143;&#x7D20;
df[''].value_counts #&#x7EDF;&#x8BA1;&#x67D0;&#x5217;&#x4E2D;&#x7C7B;&#x7684;&#x6570;&#x91CF;,&#x53C2;&#x6570;&#xFF1A;normalize(&#x8FD4;&#x56DE;&#x5360;&#x6BD4;)&#x3001;sort&#xFF08;&#x6392;&#x5E8F;&#xFF09;&#x3001;
          ascending &#xFF08;boolean, default False&#xFF09;&#xFF08;&#x662F;&#x5426;&#x5347;&#x5E8F;&#x6392;&#x5217;&#xFF09;&#x3002;&#x3002;
          eg. df['company'].value_counts(normalize=True)
df.head    # &#x67E5;&#x770B;&#x524D;&#x4E94;&#x884C;&#x7684;&#x6570;&#x636E;
df.tail    # &#x67E5;&#x770B;&#x6700;&#x540E;&#x4E94;&#x884C;&#x7684;&#x6570;&#x636E;
df.index   # &#x67E5;&#x770B;&#x7D22;&#x5F15;
df.columns # &#x67E5;&#x770B;&#x6240;&#x6709;&#x5217;&#x540D;
df.dtype   # &#x67E5;&#x770B;&#x5B57;&#x6BB5;&#x7C7B;&#x578B;
df.size    # &#x5143;&#x7D20;&#x603B;&#x6570;
df.ndim    # &#x8868;&#x7684;&#x7EF4;&#x5EA6;&#x6570;
df.shape   # &#x8FD4;&#x56DE;&#x8868;&#x7684;&#x884C;&#x6570;&#x4E0E;&#x5217;&#x6570;
df.info    # DataFrame&#x7684;&#x8BE6;&#x7EC6;&#x5185;&#x5BB9;
df.describe # &#x751F;&#x6210;&#x63CF;&#x8FF0;&#x6027;&#x7EDF;&#x8BA1;&#x6C47;&#x603B;&#xFF0C;&#x5305;&#x62EC;&#x5747;&#x503C;&#x3001;max&#x7B49;
df.isna    # &#x5224;&#x65AD;&#x6570;&#x636E;&#x662F;&#x5426;&#x4E3A;&#x7F3A;&#x5931;&#x503C;&#xFF0C;&#x662F;&#x7684;&#x8BDD;&#x8FD4;&#x56DE;true
df.isna().any()  # &#x6570;&#x636E;&#x91CF;&#x8F83;&#x5927;&#x65F6;&#xFF0C;&#x4F7F;&#x7528;any()&#x67E5;&#x770B;&#x67D0;&#x4E00;&#x5217;&#x662F;&#x5426;&#x6709;&#x7F3A;&#x5931;&#x503C;
df.dropna # &#x5220;&#x6389;&#x542B;&#x6709;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x6570;&#x636E;
df.fillna # &#x586B;&#x5145;&#x6570;&#x636E;&#xFF0C;&#x4E3B;&#x8981;&#x53C2;&#x6570;&#xFF1A;value(&#x586B;&#x5145;&#x7684;&#x503C;)&#x3001; method(&#x7F3A;&#x5931;&#x503C;&#x586B;&#x5145;&#x65B9;&#x6CD5;)
df.sort_values  # &#x6309;&#x7167;&#x67D0;&#x5217;&#x8FDB;&#x884C;&#x6392;&#x5E8F;,eg.data.sort_values(by='salary') &#x4E5F;&#x53EF;&#x7528;ascending

1.2 dataframe数据的查看方法

&#x5355;&#x5217;&#x6570;&#x636E;&#xFF1A;df['col1']
&#x5355;&#x5217;&#x591A;&#x884C;&#xFF1A;df['col1'][2:7]
&#x591A;&#x5217;&#x591A;&#x884C;&#xFF1A;df[['col1','col2']][2:7]
&#x591A;&#x884C;&#x6570;&#x636E;&#xFF1A;df[:][2:7]     #&#x8FD9;&#x91CC;&#x4F7F;&#x7528;df[2:7][:]&#x4E5F;&#x80FD;&#x5F97;&#x5230;&#x540C;&#x6837;&#x7684;&#x6548;&#x679C;

1.3loc，iloc的查看方法

loc[&#x884C;&#x7D22;&#x5F15;&#x540D;&#x79F0;&#x6216;&#x6761;&#x4EF6;&#xFF0C;&#x5217;&#x7D22;&#x5F15;&#x540D;&#x79F0;]
iloc[&#x884C;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;&#xFF0C;&#x5217;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;]

&#x5355;&#x5217;&#x5207;&#x7247;&#xFF1A;df.loc[:,'col1']
         df.iloc[:,3]
&#x591A;&#x5217;&#x5207;&#x7247;&#xFF1A;df.loc[:,['col1','col2']]
         df.iloc[:,[1,3]]
&#x6309;&#x9700;&#x5207;&#x7247;&#xFF1A;df.loc[2:5,['col1','col2']]
         df.iloc[2:5,[1,3]]
&#x6761;&#x4EF6;&#x5207;&#x7247;&#xFF1A;df.loc[df['col1']=='245',['col1','col2']]
         df.iloc[(df['col1']=='245').values,[1,5]]

1.4删除数据（及时更新）

&#x5220;&#x9664;&#x67D0;&#x51E0;&#x884C;&#x6570;&#x636E;,inplace&#x4E3A;True&#x65F6;&#x5728;&#x6E90;&#x6570;&#x636E;&#x4E0A;&#x5220;&#x9664;&#xFF0C;False&#x65F6;&#x9700;&#x8981;&#x65B0;&#x589E;&#x6570;&#x636E;&#x96C6;
df.drop(labels=range(1,11),axis=0,inplace=True)
&#x5220;&#x9664;&#x67D0;&#x51E0;&#x5217;&#x6570;&#x636E;
df.drop(labels=['col1','col2'],axis=1,inplace=True)

1.5更新

df=df.reset_index(drop=True)     #&#x66F4;&#x65B0;&#x7D22;&#x5F15;&#x8303;&#x56F4;&#xFF0C;&#x4E0D;&#x66F4;&#x65B0;&#x7684;&#x8BDD;&#x4F1A;&#x5BFC;&#x81F4;&#x62A5;&#x9519;keyerror

2.处理时间序列数据

2.1字符串时间转换为标准时间

df['time'] = pd.to_datetime(df['time'])

2.2加减时间

&#x4F7F;&#x7528;Timedelta,&#x652F;&#x6301;weeks&#xFF0C;days&#xFF0C;hours&#xFF0C;minutes,seconds&#xFF0C;&#x4F46;&#x4E0D;&#x652F;&#x6301;&#x6708;&#x548C;&#x5E74;
df['time'] = df['time'] + pd.Timedelta(days=1)
df['time'] = df['time'] - pd.to_datetime('2016-1-1')
&#x65F6;&#x95F4;&#x8DE8;&#x5EA6;&#x8BA1;&#x7B97;&#xFF1A;
df['time'].max() - df['time'].min()

3.分组聚合（groupby）

(1)基本方法

df.groupby(by='',axis=0,level=None,as_index=True,sort=True,group_keys=True
           ,squeeze=False).count()
by--&#x5206;&#x7EC4;&#x7684;&#x5B57;&#x6BB5;  level--&#x6807;&#x7B7E;&#x6240;&#x5728;&#x7EA7;&#x522B;&#xFF0C;&#x9ED8;&#x8BA4;None  as_index--&#x805A;&#x5408;&#x6807;&#x7B7E;&#x662F;&#x5426;&#x4EE5;df&#x5F62;&#x5F0F;&#x8F93;&#x51FA;&#xFF0C;
  &#x9ED8;&#x8BA4;True&#xFF0C;sort--&#x662F;&#x5426;&#x5BF9;&#x5206;&#x7EC4;&#x4F9D;&#x636E;&#xFF0C;&#x5206;&#x7EC4;&#x6807;&#x7B7E;&#x8FDB;&#x884C;&#x6392;&#x5E8F;&#xFF0C;&#x9ED8;&#x8BA4;True  group_keys--&#x662F;&#x5426;&#x663E;&#x793A;&#x5206;&#x7EC4;
  &#x6807;&#x7B7E;&#x540D;&#x79F0;&#xFF0C;&#x9ED8;&#x8BA4;True  squeeze--&#x662F;&#x5426;&#x5BF9;&#x8FD4;&#x56DE;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x964D;&#x7EF4;&#xFF0C;&#x9ED8;&#x8BA4;False
&#x805A;&#x5408;&#x51FD;&#x6570;&#x6709;count&#xFF0C;head,max,min,median,size,std,sum

(2)具体使用：如图包含三个字段，company、salary、age

使用语句：

group = data.groupby("company")

结果：

In [8]: list(group)
Out[8]:
[('A',   company  salary  age
  3       A      20   22
  6       A      23   33),
 ('B',   company  salary  age
  4       B      10   17
  5       B      21   40
  8       B       8   30),
 ('C',   company  salary  age
  0       C      43   35
  1       C      17   25
  2       C       8   30
  7       C      49   19)]

可以清楚的看见，dataframe通过groupby（”company”），将df按company进行分组，得到了按company中不同的类别进行的分组，总的来说， groupby的过程就是将原有的 DataFrame按照 groupby的字段（这里是 company），划分为若干个 分组DataFrame，被分为多少个组就有多少个 分组DataFrame。

3.1agg、transform、apply方法的使用见下面的链接

参考链接：

groupby用法：Pandas教程 | 超好用的Groupby用法详解 – 知乎

pandas常见函数使用：Python笔记–Pandas常用函数汇总 – 知乎

Original: https://blog.csdn.net/xiaomingming99/article/details/122230443
Author: 独为我唱
Title: pandas使用方法汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675587/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas DataFrame入门教程（图解版）

Pandas DataFrame入门教程（图解版） DataFrame 是 Pandas 的重要数据结构之一，也是在使用 Pandas 进行数据分析过程中最常用的结构之一，可以这么…

人工智能 2023年7月7日
0057
5G难题–如此多的数据，运营商们如何分析所有的这些？图数仓成为关键技术

知识图谱技术已渐渐成为AI的风口，图数据库也站在了数据库领域的浪尖，AbutionGraph作为世界第一款时序动态图数据仓库（时序+图谱+数仓的一种全新数据库存储架构），来看看在…

人工智能 2023年6月1日
0057
利用L1范数的CNN模型剪枝

文章目录 1.原理 2.修改模型 3.数据集 4.代码实现 * 4.1.正常训练 4.2.稀疏训练 4.3.剪枝 4.4.微调参考文献 1.原理缩放因子和稀疏性引起的惩罚。…

人工智能 2023年7月9日
0078
物联网助力智慧农业，农民也能成为科技工作者

北京时间8月24日，新电商拼多多发布了2021年第二季度财报。财报显示，截至2021年6月30日，拼多多年度活跃买家数达到8.499亿，作为国内最大的农产品上行平台之一，拼多多同时…

人工智能 2023年6月4日
0075
python dataframe与list，series，array，字典类型的相互转换

import numpy as np import pandas as pd df = pd.DataFrame({ ‘name’:[1,2,3], ‘age’:[19,21,23…

人工智能 2023年7月6日
0060
向量检索

近似近邻检索ANNS Approximate Nearest Neighbor Search (ANNS) 工业界拥有超大规模的数据，往往要求满足低延迟、低成本的向量检索需求，全量…

人工智能 2023年6月4日
0072
python配置文件的两种方式

文章目录前言 py文件作为配置文件 yaml文件作为配置文件总结前言在运行项目程序时通常会有一个配置文件，配置文件是用于配置程序的参数和初始化设置的文件。比如现在要做一个…

人工智能 2023年7月19日
0058
第十三届蓝桥杯Java、C++、Python组国赛真题——最大公约数（三语言AC）

1.问题描述给定一个数组, 每次操作可以选择数组中任意两个相邻的元素 x , y x, y x ,y 并将其中的一个元素替换为 gcd ⁡ ( x , y ) \operato…

人工智能 2023年7月4日
0088
图文并茂：什么是 K-means 聚类算法

概述聚类属于机器学习的无监督学习，在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。它跟分类的最主要区别就在于有没有&#8221…

人工智能 2023年6月16日
0075
离线数仓和实时数仓的区别

作者介绍 @车云祥大宇无限数据产品负责人主要负责全公司底层数据治理，构建统一指标体系；主导 BI 系统、用户画像系统、广告投放平台、广告流量优化等设计工作；推动 Snap…

人工智能 2023年6月19日
00130
python教程：15种字符串操作方法

字符串是字符的序列。字符串基本上就是一组单词。我几乎可以保证你在每个Python程序中都要用到字符串，所以请特别留心下面这部分的内容。下面告诉你如何在Python中使用字符串。…

人工智能 2023年7月3日
0072
使用python中的pandas对csv文件进行拆分

之前写过一篇对大型csv文件进行拆分的文章使用python对csv文件进行拆分本来用着还挺顺手，直到最近在工作里，需要拆分七八百万行的csv文件，用原来的那套逻辑，居然要跑一个多小…

人工智能 2023年7月5日
0073
《动手学深度学习+PyTorch》3.5图像分类数据集（Fashion-MNIST）学习笔记

torchvision包，它是服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision主要由以下几部分构成：1. torchvision.datase…

人工智能 2023年6月22日
0071
[数据分析] RFM分析方法

美图欣赏2022/06/08 RFM分析方法作用:对用户分类，识别出有价值的用户，对不同价值的用户使用不同的运营决策，把公司有限的资源发挥到最大的效果(用于用户价值细分，精细化运…

人工智能 2023年7月16日
0083
常见的归一化方式介绍与实现

数据归一化（数据标准化）概念：数据标准化（归一化）是处理数据挖掘的一项基本工作，不同的评价指标往往具有不同的量纲（举例：对于房价评价时，楼房面积、房价、楼层等信息。举例2：对于个…

人工智能 2023年7月17日
0070
GPU驱动、CUDA和cuDNN之间的版本匹配与下载

文章目录 * – GPU驱动、CUDA和cuDNN之间的版本匹配与下载 – + 1. GPU驱动 + 2. CUDA + * 2.1. 查看自己GPU驱动的…

人工智能 2023年6月15日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas使用方法汇总

大家都在看