Pandas库常用命令汇总——自用备查（挖坑，持续更新）

2023年8月9日上午3:40 • Python • 阅读 71

引入库（数据分析常用三件套）

import pandas as pd

import numpy as np

from matplotlib import pyplot as plt

%matplotlib inline

读取文件（excel、csv）

//读取excel文件

data = pd.read_excel("C:\del\desktop\111.xlsx",sheet_name="Sheet1")

//读取csv文件

data = pd.read_csv("Data_Path")

Tips：注意，由于python语言会将”\”当作转义字符，因此在填写文件地址时，一定要将”\”字符转换成”/”，特别是当出现下面这个报错的时候，那就是地址写错了！！！

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escapec

查看数据集

df.head(10)  //查看前10行的数据
df.shape    //显示数据集的大小，如行和列的总数
df.info()   //查看每个变量的数据类型，返回变量、数据类型、内存使用量和关于每个变量的缺失值情况

也可以使用isnull方法检查 “Age” 和 “Cabin” 两列中缺失的数值

填充缺失值

很多时候我们需要将缺失值替换成有效的数值。
虽然可以通过 isnull() 方法建立掩码来填充缺失值，但是 Pandas 为此专门提供了一个fillna() 方法，它将返回填充了缺失值后的数组副本。

用一个单独的值来填充缺失值：

data.fillna(0)

用缺失值前面的有效值从前往后填充（forward-fill)：

data.fillna(method=’ffill’)

series的话可以上述那样直接填充，如果是DataFrame还需要在填充时需要设置坐标轴参数 axis：

df.fillna(method=’ffillna’,axis=1)

需要注意，在从前往后填充时，如果需要填充的缺失值前面没有值，那么它就仍然是缺失值。

分组填充缺失值：举例填充平均值

//简单逻辑的方法：先获得该分组下的平均值，再一个个根据分组情况填充
df.groupby(["Pclass","Sex"])["Age"].mean()
df.loc[df.Age.isnull() & (df.Sex == "male") & (df.Pclass == 1),"Age"] = 40.0
df.loc[df.Age.isnull() & (df.Sex == "female") & (df.Pclass == 1),"Age"] = 35.0
df.loc[df.Age.isnull() & (df.Sex=="male") & (df.Pclass == 2),"Age"] = 30.0
df.loc[df.Age.isnull() & (df.Sex == "female") & (df.Pclass == 2),"Age"] = 28.0
df.loc[df.Age.isnull() & (df.Sex=="male") & (df.Pclass == 3),"Age"] = 25.0
df.loc[df.Age.isnull() & (df.Sex=="female") & (df.Pclass == 3),"Age"] = 21.5

//用transform 和 fillna函数快速实现
data["DA_num"] = data.groupby(["industry","Year"])["DA_num"].transform(lambda x: x.fillna(x.mean()))

查看，截取（切片）数据集

loc是 利用index的名称，来获取想要的行（或列）。（名称导向的这个特点，使得df[df.loc[‘col_name’] == ‘condition’, ‘col_name’] = value_1成立。

iloc利用index的具体位置（所以它只能是 整数型参数），来获取想要的行（或列）。

df.iloc[:3]  //返回的是前3行的数
df.iloc[:3,:]  //返回的是前3行,所有列的数，本质上与上条命令一致，默认省略

//根据位置和名称信息混搭的取数，例如想提取c行及其之前所有的，同时属于前4列的数
df.iloc[:df.index.get_loc('c') + 1, :4]

//get_loc 获取名称对象在index的位置（整数）
//因为iloc[num_of_row_start : num_of_row_end, num_of_column_start : num_of_column_end]不包含num_of_end，所以需要 +1才能包含c行

分组：groupby命令

参考：https://zhuanlan.zhihu.com/p/101284491

单一分组变量：例如根据公司进行分组

data.groupby("company")

多个分组变量：例如根据行业、年份进行分组

data.groupby(["industry","Year"])

得到的是DataFrameGroupBy object，为了方便查看，可以将其转换成list(data)

<pandas.core.groupby.generic.dataframegroupby object at 0x000002b7e2650240></pandas.core.groupby.generic.dataframegroupby>

groupby分组之后，就能够对数据进行聚合操作了

聚合：agg命令

data.groupby("company").agg('mean')

///&#x53EF;&#x7528;&#x7684;&#x805A;&#x5408;&#x51FD;&#x6570;&#x6709;&#xFF1A;max\min\sum\mean\median\std(&#x6807;&#x51C6;&#x5DEE;&#xFF09;\var(&#x65B9;&#x5DEE;&#xFF09;\count

如果针对不同的列进行不同方式的聚合，比如要计算不同公司员工的平均年龄以及薪水的中位数，可以 利用字典进行聚合操作的指定：

聚合：transform命令

其与agg的区别是什么？

如果现在需要在原数据集中新增一列avg_salary，代表 员工所在的公司的平均薪水（相同公司的员工具有一样的平均薪水），该怎么实现呢？

如果用agg，按照正常的步骤来计算，需要先求得不同公司的平均薪水，然后按照员工和公司的对应关系填充到对应的位置，实现代码如下：

avg_salary_dict = data.groupby('company')['salary'].mean().to_dict()
&#x200B;
data['avg_salary'] = data['company'].map(avg_salary_dict)

使用transform的话，仅需要一行代码：

data['avg_salary'] = data.groupby('company')['salary'].transform('mean')
&#x200B;

聚合：apply命令

它相比前两种而言更加灵活，能够传入任意自定义的函数，实现复杂的数据操作。

假如要获取各个公司年龄最大员工的数据：

def get_oldest_staff(x):
    ...:     df = x.sort_values(by = 'age',ascending=True)
    ...:     return df.iloc[-1,:]
    ...:
&#x200B;
oldest_staff = data.groupby('company',as_index=False).apply(get_oldest_staff)

删除操作

删除某一列（某个变量）

df.drop(columns = “Cabin”,inplace=True)

导出文件

将处理后的文件导出为excel/csv:

data.to_excel("data_path")
data.to_csv("data_path")

//更具体的导出参数设置，见参考链接

Original: https://blog.csdn.net/weixin_43726651/article/details/125335045
Author: 啊金曼
Title: Pandas库常用命令汇总——自用备查（挖坑，持续更新）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743834/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas-数据操作-数值型（二）：累计统计函数【cumsum、cumprod、cummax、cummin】【计算前1/2/3/…/n个数的和、积、最大值、最小值】

一、累计统计函数函数作用 cumsum 计算前1/2/3/…/n个数的和 cummax 计算前1/2/3/…/n个数的最大值 cummin 计算前1/2/…

Python 2023年8月7日
00149
总在用户态调试 C# 程序，终还是搭了一个内核态环境

一：背景一直在用 WinDbg 调试用户态程序，并没有用它调试过 内核态，毕竟不是做驱动开发，也没有在分析 du…

Python 2023年10月23日
0048
python基础-集合的常用操作

{} 集合是一种无序不可重复的序列；集合常用于对两个列表的交并差处理；集合没有任何获取元素的方法，只用作处理列表或元组的临时数据类型，不适合数据的存储和传输。利用内置函数set…

Python 2023年10月31日
0031
Scrapy入门到放弃04：下载器中间件，让爬虫更完美

前言 MiddleWare，顾名思义，中间件。主要处理请求（例如添加代理IP、添加请求头等）和处理响应本篇文章主要讲述下载器中间件的概念，以及如何使用中间件和自定义中间件。 Mi…

Python 2023年10月4日
0036
django使用邮箱发验证码和激活验证

一、开启邮箱收发邮件（以QQ邮箱为例） 1. 邮箱设置—–>账户——>POP3/IMAP/SMTP/Exchange/CardDAV/CalDA…

Python 2023年8月5日
00110
2021：Python的下载安装教程（很详细，初学者也能懂）

文章目录 Python的下载安装配置环境变量 * 可提供远程搭建运行服务点击获取项目源码 Python的下载安装 1.进入Python的官网， http://www.pytho…

Python 2023年8月3日
0042
Python Pandas 中的数据结构（超详细，你确定不学习一下？）

Pandas有三种数据结构：Series、DataFrame和Panel。Series类似于数组；DataFrame类似于表格；Panel可视为Excel的多表单Sheet目录1….

Python 2023年8月16日
0058
python重新开始游戏_通过游戏学Python系列之小兔要上天—手把手教你使用Pygame开发平台跳跃类游戏06之死亡后游戏重新开始…

本节最终效果： image 如果我们希望方块挂了之后，游戏可以重新来过，可以这样做，修改Game类的update方法：如果方块跌落到屏幕之外，为了让体验更好，整个屏幕上滚，然后将…

Python 2023年9月22日
0051
机器学习开篇之机器学习的分类

目录 1 引言 2 机器学习分类 2.1 监督学习（Supervised Learning） 2.1.1 传统监督学习 2.1.2 非监督学习 2.1.3 半监督学习 2.1.4 …

Python 2023年9月27日
0040
embed python打包和 redis windows使用

使用场景用python做了一个采数看板的程序，需要现场实测（断网），所以需要打包好环境，让对方可以双击一下即可运行解决方案 1、pyinstaller打包，其实打包之后的exe…

Python 2023年8月4日
0060
AJAX后端数据

提取将URL作为其第一个参数。根据Django项目的URLconf和视图的配置方式，URL可能包含关键字参数或查询字符串，我们希望在视图中使用该参数来选择请求的数据。设置AJAX…

Python 2023年8月4日
0039
R数据分析：临床预测模型中校准曲线和DCA曲线的意义与做法

之前给大家写过一个临床预测模型：R数据分析：跟随top期刊手把手教你做一个临床预测模型，里面其实都是比较基础的模型判别能力discrimination的一些指标，那么今天就再进一步…

Python 2023年9月28日
0050
批处理文件 .bat 并行Arcpy脚本提高效率的思路-提升版

我在之前的博客园博客里，阐述了如何编写Arcpy脚本，如何利用Windows bat批处理脚本同时打开多个cmd窗口，以实现并行处理，提高数据处理效率。但是上述博客仍然存在着：1、…

Python 2023年6月3日
0058
DataFrame简介

dataframe是什么 DataFrame实质上是存储在不同节点计算机中的一张关系型数据表。分布式存储最大的好处是：可以让数据在不同的工作节点上并行存储，以便在需要数据的时候并行…

Python 2023年8月7日
0065
Python中unique()用法及代码示例

在处理数据中，如果希望查看列中的去重之后的不同值或者唯一值，这可以使用 Pandas unique()函数来完成。Python的Pandas库Series.unique方法会返回S…

Python 2023年8月7日
0032
全能成熟稳定开源分布式存储Ceph破冰之旅-上

@ 概述定义传统存储方式及问题优势生产遇到问题架构总体架构组成部分 CRUSH算法数据读写过程 CLUSTER MAP 部署部署建议部署版本部署方式 Ceph…

Python 2023年10月22日
0059

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas库常用命令汇总——自用备查（挖坑，持续更新）

引入库（数据分析常用三件套）

读取文件（excel、csv）

查看数据集

填充缺失值

查看，截取（切片）数据集

分组：groupby命令

聚合：agg命令

聚合：transform命令

聚合：apply命令

删除操作

导出文件

大家都在看