Pandas 多层级索引 Python 数据处理案例指南

2023年8月7日上午4:16 • Python • 阅读 45

今天我们来聊一下 Pandas当中的数据集中带有多重索引的数据分析实战

通常我们接触比较多的是单层索引，而多级索引也就意味着数据集当中的行索引有多个层级，具体的如下图所示

; 导入数据

我们先导入数据与 pandas模块

import pandas as pd

df = pd.read_csv('dataset.csv')
df.head()

output

该数据集描述的是 英国部分城市在2019年7月1日至7月4日期间的全天天气状况，我们先来看一下当前的数据集的行索引有哪些？代码如下

df.index.names

output

FrozenList(['City', 'Date'])

数据集当中 City、 Date，这里的 City我们可以当作是 第一层级索引，而 Date则是 第二层级索引。

我们也可以通过调用 sort_index()方法来按照数据集的行索引来进行排序，代码如下

df_1 = df.sort_index()
df_1

output

要是我们想将这个多层索引去除掉，就调用 reset_index()方法，代码如下

df.reset_index()

下面我们就开始针对多层索引来对数据集进行一些分析的实战吧

第一层级的数据筛选

在 pandas当中数据筛选的方法，一般我们是调用 loc以及 iloc方法，同样地，在多层级索引的数据集当中数据的筛选也是调用该两种方法，例如筛选出伦敦白天的天气状况如何，代码如下

df_1.loc['London' , 'Day']

output

要是我们想针对所有的行，就可以这么来做

df_1.loc[:, 'Day']

output

同理针对所有的列，就可以这么来做

df_1.loc['London' , :]

output

多层级索引的数据筛选

要是我们想看伦敦2019年7月1日白天的天气状况，就可以这么来做

df.loc['London', 'Day'].loc['2019-07-01']

output

Weather               Shower
Wind               SW 16 mph
Max Temperature           28
Name: 2019-07-01, dtype: object

这里我们进行了两次数据筛选的操作，先是 df.loc['London', 'Day']，然后再此的基础之上再进行 loc['2019-07-01']操作，当然还有更加方便的步骤，代码如下

df.loc[('London', '2019-07-01'), 'Day']

output

Weather               Shower
Wind               SW 16 mph
Max Temperature           28
Name: 2019-07-01, dtype: object

除此之外我们要是想看一下伦敦2019年7月1日和7月2日两天白天的天气情况，就可以这么来做

df.loc[
    ('London' , ['2019-07-01','2019-07-02'] ) ,
    'Day'
]

output

在此基础之上，我们想要看天气和风速这两列，我们也可以单独摘出来，代码如下

df.loc[
    'London' ,
    ('Day', ['Weather', 'Wind'])
]

output

按照范围来筛选数据

对于第一层级的索引而言，我们同样还是调用 loc方法来实现

df.loc[
    'Cambridge':'Oxford',
    'Day'
]

output

但是对于第二层级的索引，要是用同样的方式来用就会报错，

df.loc[
    ('London', '2019-07-01': '2019-07-03'),
    'Day'
]

output

SyntaxError: invalid syntax (<ipython-input-22-176180497f92>, line 3)

正确的写法代码如下

df.loc[
    ('London','2019-07-01'):('London','2019-07-03'),
    'Day'
]

output

筛选出所有全部的内容

对于单层索引而言，我们通过 :来筛选出所有的内容，但是在多层级的索引上面则并不适用，


df.loc[
    ('London', :),
    'Day'
]

df.loc[
    (: , '2019-07-04'),
    'Day'
]

正确的做法如下所示


df.loc[
    ('London', slice(None)),
    'Day'
]

output


df.loc[
    (slice(None) , '2019-07-04'),
    'Day'
]

output

当然这里还有更加简便的方法，我们通过调用 pandas当中 IndexSlice函数来实现，代码如下

from pandas import IndexSlice as idx
df.loc[
    idx[: , '2019-07-04'],
    'Day'
]

output

又或者是

rows = idx[: , '2019-07-01']
cols = idx['Day' , ['Max Temperature','Weather']]
df.loc[rows, cols]

output

`xs()` 方法的调用

对于多层级索引的数据集而言，调用 xs()方法能够更加方便地进行数据的筛选，例如我们想要筛选出日期是2019年7月4日的所有数据，代码如下

df.xs('2019-07-04', level='Date')

output

我们需要在 level参数上指定是哪个标签，例如我们想要筛选出伦敦2019年7月4日全天的天气情况，代码如下

df.xs(('London', '2019-07-04'), level=['City','Date'])

output

最后 xs方法可以和上面提到的 IndexSlice函数联用，针对多层级的数据集来进行数据的筛选，例如我们想要筛选出2019年7月2日至7月4日，伦敦全天的天气状况，代码如下

rows= (
    idx['2019-07-02':'2019-07-04'],
    'London'
)
df.xs(
    rows ,
    level = ['Date','City']
)

output

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过 2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号： dkl88191，备注：来自CSDN
方式③、微信搜索公众号： Python学习与数据挖掘，后台回复：加群

Original: https://blog.csdn.net/weixin_38037405/article/details/123477652
Author: 我爱Python数据挖掘
Title: Pandas 多层级索引 Python 数据处理案例指南

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739145/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用python演绎神奇的生命游戏，在游戏中学习numpy和matplotlib动画

在一个二维网格中，假定每一个方格代表一个细胞，每个细胞有存活和死亡两种状态，其初始生存状态随机确定。每隔一段时间检查一次细胞的生存状态，每个细胞的生存状态由其周围的8个细胞的生存状…

Python 2023年8月31日
0060
python格式化字符串

目录格式化字符串是什么？ 1.使用占位符格式化字符串：占位符：例子：占位符%s、%c、%%的使用：占位符%d、%o、%x的使用：占位符 %f、%e的使用： 2.使用fo…

Python 2023年8月2日
0040
前端面试八股文（超详细）

JavaScript \1. Promise 的理解 Promise 是一种为了避免回调地狱的异步解决方案 2. Promise 是一种状态机： pending（进行中）、fulf…

Python 2023年10月11日
0051
MAUI 初体验联合 WinForm 让家里废弃的手机当做电脑副品用起来

软件效果图软件架构草图效果解释：运行 winform 端后使用 ctrl+c 先复制任何词语，然后ctrl+空格就可以将翻译结果显示在安卓，IOS，windows 甚至 …

Python 2023年10月16日
0042
人工智能如何用于静态生物特征验证

💂 个人网站:【海拥】【摸鱼小游戏】【开发文档导航】 🤟 风趣幽默的人工智能学习网站：👉人工智能 💅 想寻找共同学习交流的小伙伴，请点击【全栈技术交流群】 *💬 免费且实用…

Python 2023年11月5日
0046
python安装scrapy报错：(ImportError: DLL load faile:找不到指定的程序)的解决办法

1Windows系统python中安装scrapy出现以下报错信息： from cryptography. hazmat. bindings._ openssl import ff…

Python 2023年10月4日
0043
python中的公共操作与列表推导式

1.公共操作 + 合并将两个相同类型序列进行连接字符串、列表、元组 l1 = [1, 2, 3] l2 = [4, 5, 6] print(l1+l2) # [1, 2, 3…

Python 2023年10月30日
0031
200行Python代码实现B站UP主小助手（显示视频播放数、粉丝数等）

功能点显示日期时间显示树莓派当前局域网IP 显示当前UP主粉丝数显示B站未读消息显示B站视频总计播放数显示视频总计获赞数显示总计获得充电次数显示直播间人气值显示直播…

Python 2023年9月18日
0080
windows使用pip安装Scrapy

一、下载Twisted插件下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 点击下载地址后按ctrl+f组合键，搜…

Python 2023年10月4日
0039
不止短信教你用 Python 发送告警通知到微信

常见的告警方式有：邮件，电话，短信，微信。短信和电话，通常是收费的（若你有不收费的，可以评论分享一下），而邮件又不是那么及时，因此最后我选择微信通知。这里说的微信，是企业微信，…

Python 2023年8月12日
0040
Ubuntu20.04下matplotlib如何显示中文标签

1.下载中文字体并解压字体下载2.解压后打开HeiSim，可看到SimHei.ttf文件，在SimHei.ttf目录下打开终端3.在终端输入 sudo cp ./SimHei.t…

Python 2023年9月1日
0033
将标题文字为方框边框_一个plt.title设置标题，我有十种玩法！

在Matplotlib中设置标题可以用 plt.title()为当前Figure添加标题或者 ax.set_title()对指定的axes添加标题(关于plt和ax的区别可以看对应…

Python 2023年9月4日
0071
ASR基础知识整理

Coding Poineer Coding Poineer Coding Poineer Coding Poineer Coding Poineer Coding Poineer …

Python 2023年6月10日
0065
python处理多个excel数据_python 读取多个excel数据写入同一个excel中

一、将excel数据源存储到同一个excel的不同sheet 中例如A.xlsx 中有test1,test2 两张sheet。B.xlsx中有test3 一张sheet，存储到C…

Python 2023年8月19日
0068
SMPL模型

SMPL的python版本在官方网站有两个，分别是SMPL_python_v.1.0.0，SMPL_python_v.1.1.0。区别是：SMPL_python_v.1.0.0不完…

Python 2023年8月28日
0063
python –xarray绘图

文章目录 * – 基础绘图：.plot() – 进阶绘图–axes 首先导入数据以及相关库： import xarray as xr impor…

Python 2023年9月1日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas 多层级索引 Python 数据处理案例指南

; 导入数据

第一层级的数据筛选

多层级索引的数据筛选

按照范围来筛选数据

筛选出所有全部的内容

xs() 方法的调用

推荐文章

技术交流

大家都在看

`xs()` 方法的调用