Pandas 多层级索引 Python 数据处理案例指南

2023年6月11日下午1:22 • 人工智能 • 阅读 147

今天我们来聊一下 Pandas当中的数据集中带有多重索引的数据分析实战

通常我们接触比较多的是单层索引，而多级索引也就意味着数据集当中的行索引有多个层级，具体的如下图所示

; 导入数据

我们先导入数据与 pandas模块

import pandas as pd

df = pd.read_csv('dataset.csv')
df.head()

output

该数据集描述的是 英国部分城市在2019年7月1日至7月4日期间的全天天气状况，我们先来看一下当前的数据集的行索引有哪些？代码如下

df.index.names

output

FrozenList(['City', 'Date'])

数据集当中 City、 Date，这里的 City我们可以当作是 第一层级索引，而 Date则是 第二层级索引。

我们也可以通过调用 sort_index()方法来按照数据集的行索引来进行排序，代码如下

df_1 = df.sort_index()
df_1

output

要是我们想将这个多层索引去除掉，就调用 reset_index()方法，代码如下

df.reset_index()

下面我们就开始针对多层索引来对数据集进行一些分析的实战吧

第一层级的数据筛选

在 pandas当中数据筛选的方法，一般我们是调用 loc以及 iloc方法，同样地，在多层级索引的数据集当中数据的筛选也是调用该两种方法，例如筛选出伦敦白天的天气状况如何，代码如下

df_1.loc['London' , 'Day']

output

要是我们想针对所有的行，就可以这么来做

df_1.loc[:, 'Day']

output

同理针对所有的列，就可以这么来做

df_1.loc['London' , :]

output

多层级索引的数据筛选

要是我们想看伦敦2019年7月1日白天的天气状况，就可以这么来做

df.loc['London', 'Day'].loc['2019-07-01']

output

Weather               Shower
Wind               SW 16 mph
Max Temperature           28
Name: 2019-07-01, dtype: object

这里我们进行了两次数据筛选的操作，先是 df.loc['London', 'Day']，然后再此的基础之上再进行 loc['2019-07-01']操作，当然还有更加方便的步骤，代码如下

df.loc[('London', '2019-07-01'), 'Day']

output

Weather               Shower
Wind               SW 16 mph
Max Temperature           28
Name: 2019-07-01, dtype: object

除此之外我们要是想看一下伦敦2019年7月1日和7月2日两天白天的天气情况，就可以这么来做

df.loc[
    ('London' , ['2019-07-01','2019-07-02'] ) ,
    'Day'
]

output

在此基础之上，我们想要看天气和风速这两列，我们也可以单独摘出来，代码如下

df.loc[
    'London' ,
    ('Day', ['Weather', 'Wind'])
]

output

按照范围来筛选数据

对于第一层级的索引而言，我们同样还是调用 loc方法来实现

df.loc[
    'Cambridge':'Oxford',
    'Day'
]

output

但是对于第二层级的索引，要是用同样的方式来用就会报错，

df.loc[
    ('London', '2019-07-01': '2019-07-03'),
    'Day'
]

output

SyntaxError: invalid syntax (<ipython-input-22-176180497f92>, line 3)

正确的写法代码如下

df.loc[
    ('London','2019-07-01'):('London','2019-07-03'),
    'Day'
]

output

筛选出所有全部的内容

对于单层索引而言，我们通过 :来筛选出所有的内容，但是在多层级的索引上面则并不适用，


df.loc[
    ('London', :),
    'Day'
]

df.loc[
    (: , '2019-07-04'),
    'Day'
]

正确的做法如下所示


df.loc[
    ('London', slice(None)),
    'Day'
]

output


df.loc[
    (slice(None) , '2019-07-04'),
    'Day'
]

output

当然这里还有更加简便的方法，我们通过调用 pandas当中 IndexSlice函数来实现，代码如下

from pandas import IndexSlice as idx
df.loc[
    idx[: , '2019-07-04'],
    'Day'
]

output

又或者是

rows = idx[: , '2019-07-01']
cols = idx['Day' , ['Max Temperature','Weather']]
df.loc[rows, cols]

output

`xs()` 方法的调用

对于多层级索引的数据集而言，调用 xs()方法能够更加方便地进行数据的筛选，例如我们想要筛选出日期是2019年7月4日的所有数据，代码如下

df.xs('2019-07-04', level='Date')

output

我们需要在 level参数上指定是哪个标签，例如我们想要筛选出伦敦2019年7月4日全天的天气情况，代码如下

df.xs(('London', '2019-07-04'), level=['City','Date'])

output

最后 xs方法可以和上面提到的 IndexSlice函数联用，针对多层级的数据集来进行数据的筛选，例如我们想要筛选出2019年7月2日至7月4日，伦敦全天的天气状况，代码如下

rows= (
    idx['2019-07-02':'2019-07-04'],
    'London'
)
df.xs(
    rows ,
    level = ['Date','City']
)

output

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过 2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号： dkl88191，备注：来自CSDN
方式③、微信搜索公众号： Python学习与数据挖掘，后台回复：加群

Original: https://blog.csdn.net/weixin_38037405/article/details/123477652
Author: Love Python数据挖掘
Title: Pandas 多层级索引 Python 数据处理案例指南

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600139/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python深度学习11——Keras实现共享层模型（多输入多输出）

参考书目：陈允杰.TensorFlow与Keras——Python深度学习应用实战.北京:中国水利水电出版社,2021 本系列基本不讲数学原理，只从代码角度去让读者们利用最简洁的P…

人工智能 2023年6月16日
00105
注意力机制——Coordinate Attention

目录摘要 1 介绍 2 相关工作 2.1 Mobile Network 2.2 注意力机制 3 Coordinate Attention 3.1 Revisit SE Block…

人工智能 2023年6月17日
00107
Dlib库实现人脸关键点检测（Opencv实现）

文章目录 * – 1.dlib实现人脸实时检测 – 2.dlib采用检测人脸的68个关键点 – 3.相关文件的下载 – 4.代码实战…

人工智能 2023年7月19日
0089
数据统计分析（SPSS）【2】

1.以下哪个是常见的聚类分析方法？ A.层次聚类B.曲线估计聚类C.回归聚类D.以上都不对 2.已知一批独立随机样本服从正态分布，要检验这批随机样本的均值是否与某总体分布的均值相同…

人工智能 2023年5月31日
0095
算法存在冷启动问题，即对于新用户或新物品，算法无法准确地进行推荐。为了解决这个问题，常用的方法有基于内容的推荐和基于流行度的推荐等

1. 问题介绍在推荐系统中，算法存在一个常见的问题，即冷启动问题。这意味着对于新用户或新物品，推荐算法无法准确地进行个性化推荐。为了解决这个问题，常用的方法有基于内容的推荐和基于…

人工智能 2024年1月5日
0086
基于C++的OpenCV项目实战——零部件的自动光学检测

基于C++的OpenCV项目实战——零部件的自动光学检测一、背景首先任务背景是AOI（自动光学检测）最重要的目的在于：将前景和物体进行分割与分类；场景示意图：需要注意，在…

人工智能 2023年7月18日
00107
论文笔记：Representation Learning with Contrastive Predictive Coding

对于无监督学习来说，互信息是一个非常重要的指标，它衡量了两个随机变量之间的相关性。在无监督学习中，利用对互信息的优化，通常我们能够得到更加好的特征表示。要做什么特征抽取是无监督…

人工智能 2023年6月1日
0089
数据挖掘实验二：K-means算法及其应用（Python实现）

目录实验要求实验内容 * 实验背景介绍实现方法：实验结果实验要求掌握k-mean算法的原理。学会编写k-mean的程序实现和应用。理解和掌握通用框架的实现原则与技巧…

人工智能 2023年6月2日
00112
【HOLE】论文浅读：Holographic Embeddings of Knowledge Graphs

; HOLE Holographic Embeddings of Knowledge Graphs基于向量的循环相关任务提出全息嵌入(holographic embedding…

人工智能 2023年6月4日
00102
解决报错：sklearn.exceptions.NotFittedError: Vocabulary not fitted or provided

在使用sklearn进行自然语言处理的时候，经常遇到一些报错，类似”X has 69 features, but MLPClassifier is expecting …

人工智能 2023年6月16日
00129
视频转图像-cv2.VideoCapture()用法

用途：视频抽帧，视频图像化1、cap = cv2.VideoCapture(0)VideoCapture()中参数是0，表示打开笔记本的内置摄像头，参数是视频文件路径则打开如cap…

人工智能 2023年6月18日
00152
Android音乐播放器悬浮窗功能，亲测可用

最近公司要开发一项语音播报新闻的功能。要求是： 1.语音播报时有一个悬浮窗，能滑动，退出当前页面后能继续播放； 2.松手后滑向靠近的边；于是我临时学了Window，WindowM…

人工智能 2023年5月27日
00152
关于回归分析分类

目的：当需要用一个数学表达式（模型）表示多个因素（原因）与另外一个因素（因素）之间关系时，可选用回归分析法。应用：1）分析哪些自变量对因变量存在显著影响作用，R方值可以不要求大于…

人工智能 2023年7月2日
0093
win10跑深度学习程序无法调用gpu的问题（已解决）

win10跑深度学习真的是一言难尽，但是windows系统又使用的比较习惯，过去使用过ubuntu系统，里面写文档什么的确实不习惯，所以自己做的实验项目也主要是以win10为主工具…

人工智能 2023年6月16日
00103
老油条表示真干不过，部门新来的00后测试员已把我卷崩溃，想离职了…

在程序员职场上，什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事，我们可以帮他。是技术太强的人吗?也不是。技术很强的同事，可遇不可求，向他学习还来不及呢。真正让…

人工智能 2023年7月31日
0067
《Python实用爬虫案例》练习3：使用requests和re库进行微博关键词爬虫并保存转赞评数据

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0086

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Pandas 多层级索引 Python 数据处理案例指南

; 导入数据

第一层级的数据筛选

多层级索引的数据筛选

按照范围来筛选数据

筛选出所有全部的内容

xs() 方法的调用

推荐文章

技术交流

大家都在看

`xs()` 方法的调用