Pandas(十四)–索引操作

2023年7月7日上午11:13 • 人工智能 • 阅读 59

通过 索引(Index)可以从 DataFame 中选择特定的行数和列数，这种选择数据的方式称为”子集选择”。在 Pandas 中，索引值也被称为标签（label），它在 Jupyter 笔记本中以粗体字进行显示。索引可以加快数据访问的速度，它就好比数据的书签，通过它可以实现数据的快速查找。

创建索引

通过示例对 index 索引做进一步讲解。下面创建一个带有 index 索引的数据，并使用 read_csv() 这些读取数据：

输出结果：

ID   Name  Age      City  Salary
0   1   Jack   28   Beijing   22000
1   2   Lida   32  Shanghai   19000
2   3   John   43  Shenzhen   12000
3   4  Helen   38  Hengshui    3500

通过列索引（标签）读取多列数据。

输出结果：

City  Salary
Name
Jack    Beijing   22000
Lida   Shanghai   19000
John   Shenzhen   12000
Helen  Hengshui    3500

再看一组简单的示例：

输出结果：

Salary
Name
Jack    22000
Lida    19000
John    12000
Helen    3500

设置索引

set_index()将已存在的列标签设置为 DataFrame 行索引。除了可以添加索引外，也可以替换已经存在的索引。比如您也可以把 Series 或者一个 DataFrme 设置成另一个 DataFrame 的索引：

输出结果：

Year  Leaves
Name
Parker   2011      10
Terry    2009      15
Smith    2014       9
William  2010       4

重置索引

您可以使用 reset_index() 来恢复 初始行索引，示例如下：

输出结果：

重置前：
     name    Language
1  William        C
2    Smith     Java
3   Parker   Python
4    Phill      NaN
重置后：
   index     name    Language
0      1  William        C
1      2    Smith     Java
2      3   Parker   Python
3      4    Phill      NaN

分层索引（Multiple Index）指的是在一个轴上拥有多个（即两个以上）索引层数，这可以用低维度的结构来处理 更高维的数据。当要处理三维及以上的高维数据时，就需要用到分层索引。分层索引的目的是用低维度的结构（Series 或者 DataFrame）更好地处理高维数据。分层索引的存在使得分析高维数据变得简单，让抽象的高维数据变得容易理解。

Pandas 可以通过 MultiIndex() 方法来创建分层索引对象，该对象本质上是一个元组序列，序列中每一个元组都是唯一的。下面介绍几种创建分层索引的方式。

创建分层索引

1) 直接创建

通过 MultiIndex() 的 levels 参数能够直接创建分层索引，示例如下：

输出结果：

[[nan, 2, NaT, None, 5]]

MultiIndex([(  5,),
            (nan,),
            (  2,),
            (nan,),
            (nan,),
            (  5,)],
           )

上述代码中， levels 参数用来创建层级索引，这里只有一层，该层的索引值分别是 np.nan, 2, NaT, None, 5； codes 表示按参数值对层级索引值排序（与 levels 中的值相对应），也就说 codes 中数值是 leves 序列的下标索引。需要注意，这里的 -1 代表 NaN。

2) 从元组创建

通过 from_tuples()实现从元组创建分层索引。

然后使用 tuples 创建分层索引，如下所示：

输出结果：

MultiIndex([(  'it', 'one'),
            (  'it', 'two'),
            (  'of', 'one'),
            (  'of', 'two'),
            ( 'for', 'one'),
            ( 'for', 'two'),
            ('then', 'one'),
            ('then', 'two')],
           names=['first', 'second'])

3) 从DataFrame对象创建

通过 from_frame()创建分层索引，示例如下：

输出结果：

first  second
bar    one       1.151928
       two      -0.694435
foo    one      -1.701611
       two      -0.486157
dtype: float64

4) 笛卡尔积创建

笛卡尔积（又称直积）是数学运算的一种方式，使用 from_product() 笛卡尔积创建分层索引。

输出结果：

number  language
0       Python     -0.319739
        Java        1.599170
1       Python     -0.010520
        Java        0.262068
2       Python     -0.124177
        Java        0.315120
dtype: float64

5) 数组创建分层索引

通过 from_array() 方法，同样可以创建分层索引。示例如下：

输出结果：

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

应用分层索引

下面示例如何在 DataFrame 中应用分层索引。把已经创建的分层索引应用到 DataFrame 中：

import pandas as pd
import numpy as np
#&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x6570;&#x7EC4;
arrays = [[0, 0, 1, 1], ['A', 'B', 'A', 'B']]
#&#xA0;&#x7B2C;&#x4E00;&#x5C42;&#x4E3A; number&#xFF0C;&#x8BE5;&#x5C42;&#x6709; 0&#x3001;1 &#x4E24;&#x4E2A;&#x5143;&#x7D20;&#xFF0C;&#x7B2C;&#x4E8C;&#x5C42;&#x4E3A; letter&#xFF0C;&#x6709;&#x4E24;&#x4E2A;&#x5B57;&#x6BCD; A &#x548C; B&#x3002;
index=pd.MultiIndex.from_arrays(arrays, names=('number', 'letter'))
#&#x5728;&#x884C;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;&#x5E94;&#x7528;&#x5206;&#x5C42;&#x7D22;&#x5F15;
df=pd.DataFrame([{'a':11, 'b':22}], index=index)
print(df)

&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
                a   b
number letter
0      A       11  22
       B       11  22
1      A       11  22
       B       11  22

通过 set_index()可以将 DataFrame 的 已有列的标索设置为 index 行索引，示例如下：

import pandas as pd
df= pd.DataFrame({'a': range(5), 'b': range(5, 0, -1),
'c': ['one', 'one', 'one', 'two', 'two'],
'd': [0, 1, 2, 0, 1]})
print(df)
&#x8F6C;&#x6362;&#x524D;&#xFF1A;
   a  b    c  d
0  0  5  one  0
1  1  4  one  1
2  2  3  one  2
3  3  2  two  0
4  4  1  two  1

df1=df.set_index(['a','d'],drop=False)
print(df1)
&#x8F6C;&#x6362;&#x540E;&#xFF1A;
     a  b    c  d
a d
0 0  0  5  one  0
1 1  1  4  one  1
2 2  2  3  one  2
3 0  3  2  two  0
4 1  4  1  two  1

df1=df.set_index(['a','d'],drop=False, append=Ture)
print(df2)
&#x5E26;append&#x53C2;&#x6570;&#xFF1A;
&#xA0;&#xA0;&#xA0;&#xA0;   a&#xA0; b&#xA0;&#xA0;&#xA0; c&#xA0; d
  a d&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;
0 0 0&#xA0; 0&#xA0; 5&#xA0; one&#xA0; 0
1 1 1&#xA0; 1&#xA0; 4&#xA0; one&#xA0; 1
2 2 2&#xA0; 2&#xA0; 3&#xA0; one&#xA0; 2
3 3 0&#xA0; 3&#xA0; 2&#xA0; two&#xA0; 0
4 4 1&#xA0; 4&#xA0; 1&#xA0; two&#xA0; 1

通过 set_index() 将列索引转换为了分层行索引，其中 drop=False 表示更新索引的同时，不删除 a、d 列；同时，该函数还提供了一个 append = Ture 参数表示不添加默认的整数索引值（0到4）

分层索引切片取值

1) 分层行索引操作

import pandas as pd
#&#x6784;&#x5EFA;&#x591A;&#x5C42;&#x7D22;&#x5F15;
tuple = [('&#x6E56;&#x4EBA;',2008),('&#x6B65;&#x884C;&#x8005;',2008),('&#x6E56;&#x4EBA;',2007),('&#x51EF;&#x5C14;&#x7279;&#x4EBA;',2007), ('&#x7BEE;&#x7F51;',2007),('&#x70ED;&#x706B;',2008)]
salary = [10000,20000,11000,30000,19000,22000]
#&#x5176;&#x6B21;&#x5E94;&#x7528;&#x4E8E;DataFrame
index = pd.MultiIndex.from_tuples(tuple)
s = pd.Series(salary, index=index)
print(s)
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
&#x6E56;&#x4EBA;    2008    10000
&#x6B65;&#x884C;&#x8005;   2008    20000
&#x6E56;&#x4EBA;    2007    11000
&#x51EF;&#x5C14;&#x7279;&#x4EBA;  2007    30000
&#x7BEE;&#x7F51;    2007    19000
&#x70ED;&#x706B;    2008    22000
dtype: int64

#&#x5207;&#x7247;&#x53D6;&#x503C;
print(s['&#x6E56;&#x4EBA;',2007])
&#x8F93;&#x51FA;&#x6E56;&#x4EBA;&#x961F;2007&#x5E74;&#x5DE5;&#x8D44;&#xFF1A;
11000

print(s['&#x6E56;&#x4EBA;'])
&#x8F93;&#x51FA;&#x6E56;&#x4EBA;&#x961F;&#x7684;&#x5DE5;&#x8D44;&#xFF1A;
2008    10000
2007    11000
dtype: int64

print(s[:,2008])
&#x8F93;&#x51FA;2008&#x5E74;&#x6240;&#x6709;&#x961F;&#x4F0D;&#x5DE5;&#x8D44;&#xFF1A;
&#x6E56;&#x4EBA;     10000
&#x6B65;&#x884C;&#x8005;    20000
&#x70ED;&#x706B;     22000
dtype: int64

#&#x6BD4;&#x8F83;value
print(s[s<=20000]) 2007 2008 10000 11000 19000 20000 输出小于等于20000的年份和队伍： 湖人 步行者 篮网 dtype: int64< code></=20000])>

2) 行、列多层索引操作

下面看一种更加复杂的情况，就是行、列同时存在多层索引时候，应该如何通过切片取值：

df = pd.DataFrame(np.arange(1,13).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=[['Jack', 'Jack', 'Helen'],['Python', 'Java', 'Python']])
#&#x9009;&#x62E9;&#x540C;&#x4E00;&#x5C42;&#x7EA7;&#x7684;&#x7D22;&#x5F15;,&#x5207;&#x8BB0;&#x4E0D;&#x8981;&#x5199;&#x6210;['Jack','Helen']
print(df[['Jack','Helen']])
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
      Jack       Helen
    Python Java Python
a 1      1    2      3
  2      4    5      6
b 1      7    8      9
  2     10   11     12

#&#x5728;&#x4E0D;&#x540C;&#x5C42;&#x7EA7;&#x5206;&#x522B;&#x9009;&#x62E9;&#x7D22;&#x5F15;
print(df['Jack','Python'])
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
a  1     1
   2     4
b  1     7
   2    10
Name: (Jack, Python), dtype: int32

#iloc&#x6574;&#x6570;&#x7D22;&#x5F15;
print(df.iloc[:3,:2])
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
      Jack
    Python Java
a 1      1    2
  2      4    5
b 1      7    8

#loc&#x5217;&#x6807;&#x7B7E;&#x7D22;&#x5F15;
print(df.loc[:,('Helen','Python')])
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
a  1     3
   2     6
b  1     9
   2    12
Name: (Helen, Python), dtype: int32

聚合函数应用

通过给 level传递参数值，您可以指定在哪个层上进行聚合操作，比如求和、求均值等：

import pandas as pd
df = pd.DataFrame(np.arange(1,13).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=[['Jack', 'Jack', 'Helen'], ['Python', 'Java', 'Python']])
#&#x7B2C;&#x4E00;&#x6B65;&#xFF0C;&#x7ED9;&#x884C;&#x5217;&#x5C42;&#x7EA7;&#x8D77;&#x540D;&#x5B57;
df.index.names=['key1','key2']
df.columns.names=['name','course']

print(df.sum(level='key2'))
&#x6216;&#x8005;print(df.groupby(level='key2').sum())
#&#x5BF9;key2&#x5C42;1/2&#x5BF9;&#x5E94;&#x7684;&#x5143;&#x7D20;&#x503C;&#x6C42;&#x548C;
name     Jack       Helen
course Python Java Python
key2
1           8   10     12
2          14   16     18

print(df.mean(level="course",axis=1))
&#x6216;&#x8005;print(df.groupby(level="course",axis=1).mean())
#axis=1&#x6CBF;&#x7740;&#x6C34;&#x5E73;&#x65B9;&#x5411;&#x6C42;&#x5747;&#x503C;
course     Python  Java
key1 key2
a    1          2     2
     2          5     5
b    1          8     8
     2         11    11

局部索引

局部索引可以理解为：从分层索引中选择特定索引层的一种方法。比如在下列数据中，选择所有 'y'索引指定的数据，示例如下：

import pandas as pd
info = pd.Series([11, 14, 17, 24, 19, 32, 34, 27], index = [['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y'], ['obj1', 'obj2', 'obj3', 'obj4', 'obj1', 'obj2', 'obj3', 'obj4']])
info['y']
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
obj1    19
obj2    32
obj3    34
obj4    27
dtype: int64

当然也可以基于内层索引选择数据。

行索引层转换为列索引

unstack()用来将行索引转变成列索引，相当于转置操作。通过 unstack() 可以将 Series（一维序列）转变为 DataFrame（二维序列）。示例如下：

import pandas as pd
info = pd.Series([11, 14, 17, 24, 19, 32, 34, 27], index = [['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y'], ['obj1', 'obj2', 'obj3', 'obj4', 'obj1', 'obj2', 'obj3', 'obj4']])
#&#x884C;&#x7D22;&#x5F15;&#x6807;&#x7B7E;&#x9ED8;&#x8BA4;&#x662F;&#x6700;&#x5916;&#x5C42;&#x7684; x, y
#0&#x4EE3;&#x8868;&#x7B2C;&#x4E00;&#x5C42;&#x7D22;&#x5F15;&#xFF0C;&#x800C;1&#x4EE3;&#x8868;&#x7B2C;&#x4E8C;&#x5C42;
print(info.unstack(0))
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
x y
obj1 11 19
obj2 14 32
obj3 17 34
obj4 24 27

unstack(0) &#x8868;&#x793A;&#x9009;&#x62E9;&#x7B2C;&#x4E00;&#x5C42;&#x7D22;&#x5F15;&#x4F5C;&#x4E3A;&#x5217;&#xFF0C;unstack(1) &#x8868;&#x793A;&#x9009;&#x62E9;&#x7B2C;&#x4E8C;&#x5C42;&#xFF1A;
print(info.unstack(1))
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
   obj1  obj2  obj3  obj4
x    11    14    17    24
y    19    32    34    27

列索引实现分层

列索引存在于 DataFrame 结构中，下面创建一个 DataFrame 来演示列索引如何实现分层。

import numpy as np
info = pd.DataFrame(np.arange(12).reshape(4, 3), index = [['a', 'a', 'b', 'b'], ['one', 'two', 'three', 'four']], columns = [['num1', 'num2', 'num3'], ['x', 'y', 'x']] )
print(info)
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
        num1 num2 num3
           x    y    x
a one      0    1    2
  two      3    4    5
b three    6    7    8
  four     9   10   11

&#x67E5;&#x770B;&#x6240;&#x6709;&#x5217;&#x7D22;&#x5F15;&#xFF1A;
info.columns
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
MultiIndex([('num1', 'x'),
            ('num2', 'y'),
            ('num3', 'x')],)

交换层和层排序

1) 交换层

通过 swaplevel() 方法轻松地实现索引层交换，示例如下：

import pandas as pd
frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=[['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
#&#x8BBE;&#x7F6E;index&#x7684;levels&#x540D;&#x79F0;
frame.index.names = ['key1', 'key2']
#&#x8BBE;&#x7F6E;columns&#x7684;levels&#x540D;&#x79F0;
frame.columns.names = ['state','color']

#&#x4EA4;&#x6362;key1&#x5C42;&#x4E0E;key&#x5C42;
frame.swaplevel('key1','key2')
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
state      Ohio     Colorado
color     Green Red    Green
key2 key1
1    a        0   1        2
2    a        3   4        5
1    b        6   7        8
2    b        9  10       11

2) 层排序

通过 sort_index() 的 level参数实现对层的排序。下面示例，按”key1″的字母顺序重新排序。

print(frame.sort_index(level='key1'))
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#xFF1A;
state      Ohio     Colorado
color     Green Red    Green
key1 key2
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11

Original: https://blog.csdn.net/weixin_43145427/article/details/124625839
Author: hanscal
Title: Pandas(十四)–索引操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676119/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenSMILE特征提取分类

openSMILE的输入输出格式① 文件输入格式可以是：• RIFF-WAVE (PCM) (for MP3, MP4, OGG, etc. a converter needs t…

人工智能 2023年7月1日
0095
pytorch模型预测

1.数据集 pytorch有个快速构造数据集的方法但是你的目录结构必须是 image_datasets = {x: datasets.ImageFolder(os.path.jo…

人工智能 2023年7月22日
00100
Python深度学习TensorFlow框架day2

tensorflow框架2 摘要：数据的IO操作，神经网络基础三种读取操作占位符 QueueRunner 通用文件读取流程图片、二进制、TFRecords import te…

人工智能 2023年5月25日
0084
Tensorflow安装后出现的问题

在Tensorflow安装完成后，为了检查是否安装成功时出现以下问题 (tf_gpu) C:\Users\1789834715>pythonPython 3.9.7 (def…

人工智能 2023年7月27日
0075
多模态情感分析论文解读——CTFN模型

论文：CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation…

人工智能 2023年6月17日
0074
Eviews软件工具——线性回归模型（超详细版本）

简单线性回归模型打开Eviews软件，可以选择建立一个new workfile，也可以选择打开一个已存在的workfile。选择数据类型： Unstructured/Undat…

人工智能 2023年6月16日
00154
浅识机器学习

举个栗子，判断色泽青绿、根蒂蜷缩、敲声浊晌的西瓜是不是好瓜？所处情景判断主体判断依据判断结果现实世界人积累的经验是计算机世界机器学习大量经验数据→产生模型是机器学习所研究的…

人工智能 2023年7月17日
0049
理解Python中列表，元组，字典，集合里的一些坑

列表对象不能越界访问越界访问 In [1]: list = [1,2,3] In [2]: list[4] IndexError: list index out of range…

人工智能 2023年6月4日
0075
windows 11 搭建 TensorFlow GPU 开发环境【RTX 3060】：3 — 基于WSL2 本地方式的jupyter notebook使用

文章大纲基本环境构建 * CUDA 本地环境构建 conda jupyter notebook tensorflow-gpu 环境构建 NVIDIA 命令测试效果版本对应 *…

人工智能 2023年5月25日
00111
pandas学习笔记（一）：数据读入读出基本操作

import pandas as pd pd.options.display.max_rows = 10 pd.__version__ ‘1.1.0’ 1.1新建数据框变量列就是…

人工智能 2023年7月7日
0068
Python-Matplotlib可视化（1）——一文详解常见统计图的绘制

Python-Matplotlib可视化（1）——一文详解常见统计图的绘制 * – matplotlib库 – 曲线图 – + 曲线图的绘制 +…

人工智能 2023年7月15日
0076
基于skimage的数字图像处理（一）——基础

数字图像处理基础前言一、skimage是什么？ * 1.模块内容 2.安装skimage包二、图片显示三、图片的基本属性信息四、图像通道总结前言简单了解数字图像处…

人工智能 2023年7月6日
0077
Linux 下的 /proc 目录介绍

Linux 下的 /proc 目录介绍目录 * – Linux 下的 /proc 目录介绍 – + * 1、/proc 目录包含的文件及其作用 * 2、/…

人工智能 2023年6月27日
00110
知识图谱推理论文阅读 Learning to Walk across Time for Interpretable Temporal Knowledge Graph

来源：2021 KDD 模型代码： https://github.com/sharkmir1/T-GAP 主要贡献 1、提出了一种新的GNN编码器能够从时序知识图谱中有效地捕捉查询…

人工智能 2023年5月31日
0063
【UNet3+】遥感影像分割

文章目录 1. 项目准备 * 1.1. 问题导入 1.2. 数据集简介 2. UNet3+模型 * 2.1. 背景介绍 2.2. 模型介绍 – (1) 全尺度跳跃连接 …

人工智能 2023年5月26日
00113
数据分析案例-二手车价格预测

目录数据获取加载数据数据预处理数据分析特征工程建模数据获取我们利用scrapy爬虫框架对58同城上海二手车数据进行抓取，部分数据如下：加载数据 #数据分析及可视化…

人工智能 2023年7月17日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas(十四)–索引操作

创建索引

设置索引

重置索引

创建分层索引

应用分层索引

分层索引切片取值

聚合函数应用

局部索引

行索引层转换为列索引

列索引实现分层

交换层和层排序

大家都在看