Pandas索引操作

2023年8月15日下午9:39 • Python • 阅读 46

Pandas中的索引操作非常灵活，功能非常强大。学会他的索引操作能帮助我们更好的处理数据。下面来对索引进行讲解。

一、索引类型：

不管是 Series还是 DataFrame，索引对象的类型都是 Index或者其子类。我们可以通过以下代码查看：

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(4,4))

print(type(df.index))
print(type(df.columns))

输出结果为：

RangeIndex(start=0, stop=4, step=1)
RangeIndex(start=0, stop=4, step=1)

可以看到行和列的类型，都是 RangeIndex类型。 RangeIndex属于 Index的子类。当然我们也可以直接通过显示创建 Index的方式，修改 df的 index和 columns，示例代码如下：

输出结果为：

abcdA0.2749630.0844070.1578350.797312B0.0908300.5122630.4193730.466661C0.9030840.3676360.2197190.258690D0.0092050.6316680.4954820.316959

常用的 Index类型还有以下。

区间索引，用法与Python中的 range函数类似，可以指定 start、 stop、 step参数。示例代码如下：

df.index = pd.RangeIndex(start=1, stop=9, step=2)

数值类型的索引，包括有浮点类型的 Float64Index、整形的 Int64Index、无符号整形的 UInt64Index、序列类型的 RangeIndex。他们的用法如下：

&#x6D6E;&#x70B9;&#x7C7B;&#x578B;
>>> pd.Float64Index([1,2,3,4])
Float64Index([1.0, 2.0, 3.0, 4.0], dtype="float64")

&#x6574;&#x6570;
>>> pd.Int64Index([1,2,3,4])
Int64Index([1, 2, 3, 4], dtype="int64")

&#x65E0;&#x7B26;&#x53F7;&#x6574;&#x6570;
>>> pd.UInt64Index([1,2,3,4])
UInt64Index([1, 2, 3, 4], dtype="uint64")

其中 Float64Index、 Int64Index、 UInt64Index在 Pandas 2.0版本中会被移除，统一使用 NumericIndex代替。

分类索引，索引的值只能是指定分类的。否则会用NAN来代替。示例代码如下：

>>> df.index = pd.CategoricalIndex(list("ABCD"),categories=list("ABCD"))

输出结果为：

    a        b        c        d
A    0.274963    0.084407    0.157835    0.797312
B    0.090830    0.512263    0.419373    0.466661
C    0.903084    0.367636    0.219719    0.258690
D    0.009205    0.631668    0.495482    0.316959

如果将索引值修改为 list("ABCE")，因为 E不在 categories参数指定的范围内，因此会用NAN来代替。

df.index = pd.CategoricalIndex(list("ABCE"),categories=list("ABCD"))

输出结果为：

    a        b        c        d
A    0.274963    0.084407    0.157835    0.797312
B    0.090830    0.512263    0.419373    0.466661
C    0.903084    0.367636    0.219719    0.258690
NaN    0.009205    0.631668    0.495482    0.316959

关于 CategoricalIndex的更多用法请参考官方文档：https://pandas.pydata.org/docs/reference/api/pandas.CategoricalIndex.html

间隔索引，索引的值为一个区间，可以通过 pd.interval_range函数创建。示例代码如下：

df.index = pd.interval_range(start=0, end=4)

输出结果为：

    a        b        c        d
(0, 1]    0.274963    0.084407    0.157835    0.797312
(1, 2]    0.090830    0.512263    0.419373    0.466661
(2, 3]    0.903084    0.367636    0.219719    0.258690
(3, 4]    0.009205    0.631668    0.495482    0.316959

interval_range函数的 start和 end参数，也可以为 datetime类型，并且还可以通过 periods参数指定区间的个数。示例代码如下：

from datetime import datetime
pd.interval_range(start=datetime(year=2022, month=1, day=1), end=datetime(year=2022, month=1, day=31), periods=4)

输出结果如下：

IntervalIndex([(2022-01-01, 2022-01-11], (2022-01-11, 2022-01-21], (2022-01-21, 2022-01-31]],
              closed='right',
              dtype='interval[datetime64[ns]]')

关于更多 interval_range和 IntervalIndex的用法，请参考官方文档：

日期时间索引，可以通过 pd.date_range函数创建。示例代码如下：

df.index = pd.date_range("2022-01-01", periods=4, freq="Y")

输出结果为：

        a            b            c            d
2022-12-31    0.274963    0.084407    0.157835    0.797312
2023-12-31    0.090830    0.512263    0.419373    0.466661
2024-12-31    0.903084    0.367636    0.219719    0.258690
2025-12-31    0.009205    0.631668    0.495482    0.316959

其中 freq参数默认是 D，也就是天，也可以选择日，时分秒等。以下链接可以查看所有的选择：https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases

关于 date_range与 DatetimeIndex的更多用法请参考官方文档：

时间间隔索引。可以通过 pd.TimedeltaIndex创建。示例代码如下：

df.index = pd.TimedeltaIndex([12,24,36,48], unit="m")

输出结果为：

        a            b            c            d
0 days 00:12:00    0.274963    0.084407    0.157835    0.797312
0 days 00:24:00    0.090830    0.512263    0.419373    0.466661
0 days 00:36:00    0.903084    0.367636    0.219719    0.258690
0 days 00:48:00    0.009205    0.631668    0.495482    0.316959

以上便是常用的索引类型。索引类型有一个特点， 一旦索引被创建后，将无法进行修改。 示例代码如下：

df.index[0] = 2

执行上述代码，将会抛出类似以下的错误信息：

TypeError: Index does not support mutable operations

关于 TimedeltaIndex的更多用法请参考官方文档：https://pandas.pydata.org/docs/reference/api/pandas.TimedeltaIndex.html

二、Series索引：

在创建 Series对象的时候，默认的索引值是0-N，我们也可以通过 index参数单独设置。示例代码如下：

series = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])
print(series.head())

输出结果为：

a    0
b    1
c    2
d    3
e    4
dtype: int64

因为在 Series中，只有一列，因此不存在列索引。行索引可以通过索引名称获取，也可以通过索引下标获取。示例代码如下：

series = pd.Series(range(0, 10, 2), index = ['a', 'b', 'c', 'd', 'e'])
print(series)
print(series['a'])
print(series[1])

输出结果为：

a    0
b    2
c    4
d    6
e    8
dtype: int64
0
2

如果索引是时间类型，则通过时间字符串即可获取到。示例代码如下：

series = pd.Series(range(2, 12, 2))
series.index = pd.date_range("2022-01-01", periods=5, freq="H")
print(series)
print(series["2022-01-01 00:00:00"])

输出结果如下：

2022-01-01 00:00:00     2
2022-01-01 01:00:00     4
2022-01-01 02:00:00     6
2022-01-01 03:00:00     8
2022-01-01 04:00:00    10
Freq: H, dtype: int64
2

索引也可以类似使用列表的切片方式来提取。切片可以是索引名称，也可以是序号。示例代码如下：

import pandas as pd

persons = ['&#x5F20;&#x4E09;','&#x674E;&#x56DB;','&#x738B;&#x4E94;']
series = pd.Series(persons, index=list("ABC"))

&#x6839;&#x636E;&#x7D22;&#x5F15;&#x540D;&#x5207;&#x7247;
print(series["A":"B"])
&#x6839;&#x636E;&#x7D22;&#x5F15;&#x5E8F;&#x53F7;&#x5207;&#x7247;
print(series[0:2])

以上两个输出结果都为：

A    &#x5F20;&#x4E09;
B    &#x674E;&#x56DB;
dtype: object

可以注意到，如果用索引名称进行切片，那么会包含终止索引的。

之前通过切片可以一次性获取多个索引的值，也可以直接指定具体几个位置的索引。示例代码如下：

import pandas as pd

persons = ['&#x5F20;&#x4E09;','&#x674E;&#x56DB;','&#x738B;&#x4E94;','&#x8D75;&#x516D;']
series = pd.Series(persons, index=list("ABCD"))

&#x83B7;&#x53D6;&#x7D22;&#x5F15;&#x4E0B;&#x6807;&#x4E3A;0&#x548C;2&#x7684;&#x5143;&#x7D20;
print(series[[0,2]])
&#x83B7;&#x53D6;&#x7D22;&#x5F15;&#x540D;&#x79F0;&#x4E3A;A&#x548C;C&#x7684;&#x5143;&#x7D20;
print(series[["A","C"]])

以上两个print语句的代码执行结果如下：

A    &#x5F20;&#x4E09;
C    &#x738B;&#x4E94;
dtype: object

布尔索引，就是提供条件，选择满足条件的值出来。示例代码如下：

import pandas as pd

persons = [18,20,39,45]
series = pd.Series(persons, index=['&#x5F20;&#x4E09;','&#x674E;&#x56DB;','&#x738B;&#x4E94;','&#x8D75;&#x516D;'])

&#x9009;&#x62E9;&#x503C;&#x5927;&#x4E8E;20&#x7684;&#x6240;&#x6709;&#x5143;&#x7D20;
print(series[series>20])

输出结果如下：

&#x738B;&#x4E94;    39
&#x8D75;&#x516D;    45
dtype: int64

三、DataFrame索引：

创建 DataFrame的时候，可以指定行索引和列索引，示例代码如下：

import numpy as np

df = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'], index=["11","22","33","44","55"])
print(df)

输出结果如下：

           a         b         c         d
11  0.963458  1.896413  0.042990 -0.582146
22 -1.764354 -1.529342 -0.430965 -0.215617
33  0.356744 -0.729001 -0.543932  0.852026
44  0.488031  0.459878 -0.577119  0.961865
55 -0.808639  0.925949 -1.333124  0.526995

下面我们将使用以上的 df对象进行讲解。

DataFrame中包含列索引，可以通过以下方式来获取列索引的数据：

&#x53EA;&#x83B7;&#x53D6;&#x4E00;&#x5217;&#xFF0C;&#x8FD4;&#x56DE;series&#x7C7B;&#x578B;
print(df["a"])
&#x83B7;&#x53D6;&#x591A;&#x5217;&#xFF0C;&#x8FD4;&#x56DE;DataFrame&#x7C7B;&#x578B;
print(df[["a", "b"]])

Series通过 []来获取行索引，而 DataFrame通过 []获取的是列索引。如果想要获取行索引，则需要通过 loc或者 iloc属性来实现， loc与 iloc的区别是， loc是通过名称获取，而 iloc是通过索引下标获取。

loc的除了能获取行索引外，还可以获取列索引。 .loc[row, col]的第二个参数即是获取列索引。示例代码如下：

&#x83B7;&#x53D6;&#x884C;&#x7D22;&#x5F15;&#x4E2D;11:33&#xFF0C;"a"&#x5217;&#x7684;&#x6570;&#x636E;
df.loc["11":"33", "a"]

&#x83B7;&#x53D6;&#x884C;&#x7D22;&#x5F15;&#x4E2D;"11"&#x548C;"a":"c"&#x5217;&#x7684;&#x6570;&#x636E;
df.loc["11", "a":"b"]

&#x83B7;&#x53D6;&#x884C;&#x7D22;&#x5F15;&#x4E2D;"11","33"&#xFF0C;&#x548C;&#x5217;&#x7D22;&#x5F15;&#x4E2D;"a","c"&#x5217;&#x7684;&#x6570;&#x636E;
df.loc[["11", "33"], ["a", "b"]]

&#x83B7;&#x53D6;"a"&#x5217;&#x7684;&#x6240;&#x6709;&#x6570;&#x636E;
df.loc[:,"a"]

&#x83B7;&#x53D6;'11'&#x884C;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x5217;
df.loc['11', :]

作用和 loc一样，区别是通过索引下标来实现的。示例代码如下：

&#x83B7;&#x53D6;&#x7B2C;1-2&#x884C;&#x7684;&#x6240;&#x6709;&#x5217;
df.iloc[1:3]

&#x83B7;&#x53D6;&#x7B2C;1&#xFF0C;3&#x884C;&#x7684;&#x6240;&#x6709;&#x5217;
df.iloc[[1,3]]

&#x83B7;&#x53D6;&#x7B2C;1&#x884C;&#x7684;&#x7B2C;1-3&#x5217;
df.iloc[1, 1:4]

四、重置索引

在 Pandas中重置索引有三种方法，分别是 set_index、 reset_index以及 reindex以及直接修改 index属性。我们使用以下测试数据来作为讲解。

df = pd.DataFrame({'month': [1, 4, 7, 10],
                    'year': [2012, 2014, 2013, 2014],
                    'sale':[55, 40, 84, 31]})

输出结果如下：

monthyearsale012012551420144027201384310201431

如果在想使用某列作为 DataFrame的索引，那么可以使用 set_index(keys, drop=True)来实现。其中 keys是用于设置索引列的名称或者列表， drop代表是否要删除作为索引的列。 这个方法不会修改原始DataFrame对象。 示例代码如下：

df.set_index("month")

输出结果如下：

    year    sale
month
1   2012    55
4   2014    40
7   2013    84
10  2014    31

应用场景： 需要将 DataFrame中某列或多列设置为索引的情况下使用。

重新设置新的下标索引。使用 reset_index(drop=False)来实现。 drop代表是否删除原始索引。 这个方法不会修改原始DataFrame对象。 示例代码如下：

df.reset_index()

输出结果如下：

    month   year    sale
0   1   2012    55
1   4   2014    40
2   7   2013    84
3   10  2014    31

应用场景： 重新生成新的下标索引。

在即不使用原有列作为索引，以及不使用新的下标索引的时候。可以使用 reindex重新指定新的索引。 这个方法不会修改原始DataFrame对象。 使用 reindex有以下特点。

示例代码如下：

1. &#x6DFB;&#x52A0;&#x65B0;&#x7684;&#x7D22;&#x5F15;
df.reindex([0,1,2,3,4])

2. &#x5220;&#x9664;&#x67D0;&#x4E2A;&#x7D22;&#x5F15;&#x7684;&#x884C;
df.reindex([0,2,3])

3. &#x4FEE;&#x6539;&#x7D22;&#x5F15;&#x987A;&#x5E8F;
df.reindex([2,3,1,0])

应用场景： 设置新的索引、修改索引顺序、删除某些索引。

直接修改 index属性也可以实现修改索引的目的，但是他有一个限制，就是新索引的数量，必须和原索引数量一致，否则会报错。 这个方法会修改原始DataFrame对象。 示例代码如下：

df.index = ['a', 'b', 'c', 'd' ]

还有一个需要注意的是，这种方法会直接修改原始 DataFrame对象。

应用场景： 需要修改原始 DataFrame对象的索引值。

Original: https://blog.csdn.net/qq_41404557/article/details/125898442
Author: Begin to change
Title: Pandas索引操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/750547/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Tushare + bacaktrader的多组合量化回测

首先确定项目目的：基于Tushare建立一个多组合的量化策略。策略：1.趋势+择时算法：选择SH300每月累积涨幅排名靠前的10只股票；然后择时，计算在金叉，死叉点进行买卖。…

Python 2023年8月20日
0037
Scrapy 爬虫框架学习 DAY2

昨天我们初识Scrapy爬虫框架，今天来具体聊聊爬虫的具体过程。我们按照步骤来一一描述： 1、发送请求我们需要对我们要爬的第一个URL发送我们的请求，以获取其返回的响应。在这个…

Python 2023年10月6日
0065
如何mock返回数据结果

目的：学习如何mock返回数据结果场景：前端完成，后端接口还没有完成的时候，可以模拟返回数据，或者需要模拟第三方支付接口的时候方法一：通过fiddler、charles抓包工具…

Python 2023年8月14日
00399
pytest测试框架搭建

文章目录一、pytest是什么？二、pytest的特点三、pytest下载安装四、pytest的配置五、pytest约束规则六、编写脚本七、pytest的运行方式 *…

Python 2023年9月10日
0063
from mxnet import np，报错提示error: legacy-install-failure× Encountered error while trying to install

1、pip install mxnet，失败，提示： No module named ‘numpy.distutils._msvccompiler’ in numpy.distut…

Python 2023年10月27日
0025
使用 python 的单人AI 扫雷游戏

AI玩扫雷很高兴又见面了！😊 直接跳到末尾获取完整源码扫雷是一款单人益智游戏，相信大部分人都在以前上微机课的时候玩过。游戏的目标是借助每个区域中相邻地雷数量的线索，清除包含隐…

Python 2023年9月22日
0043
Python 字符串应用详解（全网最详）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月2日
0040
还没学完《深入剖析Kubernetes》

容器的兴起容器是什么容器其实是一种沙盒技术。顾名思义，沙盒就是能够像一个集装箱一样，把你的应用”装”起来的技术。容器是特殊的进程如何让进程变得特殊—…

Python 2023年8月12日
0071
DiskGenius磁盘分区软件使用教程，磁盘扩容无损备份

前几天，因为我的笔记本电脑C盘D盘全红了，趁着双11固态降价，赶紧买了一张三星980 500g 给我的拯救者插上了，加上原来的500g，总共1T,已经够用了。不得不说拯救者系列预…

Python 2023年10月16日
0054
OpenCV-Python视频分析（移动物体检测，物体追踪）

1.概述该文章介绍OpenCV-Python中关于视频分析的两个主要内容，分别为： 🐟背景差分法移动物体检测 🐟Meanshift和Camshift算法物体追踪 PS：视频分析还…

Python 2023年8月2日
0085
Python 玩转数据 16 – Pandas 数据处理追加 df.append()

引言本文主要介绍 pandas 数据追加 df.append()，更多 Python 进阶系列文章，请参考 Python 进阶学习玩转数据系列内容提要：df1.append(…

Python 2023年8月18日
0077
Python爬虫+flask框架+数据库ORM+数据分析+前端三件套

Pyu可视化爬虫最近跟着课程学了一下py并且做了一个豆瓣top250电影的爬虫+flask网络框架+orm数据库框架+数据分析的小项目，用到的知识都很浅，做一下总结。完成本项目…

Python 2023年8月9日
0054
pygame精灵组有哪些方法_资料员如何利用【送检精灵】制作自己的送检计划

很久没有来知乎，好多小伙伴留言没能及时回复，工作比较忙没能及时回复。这里说声抱歉了。我们在做房建资料的时候，需要送检哪些材料、需要做哪些试验，作为一名新手或者半熟手资料员，并不能…

Python 2023年9月15日
0038
python–飞机大战

项目名称：python飞机大战编程语言：python用到关键知识：pygame模块，python基础，os文件读写，以及面向对象思想方法！实现功能：1：飞机的移动，发射子弹，手雷，…

Python 2023年8月12日
0038
01背包和完全背包

01背包最大约数和题目链接点击这里题目描述选取和不超过 S S S 的若干个不同的正整数，使得所有数的约数（不含它本身）之和最大。输入格式输入一个正整数 S S S。 …

Python 2023年9月29日
0046
滚轮事件（原生js）

1 DOCTYPE html> 2 <html> 3 <head> 4 <meta charset="utf-8"> …

Python 2023年6月11日
0057

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas索引操作

一、索引类型：

二、Series索引：

三、DataFrame索引：

四、重置索引

大家都在看