Pandas索引操作及高级索引

2023年7月8日上午7:51 • 人工智能 • 阅读 94

Pandas索引操作及高级索引

索引对象

Pandas 中的索引都是 Index 对象，又称索引对象，该对象是 不可以进行修改的，以保证数据的安全。例如，创建一个 Series 类对象，为其制定索引，然后再对索引重新赋值后会提示”索引不支持可变操作”的错误信息，示例代码如下：

ser_obj = pd.Series(range(5),index=['a','b','c','d','e'])
ser_index = ser_obj.index
ser_index
ser_index['2']='cc'

Index 类对象的不可变特性是非常重要的，正因如此，多个数据结构之间才能够安全的共享 Index 对象。例如，创建两个共同使用同一个 Index 对象的 Series 类对象，具体代码如下：

ser_obj1 = pd.Series(range(3),index=['a','b','c'])
ser_obj2 = pd.Series(['a','b','c'],index=ser_obj1.index)
ser_obj2.index is sr_obj1.index

除了泛指的 Index 对象以外，Pandas 还提供了很多 Index 的子类，常见的又如下几种：
( 1 ) Int64Index：针对整数的特 Index 对象。
( 2 ) MultiIndex：层次化索引，表示单个轴上的多层索引。
( 3 ) DatetimeIndex：存储纳秒寄时间戳

重置索引

Pandas 中提供了一个重要的方法是 reindex()

reindex() 方法的语法格式如下：

DateFrame.reindex(lables=None, index=None, columns=None,
                  axis=None, method=None, copy=True, level=None,
                  fill_value=nan, limit=None, tolerance=None)

上述方法的部分参数含义如下：
( 1 ) index：用作索引的新序列。
( 2 ) method：插值填充方式。
( 3 ) fill_value：引入缺失值时使用的替代值。
( 4 ) limit：前向或者后向填充时的最大填充量。

新索引中含有原索引的数据，而原索引数据按照新索引排序，如果新索引中没有原索引数据，那么程序不仅不会报错，而且会添加新的索引，并将值填充为 NaN 或者使用 fil_value() 填充数据

缺失值默认使用NaN填充

ser_obj1 = pd.Series([1,2,3,4,5],index=['c','d','e','f','g'],dtype='int64')

ser_obj2 = ser_obj1.reindex(['a','b','c','d','e','f'])

如果不想使用NaN填充，可以使用fill_value参数来指定缺失值

ser_obj2 = ser_obj1.reindex(['a','b','c','d','e','f'],fill_value=6)

如果期望使用相邻元素值（前边或者后边元素的值）进行填充，则可以使用 method参数
参数说明 ffill pad

向前填充值
bfill backfill

后向填充值
nearest

从最近的索引值填充

例：

ser_obj1 = pd.Series([1,3,5,7],index=[0,2,4,6])

ser_obj2 = ser_obj1.reindex(range(6),method='ffill')

索引操作

Series的索引操作

和 Numpy 的 ndarray 对象的操作类似

通过整数索引索引名获取数据

ser_obj = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

ser_obj[2]

ser_obj['a']

索引切片
可以使用整数索引进行切片，包含起始位置但不包括结束位置。也可以使用索引名进行切片，但包括结束位置。

ser_obj = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

ser_obj[0:3]


ser_obj['a':'c']

不连续索引如果是获取的不连续的数据，可以使用不连续索引

ser_obj = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

ser_obj[[0,2,4]]

ser_obj[['a','c','e']]

布尔型索引

ser_obj = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

ser_bool = ser_obj>2

ser_obj[ser_bool]

DataFrame 的索引操作

DataFrame 结构既包括行索引，也包括列索引。其中，行索引是通过 index 属性进行获取的，列索引是通过 columns 属性获取的

获取列
DataFrame 中每列的数据都是一个Series对象，我们可以使用列索引进行获取。

arr = np.arange(12).reshape(3,4)
df_obj= pd.DataFrame(arr, columns=['a','b','c','d'])
df_obj

df_obj['b']

如果想要从 DataFrame 中获取多个不连续的 Series 对象，则同样可以使用不连续索引进行实现

df_obj[['b','d']]

DataFrame 支持切片获取Series对象

df_obj[:2]

DataFrame 可以使用切片后再通过索引获取其中的数据

df_obj[:3][['b','d']]

loc方法和 iloc方法

loc：基于标签索引（索引名称，如a、b等），用于按标签选取数据。当执行切片操作时，既包含起始索引，也包含结束索引。

iloc：基于位置索引（整数索引，从0到 length-1），用于按位置选取数据。当执行切片操作时，只包含起始位置，不包含结束位置。

假设，现在有一个 DataFrame 对象，具体代码如下：

arr = np.arange(12).reshape(3,4)
df_obj= pd.DataFrame(arr, columns=['a','b','c','d'])
df_obj

接下来，我们演示如何使用它们来获取列数据

注意：[] 中的第一个参数是行索引，第二个是列索引

获取单列数据

df_obj[:,'a']
df_obj.iloc[:,0]

上面两个结果相同：

获取多列数据

df_obj[:,['a','c']]
df_obj[:,[0,2]]

上面两个结果相同：

使用花式索引访问数据

df_obj.loc[1:2,['b','c']]
df_obj.iloc[1:3,[1,2]]

它们两个的输出结果也是一样的，具体如下

Original: https://blog.csdn.net/qq2351227851/article/details/122033926
Author: 地铁洗涤感冒药
Title: Pandas索引操作及高级索引

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678071/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于知识图谱的菜谱问答系统——需求分析

1.项目背景近年来,人机对话系统作为人工智能的一个重要领域,得到了许多关注和发展。传统信息检索技术已经不能满足人们对信息获取效率的要求,智能问答系统应运而生,并成为自然语言处理领…

人工智能 2023年6月1日
0082
一、Tensorflow 2.0版本以上：Object_detection API【运行样例】

学习目标：从官网上下载模型，直接运行给出的代码，完成通用例子，观察效果。学习内容： 1.Tensorflow模型下载下载地址：模型下载按照上述步骤下载好模型，将压缩包解压到桌…

人工智能 2023年7月10日
0045
图像分割技术研究综述—2021.6.30

图像分割技术研究综述—2021.6.30 图像分割方法比较： * 1阈值分割能够较为快速地完成图像的分割，但大津阈值算法分割的对象要是比较简单的分割算法区域生长对…

人工智能 2023年6月22日
0089
Disco Diffusion 快速入门

Disco Diffusion 快速入门简介快速开始进阶使用 * 修改prompt 给定指导图像修改基础参数运行参数设置运行建议模型设置参数详情简介 Disco …

人工智能 2023年7月26日
0063
2018：MIXED PRECISION TRAINING OF CONVOLUTIONAL NEURAL NETWORKS USING INTEGER OPERATIONS利用整数运算对卷积神经网络

@TOC ; Abstract 用于混合精度训练的最先进的(SOTA)主要是各种低精度浮点运算，特别是FP16积累为FP32 Micikevicius等人(2017)。另一方面，虽…

人工智能 2023年7月14日
0079
【一年总结】我的大三

文章目录 * – 前言 – 一、软件设计与创新协会会长 – + 1.实验室招新 + 2.协会招新 + 3.比赛宣传、活动举办 + 4.回顾，亦是…

人工智能 2023年7月10日
0065
MATLAB学习笔记（系统环境、数值数据分类、变量及其操作）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月2日
0066
Python出租车GPS数据的路网匹配（TransBigData+leuvenmapmatching）

本例尝试使用TransBigData+leuvenmapmatching实现出租车GPS数据的路网匹配，使用的样例数据在：https://github.com/ni1o1/tran…

人工智能 2023年6月23日
00277
【人工智能】＜吴恩达-机器学习＞逻辑回归 – 分类问题

目录一、Logistic Regression – Classification: 二、 Hypothesis Regresentation – 假设陈述…

人工智能 2023年7月2日
0077
【Homeassistant 的Node-red插件之小爱同学语音功能开通】

欢迎大家阅读2345VOR的博客【Homeassistant 的Node-red插件之小爱同学语音功能开通】，本页是Homeassistant 的Node-red插件之小爱同学语音…

人工智能 2023年6月27日
00237
图神经网络（一）DGL框架搭建GCN图卷积神经网络模型

一、DGL DGL是基于pytorch开发的一个专门用于图神经网络模型搭建的框架，到现在为止，DGL已经高度封装了如GCN、GraphSage、GAT等常见的图神经网络模型，可以直…

人工智能 2023年6月16日
0099
2022-2028全球与中国自主行李托运市场现状及未来发展趋势

辰宇信息咨询市场调研公司最近发布-《2022-2028全球与中国自主行李托运市场调研报告》内容摘要本文重点分析在全球及中国有重要角色的企业，分析这些企业自主行李托运产品的市场规…

人工智能 2023年6月11日
0062
Docker的应用

Docker安装Tomcat 运行Tomcat容器，为部署SSM工程做准备docker run -d -p 8080:8080 –name tomcat daoclou…

人工智能 2023年6月29日
0073
【手把手教你】股票可视化分析之Pyecharts（二）

0 1 引言 Pyechartss 是基于Echarts 的开源可视化库，可以制作非常精美的图表。公众号推文《》，以股票交易数据为例，为大家展示了使用 Pyehcarts 构建直角…

人工智能 2023年7月16日
0066
[Yolov5]模型选择，参数修改，目标检测，训练数据集以及训练自己数据集全过程。

目录小样本成果展示 Cuda11.4+Cudnn8.2.4 1.Yolov5模型与像素大小。 2.常用参数 a.detect.py b.train.py 3.如何目标检测 a.P…

人工智能 2023年5月26日
0081
机器学习中的生成式模型VS判别式模型，分类，特点

机器学习中的生成式模型VS判别式模型，分类，特点 提示：本文将从生成式模型与判别式模型的概念，适用环境具体模型三个…

人工智能 2023年7月28日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas索引操作及高级索引

索引对象

重置索引

索引操作

Series的索引操作

DataFrame 的索引操作

大家都在看