Pandas分类总结之：索引

2023年7月8日下午10:01 • 人工智能 • 阅读 84

1.1 表的列索引

df[列名] ，返回值为 Series，当列名不包含空格，可用 df.列名 取出

df[[列名组成的列表]] ，返回值为 DataFrame

1.2 序列的行索引

1.3 loc索引器

df.loc[*, *] 基于元素的loc索引器，第一个 *代表行的选择，第二个 *代表列的选择，如果省略第二个，就是行筛选

* 位置一共有五类合法对象，分别是：

df.loc[单个元素]
eg1： df.loc['row_name']或 df.loc['col_name']，如果该元素在索引中重复则结果为 DataFrame，否则为 Series
eg2： df.loc['row_name', 'clo_name']，如果该元素在索引中重复则结果为 Series，否则为单个元素
df.loc[元素列表]
eg1： df.loc[['row_name1','row_name2',...],['clo_name1','clo_name2',...]]，取出列表中所有元素值对应的行或列
df.loc[元素切片]
eg1： df.loc['row_namex':'row_namey', 'clo_namex':'clo_namey']，字符切片，如果是唯一值的起点和终点字符才可以使用切片，且包含两个端点
eg2： df.loc[3：5]，整数切片，如果是唯一值的起点和终点数字才可以使用切片，且包含两个端点
df.loc[布尔列表]
传入 loc的布尔列表要与 DataFrame长度相同
eg1： df.loc[df.clo_name > num]
eg2： df.loc[df.col_name.isin(['name1','name2'])]
eg3： df.loc[condition1 & condition2]，复合条件可用 |（或）, &（且）, ~（取反）的组合来实现
df.loc[函数]
函数结果必须以前面的四种合法形式之一为返回值
eg1： df.loc[funcation(x)]，函数的形式参数 x本质上即为 df_demo
eg2： df.loc[lambda x:'name1',lambda x:'name2']
select_dtypes # 从表中选出相应类型的列
eg1： df.select_dtypes('number') ，选出所有数值型的列

1.4 iloc索引器

df.iloc[*, *] 基于位置的iloc索引器，第一个 *代表行的选择，第二个 *代表列的选择，如果省略第二个，就是行筛选

* 位置一共有五类合法对象，分别是：

df.iloc[整数]
eg1： df.iloc[1,1] ，第二行第二列
df.iloc[整数列表]
eg1： df.iloc[[0,1],[0,1]]，前两行前两列
df.iloc[整数切片]
eg1： df.iloc[1: 4, 2:4] ，切片不包含结束端点
df.iloc[布尔列表]
eg1： df.iloc[(df.clo_name > num).values]，不能传入 Series而必须传入序列的 values
df.iloc[函数]
eg1： df.iloc[lambda x: slice(1, 4)]

1.5 query方法

把字符串形式的查询表达式传入 query方法来查询数据，其表达式的执行结果必须返回布尔列表。

eg：


df.query('((School == "Fudan University")&'
         ' (Grade == "Senior")&'
         ' (Weight > 70))|'
         '((School == "Peking University")&'
         ' (Grade != "Senior")&'
         ' (Weight > 80))')

df.query('Weight > Weight.mean()')

注意：
对于含有空格的列名，需要使用 col name的方式进行引用
条件关系可用 or, and, or, in, not in，eg： df.query('(condition1) and (condition2)')
字符串中出现与列表的比较时， ==等价于in、 != 等价于not in，eg： df.query('clo_name== ["name1", "name2"]')
引用外部变量，只需在变量名前加 @符号

1.6 随机抽样

df.sample(n,
         axis,
         frac,
         replace,
         weights

2.1 多级索引和表的结构

索引中的一个元素是元组而不是单层索引中的标量

df_multi.index.names/values，获取行索引名字/值属性
df_multi.columns.names/values，获取列索引名字/值属性
df_multi.index.get_level_values(0)，获取某一层的索引

2.2 多级索引中的loc索引器

loc和 iloc一样使用，只需把标量的位置替换成对应的元组即可，但需要先进行 df_multi.sort_index()（索引排序）以避免性能警告。

eg1： df_sorted.loc[('row_name1', 'row_name2')]
eg2： df_sorted.loc[[('row_name1', 'row_name2'), ('row_name3', 'row_name4')]]
eg3： df_sorted.loc[df_sorted.clo_name1> 70]
eg4： df_sorted.loc[lambda x:('row_name1','row_name2')]
eg5： df_sorted.loc[('row_name1', 'row_name2'):]，切片索引，无论元组在索引中是否重复出现，都必须经过排序才能使用切片
eg6： df_sorted.loc[(['row_name1', 'row_name2'], ['row_name3', 'row_name4']),:]，可以对多层的元素进行交叉组合后索引，同时需要指定 loc的列（全选则用 :表示）

2.3 IndexSlice对象

Slice对象一共有两种形式，第一种为 loc[idx[*,*]]型，第二种为 loc[idx[*,*],idx[*,*]]型，需要先定义 idx = pd.IndexSlice，才能使用slice，

loc[idx[*,*]]
eg1： df_ex.loc[idx['C':, ('D', 'f'):]] ，前一个 *表示行的选择，后一个 *表示列的选择
eg2： df_ex.loc[idx[:'A', 'b':], idx['E':, 'e':]] ，，前一个 idx指代的是行索引，后一个是列索引

2.4 多级索引的构造

pd.MultiIndex.from_tuples(my_tuple, names=['First','Second'])，根据传入由元组组成的列表进行构造
pd.MultiIndex.from_arrays(my_array, names=['First','Second'])，根据传入列表中，对应层的列表进行构造
pd.MultiIndex.from_product([my_list1, my_list2], names=['First','Second'])，根据给定多个列表的笛卡尔积进行构造

3.1 索引层的交换和删除

索引层的交换
df_ex.swaplevel(0,2,axis=1).head()，只能交换两个层，列索引的第一层和第三层交换
df_ex.reorder_levels([2,0,1],axis=0).head()，可以交换任意层，列表数字指代原来索引中的层
索引层的删除
df_ex.droplevel(1,axis=1)，删除某一层的索引
df_ex.droplevel([0,1],axis=0)，删除某些层的索引

3.2 索引属性的修改

索引层的名字修改
df_ex.rename_axis(index={'row_old':'row_new'}, columns={'col_old':'col_new'})，索引层的名字进行修改，修改方式是传入字典的映射
索引层的值修改
df_ex.rename(columns={'cat':'not_cat'}, level=2)，对索引的值进行修改，如果是多级索引需要指定修改的层号 level
df_ex.rename(index=lambda x:str.upper(x), level=2)，传入参数也可以是函数，其输入值就是索引元素
map函数，定义在 Index上的方法，直接传入索引的元组，进行跨层的修改提供了遍历
new_idx = df_temp.index.map(lambda x: (x[0], x[1], str.upper(x[2])))
new_idx = df_temp.index.map(lambda x: (x[0]+'-'+x[1]+'-'+x[2]))，对多级索引的压缩
new_idx = df_temp.index.map(lambda x:tuple(x.split('-')))，索引反向地展开

3.3 索引的设置与重置

set_index()索引的设置
df.set_index('row_name'，append=True)，其主要参数是 append，表示是否来保留原来的索引，直接把新设定的添加到原索引的内层
df.set_index(['row_name1'，'row_name2'])
df.set_index(['row_name1'，my_index])，在参数中可以传入相应的 Series作为索引
reset_index()索引的重置
df.reset_index()，重置了所有的索引，重新生成一个默认索引
df.reset_index('row_name'，drop=True)，其主要参数是 drop，表示是否要把去掉的索引层丢弃，而不是添加到列中

3.4 索引的变形

df_reindex.reindex()

4.1 一般的索引运算

先用 unique 去重后再进行运算

df1.intersection(df2)，取索引交集
df1.union(df2)，取索引并集
df1.difference(df2)，取索引差
df1.symmetric_difference(df2)，取索引补

Original: https://blog.csdn.net/KEEP_GIONG/article/details/120044389
Author: Seven_0507
Title: Pandas分类总结之：索引

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679395/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习实战6-卷积神经网络(Pytorch)+聚类分析实现空气质量与天气预测

文章目录一、前期工作导入库包导入数据主成分分析(PCA) 聚类分析(K-means) 二、神经网络模型建立三、检验模型大家好，我是微学AI，今天给大家带来一个利用卷积神经…

人工智能 2023年7月21日
0063
NeRF 源码分析解读（一）

NeRF 源码解读（一）前言 NeRF 是三维视觉中新视图合成任务的启示性工作，最近领域内出现了许多基于 NeRF 的变种工作。本文以pytorch 版 NeRF 作为基础对 N…

人工智能 2023年5月26日
0063
fast-lio2论文阅读《FAST-LIO2: Fast Direct LiDAR-inertial Odometry》

【摘要】本文提出了FAST-LIO2：一个快速、鲁棒和通用的激光雷达惯性里程计框架。FAST-LIO2基于一个高效的紧密耦合迭代卡尔曼滤波器，FAST-LIO2有两个关键的新特性…

人工智能 2023年6月2日
0074
「Self-driving: KITTI」KITTI数据集简介

背景 KITTI数据集建立前，前人的实验在米德尔伯里等既定基准上排名靠前的方法在从实验室转移到现实世界时表现低于平均水平。除了向社区提供具现实世界数据以减少实验偏差，KITTI在…

人工智能 2023年6月2日
0095
关于yolov5融合wbf算法的一些事情

最近发现很多私信我的小伙伴会纠结于一件事情：将yolov5网络中的nms算法用wbf算法替换掉，以此来提升网络准确率。那关于wbf算法是什么呢？ weighted boxes f…

人工智能 2023年7月11日
0073
机器学习相关解答

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0072
机器学习推荐算法之关联规则（Apriori）——支持度；置信度；提升度

目录 🍎走进关联规则 🍊什么是关联规则？ 🍒关联规则的分类 🍉关联规则的基本概念置信度的局限——错估某个关联规则的重要性提升度和零事务的关系先验原则实际案例代码实战频繁…

人工智能 2023年6月19日
00147
python中CIFAR10数据集的使用

本文主要解决了如何把数据集与transforms结合在一起的问题。 torchvision.datasets.CIFAR10(root: str,train: bool = Tru…

人工智能 2023年7月22日
0087
Tableau可视化技巧-一分钟制作箱线图

嵌入PHP网页中，您需要遵循以下步骤： 1. 创建一个 Server账户并上传您的文件。 2. 在 Server中设置您的文件的共享选项，以便在外部应用程序中嵌入。 3. 在P…

人工智能 2023年7月18日
0050
Pandas+Pyecharts | 北京某平台二手房数据分析+可视化

用pandas进行数据处理，pyecharts对处理后的数据进行可视化分析市面上二手房各项基本特征及房源分布情况，探索二手房大数据背后的规律。Pyecharts的使用参考文档Pye…

人工智能 2023年6月19日
00101
论文阅读《KnowPrompt: Knowledge-aware Prompt-tuning withSynergistic Optimization for Relation Extractio》

论文链接KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation E…

人工智能 2023年6月10日
0075
论文阅读：《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》

标题：基于知识的视觉问答的多模态知识提取与积累来源：CVPR 2022 https://arxiv.org/abs/2203.09138代码：https://github.com…

人工智能 2023年6月4日
00104
PyTorch中的张量（Tensor）是什么？它们与传统的数组有什么不同

引言在讲解PyTorch中的张量（Tensor）之前，让我们先来了解一下传统的数组是什么。数组的定义传统的数组是一种线性数据结构，由同类型的元素组成，具有固定长度并按照一定顺…

人工智能 2024年1月3日
0036
BERT模型—5.BERT模型在句子分类任务(意图识别)上的微调

文章目录 * – + 引言 + 一、项目环境配置 + 二、数据集介绍 + 三、代码介绍 + 四、测试结果 + * 1.代码执行流程 * 2. 预测流程数据代码见：ht…

人工智能 2023年7月2日
0096
【pytorch】ECA-NET注意力机制应用于ResNet的代码实现

一、前言 ECA-NET(CVPR 2020)简介：论文名：ECA-Net: Effificient Channel Attention for Deep Convolution…

人工智能 2023年7月20日
00446
百度飞桨2021李宏毅机器学习特训营学习笔记之回归及作业PM2.5预测

百度飞桨2021李宏毅机器学习特训营学习笔记之回归及作业PM2.5预测前言回归 * 什么是回归（Regression）？怎么做回归？线性回归(Linear Regressi…

人工智能 2023年6月18日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31