Datawhale pandas 打卡03 索引

2023年8月22日上午3:55 • Python • 阅读 58

文章目录

内容介绍
索引器
*
表的列索引
loc索引器
iloc索引器
query方法
随机抽样
多级索引
*
多级索引以及表的结构
多级索引的相关属性
多层索引中的loc
IndexSlice对象的使用
–
- loc[idx[*,*]]型
- loc[idx[*,*],idx[*,*]]
多次索引的构造
索引的常用方法
*
索引的删除和交换
索引属性的修改
–
- rename_axis
- rename
- map
索引的设置与重置
–
- set_index
- reset_index
索引的变形
习题
*
Ex1：公司员工数据集
Ex2：巧克力数据集

内容介绍

这是第三篇打卡文章。

索引器

表的列索引

取单列数据

df['Name'].head()

取多列数据

df[['Gender', 'Name']].head()

loc索引器

loc的基本用法是df.loc[]以及df.loc[,]
可以替换为多种形式
df.loc[]是选出部分行以及所有列
df.loc[,*]是选出部分行和部分列

使用示例表格如上，名字作为行索引

类型示例备注单个元素 df_demo.loc['Qiang Sun']

以及 df_demo.loc['Qiang Sun', 'School']

元素列表 df_demo.loc[['Qiang Sun','Quan Zhao'] ['School','Gender']]

元素切片 df_demo.loc['Gaojuan You':'Gaoqiang Qian', 'School':'Gender']

此时端点两侧需要是唯一的布尔列表 df_demo.loc[df_demo.Weight>70].head()

函数 df_demo.loc[lambda x:'Quan Zhao', lambda x:'Gender']

可以自定义函数，也可以是用匿名函数，但是返回值需要是前面四种形式

; iloc索引器

iloc的使用与loc完全类似，只不过是针对位置进行筛选，在相应的*位置处一共也有五类合法对象，分别是：整数、整数列表、整数切片、布尔列表以及函数，函数的返回值必须是前面的四类合法对象中的一个，其输入同样也为DataFrame本身。

类型示例备注整数df_demo.iloc[1, 1]第二行第二列整数列表df_demo.iloc[[0, 1], [0, 1]]前两行前两列整数切片df_demo.iloc[1: 4, 2:4]切片不包含结束端点布尔列表df_demo.iloc[(df_demo.Weight>80).values].head()不能传入Series而必须传入序列的values函数df_demo.iloc[lambda x: slice(1, 4)]传入切片为返回值的函数

query方法

query利用传入字符串的形式查询表中数据,可以直接使用列名。当列名带空格时，需要使用列名。条件的连接直接需要使用and，or，in，not in，同时条件要用括号括起来


df.query('Weight > Weight.mean()').head()

out：

随机抽样

当我们处理大型数据，想要使用聚合函数得到数据的统计学特征时，如果直接计算，时间开销太大，于是我们需要去使用抽样方法来作为整个数据的统计特征的一个近似。
所以我们使用sample方法，它的重要参数有n, axis, frac, replace, weights

参数作用n抽样数量axis抽样的方向，0为行、1为列frac抽样比例replace是否是有放回抽样weights每个样本的抽样概率

df_sample = pd.DataFrame({'id': list('abcde'), 'value': [1, 2, 3, 4, 90]})
print(df_sample)
print('抽样结果')

df_sample.sample(3, replace = False, weights = df_sample.value)

out:

  id  value
0  a      1
1  b      2
2  c      3
3  d      4
4  e     90
&#x62BD;&#x6837;&#x7ED3;&#x679C;
  id  value
4  e     90
1  b      2
3  d      4

多级索引

多级索引以及表的结构

我们可以看到多级索引可以是行索引，也可以是列索引，在行索引是school,gender，列索引是Indicator,Grade，所以索引不再是一个单独的元素，而是由对应元素构成的元组

; 多级索引的相关属性

如果想要获得某一层的索引，利用get_level_values()得到某一层的索引

多层索引中的loc

多层索引的loc方法与单层索引没有很大区别，只需要吧单独的元素换成一个元组。同时还需要注意的是筛选时要对索引进行排序，提高效率，避免警告。


df_multi = df.set_index(['School', 'Grade'])

df_sorted = df_multi.sort_index()
df_sorted.loc[('Fudan University', 'Junior')].head()

同时还有一种特殊的用法，可以利用对各层的元素进行笛卡尔积的结果进行筛选

res = df_multi.loc[(['Peking University', 'Fudan University'], ['Sophomore', 'Junior']), :]
res.head()

IndexSlice对象的使用

即使在索引不重复的时候，也只能对元组整体进行切片，而不能对每层进行切片，也不允许将切片和布尔列表混合使用，引入IndexSlice对象就能解决这个问题。Slice对象一共有两种形式，第一种为loc[idx[,]]型，第二种为loc[idx[,],idx[,]]型

loc[idx[,]]型

这种情况并不能进行多层分别切片，前一个 _表示行的选择，后一个_表示列的选择，与单纯的loc是类似的：

idx=pd.IndexSlice
df_ex.loc[idx['C':, ('D', 'f'):]]

out:

loc[idx[,],idx[,]]

这种情况能够分层进行切片，前一个idx指代的是行索引，后一个是列索引。

df_ex.loc[idx[:'B', 'a':'b'], idx['E':, 'e':]]

out:

但是此时不可以使用函数

多次索引的构造

有三种方法构造多层索引，分别是列表，元组，笛卡尔积

pd.MultiIndex.from_tuples

my_tuple = [('a','cat'),('a','dog'),('b','cat'),('b','dog')]
pd.MultiIndex.from_tuples(my_tuple, names=['First','Second'])

out

pd.MultiIndex.from_arrays

my_array = [list('aabb'), ['cat', 'dog']*2]
pd.MultiIndex.from_arrays(my_array, names=['First','Second'])

pd.MultiIndex.from_product

my_list1 = ['a','b']
my_list2 = ['cat','dog']
pd.MultiIndex.from_product([my_list1, my_list2], names=['First','Second'])

out:

索引的常用方法

索引的删除和交换

axis=1为对列处理，axis=0对行索引处理

方法备注pd.swaplevel交换两个层，pd.reorder_levels写入所有层的顺序pd.droplevel丢弃某一层的索引

用到的数据集

np.random.seed(0)
L1,L2,L3 = ['A','B'],['a','b'],['alpha','beta']
mul_index1 = pd.MultiIndex.from_product([L1,L2,L3], names=('Upper', 'Lower','Extra'))
L4,L5,L6 = ['C','D'],['c','d'],['cat','dog']
mul_index2 = pd.MultiIndex.from_product([L4,L5,L6], names=('Big', 'Small', 'Other'))
df_ex = pd.DataFrame(np.random.randint(-9,10,(8,8)), index=mul_index1,  columns=mul_index2)
df_ex

df_ex.swaplevel(0,2,axis=1).head()

out

df_ex.reorder_levels([2,0,1],axis=0).head()

out

df_ex.droplevel(1,axis=1)

out

索引属性的修改

方法描述rename_axis修改索引层的名字，常常传入字典rename对索引值做修改，需要指明levelmap对索引元组提供遍历操作；多级索引的压缩

rename_axis

df_ex.rename_axis(index={'Upper':'Changed_row'},
                  columns={'Other':'Changed_Col'}).head()

out

rename

df_ex.rename(columns={'cat':'not_cat'}, level=2).head()

out

map

map是定义在Index上的方法，与前面rename方法中层的函数式用法是类似的，只不过它传入的不是层的标量值，而是直接传入索引的元组，这为用户进行跨层的修改提供了遍历。例如，可以等价地写出上面的字符串转大写的操作：

df_temp = df_ex.copy()
new_idx = df_temp.index.map(lambda x: (x[0], x[1], str.upper(x[2])))
df_temp.index = new_idx
df_temp.head()

out

索引的设置与重置

本节的表

df_new = pd.DataFrame({'A':list('aacd'), 'B':list('PQRT'), 'C':[1,2,3,4]})
df_new

out

set_index

索引的设置可以使用set_index完成，这里的主要参数是append，表示是否来保留原来的索引，直接把新设定的添加到原索引的内层

df_new.set_index('A')

out

df_new.set_index('A', append=True)

out

df_new.set_index(['A', 'B'])

out

也可以传入Series作为索引

my_index = pd.Series(list('WXYZ'), name='D')
df_new = df_new.set_index(['A', my_index])
df_new

reset_index

reset_index是set_index的逆函数，其主要参数是drop，表示是否要把去掉的索引层丢弃，而不是添加到列中。

df_new.reset_index(['D'], drop=True)

out

如果重置了所有的索引，那么pandas会直接重新生成一个默认索引：

df_new.reset_index()

out

索引的变形

用到的表

df_reindex = pd.DataFrame({"Weight":[60,70,80], "Height":[176,180,179]}, index=['1001','1003','1002'])
df_reindex

out

表中给出了员工信息，需要重新制作一张新的表，要求增加一名员工的同时去掉身高列并增加性别列

df_reindex.reindex(index=['1001','1002','1003','1004'],
                   columns=['Weight','Gender'])

还有一个与reindex功能类似的函数是reindex_like，其功能是仿照传入的表索引来进行被调用表索引的变形。

df_existed = pd.DataFrame(index=['1001','1002','1003','1004'], columns=['Weight','Gender'])
df_reindex.reindex_like(df_existed)

out:

习题

Ex1：公司员工数据集

现有一份公司员工数据集：

分别只使用query和loc选出年龄不超过四十岁且工作部门为Dairy或Bakery的男性。

df.query("(age)

选出员工ID号为奇数所在行的第1、第3和倒数第2列。

df.iloc[(df.EmployeeID%2==1).values,[0,2,-2]].head()

按照以下步骤进行索引操作：
把后三列设为索引后交换内外两层
恢复中间层索引
修改外层索引名为Gender
用下划线合并两层行索引
把行索引拆分为原状态
修改索引名为原表名称
修改索引名为原表名称
修改索引名为原表名称
恢复默认索引并将列保持为原表的相对位置

df = pd.read_csv('../data/company.csv')

df=df.set_index(df.columns[-3:].tolist())
df=df.swaplevel(0,2,axis=0)

df=df.reset_index('job_title')

df.rename_axis(index={'gender':'Gender'})

new_idx=df.index.map(lambda x: x[0]+'_'+x[1])
df=df.set_index(new_idx)

new_idx=df.index.map(lambda x:tuple(x.split('_')))
df=df.set_index(new_idx)

df.index.names=('gender','department')

df.reset_index(drop=False,inplace=True)
df[['EmployeeID', 'birthdate_key', 'age', 'city_name', 'department',
       'job_title', 'gender']]

Ex2：巧克力数据集

现有一份关于巧克力评价的数据集：

把列索引名中的\n替换为空格

df.columns=df.columns.map(lambda x:x.replace('\n',' '))

巧克力Rating评分为1至5，每0.25分一档，请选出2.75分及以下且可可含量Cocoa Percent高于中位数的样本。

df['Cocoa Percent']=df['Cocoa Percent'].apply(lambda x:x.replace('%','')).astype(float)/100
df.query("(RatingCocoa Percent.median())")

将Review Date和Company Location设为索引后，选出Review Date在2012年之后且Company Location不属于France, Canada, Amsterdam, Belgium的样本。

df=df.set_index(['Review Date','Company Location'])
idx=pd.IndexSlice
df=df.sort_index(level=0)
exclude = ['France', 'Canada', 'Amsterdam', 'Belgium']
df.loc[idx[2012:,~df.index.get_level_values(1).isin(exclude)],:]

Original: https://blog.csdn.net/Linzijiandevx/article/details/126407670
Author: Linzijiandevx
Title: Datawhale pandas 打卡03 索引

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756314/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【部署】了解nginx+gunicorn+django架构

文章目录 1）为什么是nginx+gunicorn+django架构？ * 1、首先了解一下相关概念： – WSGI： gunicorn/uWSGI： + *wsgir…

Python 2023年8月6日
0086
两点解决 matplotlib首次运行报错UserWarning: Matplotlib is currently usingagg, which is a non-GUI backend

最近想玩玩python的图形处理模块来进行数据图形显示相关的开发，目的是把服务器中的数据资源生成图形（docker资源利用率展示不符合需求）。而matplotlib是python绘…

Python 2023年9月1日
0058
机器学习1–Pandas 数据结构 – DataFrame

Pandas 数据结构 – DataFrame** DataFrame 是一个表格型的数据结构。Pandas DataFrame 是一个二维的数组结构，类似二维数组。 …

Python 2023年8月17日
0052
【机器学习项目实战案例目录】项目详解 + 数据集 + 完整源码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月8日
0040
Python中的True和False详解

Python中的 True和 False总是让人困惑，一不小心就会用错，本文总结了三个易错点，分别是逻辑取反、if条件式和pandas.DataFrame.loc切片中的条件式。 …

Python 2023年8月15日
00139
数据分析——pandas(二)

pandas DataFrame 创建DataFrame import pandas as pd pd.DataFrame(a) 参数a可以是多种类型，数组列表等 import p…

Python 2023年8月8日
0050
Kali Linux利用MSF入侵安卓手机(小白版超详细)

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月24日
0057
django logging配置

setting配置 BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(file)))LOG_DIR = os.p…

Python 2023年8月3日
0071
查看CSDN文章详细信息存到CSV中

查看CSDN文章详细信息存到CSV中精选原创 lanxiaofang2022-08-05 14:27:59博主文章分类：Python ©著作权文章标签 json python…

Python 2023年5月24日
0099
mongodb基础整理篇————副本概念篇[外篇]

前言副本集整理。开始逐步把mongodb博客补齐了。正文什么是副本集副本集是一组服务器，其中一个是用于处理写入操作的主节点，还有多个用于保存主节点的数据副本的从节点。如…

Python 2023年10月18日
0039
python：删除DataFrame中某列值为NaN的记录/行

关于 dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)参数的说明： axis：默认是0，即删除行…

Python 2023年8月6日
0095
六轴传感器+卡尔曼滤波+一阶低通滤波

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录角度与角速度测量 * – 1.角度与角速度获取 2 互补滤波 3卡尔曼滤波 4 实现卡尔一阶…

Python 2023年10月10日
0056
将py文件打包成exe可执行文件

将py文件打包成exe可执行文件使用命令直接打包（不推荐）使用auto-py-to-exe打包工具（推荐） * 1）下载安装 2) 打开工具 3)将py文件打包成exe文件 4…

Python 2023年8月1日
0070
django项目报错1193, “Unknown system variable default_storage_engine”

存在问题：运行django项目时，报错1193, “Unknown system variable default_storage_engine”；并且网上…

Python 2023年8月5日
0062
30分钟掌握 Webpack

为什么使用 Webpack 在我们进行传统网页开发中，会在 index.html 中引入大量的 js 和 css 文件，不仅可能会导致命名冲突，还会使页面体积变大，因为如果引用了第…

Python 2023年6月12日
0091
pygame 游戏开场动画渲染学习，绘制 10*7=70 个小方块

本系列专栏将通过不断编写游戏的方式，带你夯实 Python 知识。这篇博客的目的今天的主要目标就是绘制 10*7 个小方块，最终实现的效果图如下所示。 ; 逻辑实现在界面上进…

Python 2023年9月21日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Datawhale pandas 打卡03 索引

文章目录

表的列索引

loc索引器

; iloc索引器

query方法

随机抽样

多级索引以及表的结构

; 多级索引的相关属性

多层索引中的loc

IndexSlice对象的使用

loc[idx[,]]型

loc[idx[,],idx[,]]

多次索引的构造

索引的删除和交换

索引属性的修改

rename_axis

rename

map

索引的设置与重置

set_index

reset_index

索引的变形

Ex1：公司员工数据集

Ex2：巧克力数据集

大家都在看