pandas多重索引补全子索引缺失的方法

2023年7月8日上午9:14 • 人工智能 • 阅读 71

当数据中的dataframe(df)是一个二重索引且某一层索引的第二层索引值并不是全部索引值时，我们应该如何在该层索引插入第二层索引没有的值呢？本文记录自己的学习遇到的情况~

如以下的df

import numpy as np
import pandas as pd
import random
tuples=list(zip(['A','B'],['a','b']))
data=np.array([random.randint(1,10) for i in range(4)]).reshape(2,2)
df=pd.DataFrame(data,columns=['col1','col2'],index=pd.MultiIndex.from_tuples(tuples, names=['row1', 'row2']))
df

上述代码块中pd.MultiIndex.from_tuples具体可看官方文档。pandas.MultiIndex

现在我们要往row2里面插入两条索引为(‘A’,’b’)和(‘B’,’a’)需要如何操作呢，本文提供两种做法，当然如果还有别的做法欢迎留言交流学习！

这里建议直接使用第二种，简单粗暴。

第一种:

这种方法很复杂，我们需要在原来的df上遍历到需要插入的位置插入这个索引，当然你这种做法需要随时做好面对各种报错各种问题的出现。其步骤如下：

for循环收集到子索引的所有值
遍历外层索引里面的值，一一比对，如果不存在该索引则插入进去。
处理边界问题、版本本身问题?(留个坑后面有说到)的一些注意事项

代码如下：

查到文章中说pandas无法向列表里面的insert函数一样随意插入位置,只有append函数添加在df最后一行
只能对df在插入的地方分成两个df1,df2,然后再使用concat函数合并三个df(分别为df1,df_add(要插入的那一行数据),df2)

def insert(df, df_add, name, i):
"""
    创建一个函数用来向df中插入选定的位置
    :param df: 原始df,要插入数据的那个df,对于下面函数来讲,df1由df赋值,一开始就对df1本身拆分
    :param df_add: 要插入的数据行,以df形式传入
    :param name: 指定外层索引的名字,即要插入到哪个外层索引里面
    对于下面的df.loc[[name]],本身name就只是一个参数,为什么会需要用[]做成一个长度为1的列表呢,接着挖个坑后面说到(这个问题就是步骤3)
    :param i: 插入哪一行
    :return: 返回插入后的df
"""
    # 指定第i行插入一行数据
    df1 = df.loc[[name]].iloc[:i, :]
    df2 = df.loc[[name]].iloc[i:, :]
    df = pd.concat([df1, df_add, df2])
    return df
def expend_all_index(df):
    index1:外索引，即上述中的[A,B],为了保证不重复取到通过一个索引，需要unique一下
    index2：内索引，即上述的[a,b]
    index1=np.unique([value[0] for value in df.index])
    index2=np.unique([value[1] for value in df.index])
    创建一个与df一致的索引跟列
    df_total = pd.DataFrame(columns=df.columns,
                        index=pd.MultiIndex.from_product(
                            [index1, index2],
                            names=list(df.index.names)))
    遍历第一层索引
    for id1 in index1:
        取一层索引的下的index保存在pos1中，如上述中A索引下的[a]
        pos1=list(df.loc[id1].index)
    初始化一个与df一致的df1，保证insert函数中对其重复插入（此句看不懂可以再看看insert函数的说明）
        df1 = df
    i为pos1的索引，j为index2的索引
        i=0
        j=0
        挨个比较pos1跟index2的值,如果一致,则往下移,如果不一致则进入if语句
        while i

调用上述函数,运行结果如下:

这样就实现了df多重索引添加多行的操作啦~

现在开始填上面的坑,如果使用上述函数出现如下类似的keyError报错

大概率是因为使用df.loc的时候,有些是只显示df当前索引下的子索引,有些是显示当前索引+子索引,当只显示子索引的时候,你再loc[‘A’]之后,他就显示KeyError,所以要想显示当前索引+子索引,我们需要采用df.loc[[name]],其中name为外层索引的值,即使该值只有一个,所以要想显示当前索引+子索引的话,需要对loc传入一个列表。至于为什么会出现这种情况,一开始我以为是pandas版本问题，然后在pycharm安装了不同版本测试，然后结果似乎没有变化。具体看下例子:

但我一开始在pycharm实现该函数的时候并没有发现问题，df.loc[‘A’]的时候显示的是外层索引+内层索引，如下所示

但当我把函数放在jupyter运行的时候，他只显示子索引，由于我jupyter跟pycharm的pandas版本不一样，所以我认为是版本的问题，但上述结果好像并不是这样。所以上述函数，即使只有一个传入的name只有一个值，要想显示外层索引+内层索引最好以列表形式传入。

第二种：

这种方法很简单，直接创建新的df，然后使用pd.MultiIndex.from_product创建一个外层索引*内层索引的index赋值给新的index，然后再用原来已有的值填充新的df，对于剩下的值直接fillna一下即可。

列表生成式得到内外层索引的值
创建一个新的df
for循环挨个赋值
fillna填充nan值

代码如下：

tuples=list(zip(['A','B'],['a','b']))
data=np.array([random.randint(1,10) for i in range(4)]).reshape(2,2)
df=pd.DataFrame(data,columns=['col1','col2'],index=pd.MultiIndex.from_tuples(tuples, names=['row1', 'row2']))
df

接着创建一个新的df_new:

index1=np.unique([value[0] for value in df.index])
index2=np.unique([value[1] for value in df.index])
df_new=pd.DataFrame(columns=df.columns,index=pd.MultiIndex.from_product([index1,index2],names=list(df.index.names)))
for value in df.index:
    df_new.loc[value]=df.loc[value]
df_new.fillna(0,inplace=True)
df_new

最后结果如下：

如果对你有帮助的话就点个赞吧~

Original: https://blog.csdn.net/weixin_59699198/article/details/127112461
Author: sinaitic-Icans
Title: pandas多重索引补全子索引缺失的方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678199/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VS2022OpenCV跨平台Linux CMake项目搭建过程（Jetson nano测试）

VS2022跨平台Linux CMake项目搭建过程 1. 环境准备开发机器： VS2022(VS2019 16以上都支持) 下载地址：https://visualstudio….

人工智能 2023年7月20日
0065
机器学习入门：第十六章 Hopfield神经网络

经过这些年的发展，深度学习慢慢的成为了一种较为流行的算法，从算法的一步步发展来看现在的深度学习算法会觉得深度学习算法不用于已有的神经网络或一些现在流行的算法。虽然深度学习跟神经网络…

人工智能 2023年7月13日
0056
【YOLO系列】YOLOv5、YOLOX、YOOv6、YOLOv7网络模型结构

【注】：本文为YOLOv5、YOLOX、YOLOv6、YOLOv7模型结构图，作图软件为drawio。因精力有限暂时不做结构的详细阐述和具体的代码讲解，后续有机会再做补充。如有需…

人工智能 2023年7月25日
004.8K
RDKit基础操作

目录预读内容 * 分子的表示 – 分子指纹Fingerpoint SMILES InChIKey Graph 药物与靶标的相互作用预测读写分子操作分子修改分子 …

人工智能 2023年6月15日
0063
朴素贝叶斯(Bayes)算法例题

由于要求buys_computer属性是啥值，所以先求其属性两种值分别的概率 P(buys_computer=”Y”)=9/14=0.643 P(buys_…

人工智能 2023年6月19日
0057
torch_geometric(pyg)的介绍和简单使用

最近做毕业设计，需要用到图神经网络（以下简称GNN）。由于刚入门GNN，不想看大段的公式和相关论文（然而事实证明该看的永远逃不了），所以怎么办？百度上找呗！因为自己平时用pytor…

人工智能 2023年7月21日
0056
# SOM-算法原理

写在前面近期看到一篇论文，其中有一个无监督聚类方法叫做SOM（self-organizing maps，自组织映射），这就来学习一下正餐开始 SOM，自组织映射（当然也有人将其…

人工智能 2023年6月11日
00233
IDEA2022版本创建maven web项目（两种方式）

目录创建方式一、使用骨架的方式二、maven中添加 web方式额外知识：IDEA配置tomcat 总结：前言必读读者手册（必读）_云边的快乐猫的博客-CSDN博客创建…

人工智能 2023年7月31日
0078
VS2017/2019均适用的opencv 快速通用免重复安装配置流程

Mon 05 Mon 12 下载安装免重复 steps VS2017/2019 安装opencv 快速、通用、免重复配置流程一、opencv快速下载二、VS2017/201…

人工智能 2023年7月19日
0045
论文阅读《Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering》

《Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering》来源：EMNLP2…

人工智能 2023年6月1日
0084
ISP——AWB(Auto White Balance)

ISP——AWB(Auto White Balance) 现象 ; 几个概念人眼具有颜色恒常性，可以避免光源变化带来的颜色变化，但是图像传感器不具备这种特性，从而造成色偏，白平衡…

人工智能 2023年6月20日
0090
数据库生存曲线_4个小时TCGA肿瘤数据库知识图谱视频教程又有学习笔记啦

早在三年前我就整理并且制作了TCGA肿瘤数据库知识图谱视频教程，一年半前免费公布在生信技能树的B站，现在勉勉强强也快有两万的观看量。视频地址：https://www.bilibi…

人工智能 2023年6月1日
0072
python环境下opencv安装与一些坑

这里就只是单纯讲一下opencv的安装与使用时遇到的坑，毕竟作为一个萌新还没资格对一个成熟的框架指手画脚。安装：一般直接pip3安装太慢了的话我们可以使用国内的镜像，这里我用的…

人工智能 2023年7月20日
0061
亚马逊图书销量前五十分析

背景众所周知，亚马逊是全球最大的互联网书店。该数据集包含从2009年到2019年每年亚马逊上最畅销的前50的数据。包含550本书，使用Goodreads将数据分类为小说和非虚构类别…

人工智能 2023年7月7日
0067
NER系列之《如何在pytorch搭建的模型中引入CRF(条件随机场)》（pytorch-crf库）

🦄crf可谓是NER任务小能手了，所以搞NER就得玩玩crf。 ⭐torch官方tutorials部分提供的crf链接：点击进入，该链接里是结合了bi-lstm和crf的代码教程（…

人工智能 2023年5月27日
0084
机器学习初级项目–房价预测案例

项目背景：运用回归模型进行房价预测。影响房价的因素有很多，在本题的数据集中有 79个变量几乎描述了爱荷华州艾姆斯（Ames，lowa）住宅的方方面面，要求预测最终的房价。数据…

人工智能 2023年6月17日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas多重索引补全子索引缺失的方法

大家都在看