pandas之链式索引问题（chained indexing）

2023年7月15日下午12:41 • 人工智能 • 阅读 99

SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

这是在使用pandas的过程中经常会遇到的一个警告，意思是试图对一个 DataFrame切片的副本进行赋值。正常来说，肯定不会无缘无故出现警告，这中间肯定有坑，所以有必要通过警告中提示的链接一探究竟。

在对pandas对象设置值的时候，必须要特别注意避免所谓的链式索引（chained indexing）问题。

什么是链式索引？就是对DataFrame连续地使用 []进行索引，底层行为表现为连续使用 __getitem__操作，这是线性依次的操作，而不是整体地对最初地DataFrame进行操作。

看看pandas文档给的例子：

In [23]: dfmi = pd.DataFrame(
    ...:     [list('abcd'), list('efgh'), list('ijkl'), list('mnop')],
    ...:     columns=pd.MultiIndex.from_product([['one', 'two'],['first', 'second']])
    ...: )

两种访问方式：


In [24]: dfmi['one']['second']
Out[24]:
0    b
1    f
2    j
3    n
Name: second, dtype: object

In [25]: dfmi.loc[:, ('one', 'second')]
Out[25]:
0    b
1    f
2    j
3    n
Name: (one, second), dtype: object

虽然两种方式返回的结果基本一样（除了 name属性），但是底层的代码执行逻辑还是有很大差别的。

对于第一种方式， dfmi['one']对第一级列名进行索引并返回一个 DataFrame，我们将这个DataFrame标记为 dfmi_with_one，然后接下来的 ['second']操作则是对 dfmi_with_one进行索引（也就是 dfmi_with_one['second']），返回由 'second'索引的 Series。可以看到，在链式索引中，每一次索引 []都是单独的、仅针对前一次索引返回的结果进行的操作，跟前面的无关。

与第一种方式相比，第二种方式 df.loc[:,('one','second')]传递一个嵌套的元组 (slice(None),('one','second'))给 __getitem__，并且只调用一次。这使得pandas可以将其当作单个实体进行处理。而且这种操作更快，需要的话也可以同时对两个轴进行索引。

其实从两者返回的 Series.name（一个为 second，一个为 (one, second)）也可以看出，第一种方式是分别执行的操作，第二种方式是整体执行的操作。

上节中的问题只是一个性能问题，但如果对链式索引的结果赋值则会产生不可预测结果。要了解这一点，需要看看Python解释器如何执行这些代码：

dfmi.loc[:, ('one', 'second')] = value

dfmi.loc.__setitem__((slice(None), ('one', 'second')), value)

而链式索引的方式则是这样的：

dfmi['one']['second'] = value

dfmi.__getitem__('one').__setitem__('second', value)

可以看到中间存在一个 __getitem__的调用，除非是很简单的情况，否则很难判断这个 __getitem__返回的是一个视图（view）还是一个副本（copy）（pandas文档说这取决于数组的内存布局，pandas对此没有保证），因此也无法判断后续的 __setitem__修改的是 dfmi还是一个之后马上就会被丢弃的临时对象。这就是开头的 SettingWithCopy要警告的内容。

另外，对于使用 loc的方式，注意到 __setitem__前面的 loc属性，pandas能够保证 dfmi.loc是 dfmi自身，因此 dfmi.loc.__getitem__和 dfmi.loc.__setitem__是直接在 dfmi上操作。当然， dfmi.loc.__getitem__(idx)则可能是 dfmi的视图或者副本。

我们来看看实际这两种操作的执行结果：

使用 loc赋值

In [27]: dfmi.loc[:, ('one', 'second')] = list('1234')

In [28]: dfmi
Out[28]:
    one          two
  first second first second
0     a      1     c      d
1     e      2     g      h
2     i      3     k      l
3     m      4     o      p

成功赋值
* 使用链式索引赋值

In [29]: dfmi['one']['second'] = list('5678')
<ipython-input-29-7370041e44f2>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
  dfmi['one']['second'] = list('5678')

In [30]: dfmi
Out[30]:
    one          two
  first second first second
0     a      1     c      d
1     e      2     g      h
2     i      3     k      l
3     m      4     o      p

出现了 SettingWithCopyWarning警告，并且赋值不起作用， dfmi并没有被修改。

另外，如果使用 loc进行链式索引也会出现同样的警告，原因上面已经说过了， df.loc.__getitem__(idx)则可能是 df的视图或者副本，其行为也不可预测，避免这样使用：

In [31]: dfmi.loc[:, 'one'].loc[:, 'second'] = list('5678')
<ipython-input-16-791a61a3bb59>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
  dfmi.loc[:, 'one'].loc[:, 'second'] = list('5678')

In [32]: dfmi
Out[32]:
    one          two
  first second first second
0     a      5     c      d
1     e      6     g      h
2     i      7     k      l
3     m      8     o      p

有时候没有明显的链式索引，但也可能会出现SettingWithCopy警告。以下pandas文档中给出的代码就是这样的情况：

def do_something(df):
    foo = df[['bar', 'baz']]

    foo['quux'] = value
    return foo

另一个例子：

In [33]: dfsi = pd.DataFrame(
   ...:     [list('abcd'), list('efgh'), list('ijkl'), list('mnop')],
   ...:     columns=['one', 'two', 'first', 'second']
   ...: )

In [34]: onetwo = dfsi[['one', 'two']]

In [35]: onetwo['one'] = list('1234')
<ipython-input-5-81f0fc384f1d>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
  onetwo['one'] = list('1234')

In [36]: dfsi
Out[36]:
  one two first second
0   a   b     c      d
1   e   f     g      h
2   i   j     k      l
3   m   n     o      p

In [37]: onetwo
Out[37]:
  one two
0   1   b
1   2   f
2   3   j
3   4   n

这其实就是把链式索引赋值的过程拆分成多行代码了，本质上还是这个问题，但是pandas会尝试去识别出这些问题并发出警告。所以当出现这样的警告时，应该检查下代码中是否出现链式索引赋值的问题，因为其行为不可预测，赋值可能不会生效，应当使用 loc代替，除非你确认链式索引就是你所需要的。

使用链式索引时，索引的类型和索引操作的顺序对于返回的结果是原始对象的切片还是切片的副本是有影响的：

In [38]: dfa = pd.DataFrame(
    ...:     {'a': ['one', 'one', 'two', 'three', 'two', 'one', 'six'],
    ...:      'c': np.arange(7)}
    ...: )

In [39]: dfb = dfa.copy()

In [40]: dfb['c'][dfb['a'].str.startswith('o')] = 42
<ipython-input-25-57ce4ff20dfc>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
  dfb['c'][dfb['a'].str.startswith('o')] = 42

In [41]: dfb
Out[41]:
       a   c
0    one  42
1    one  42
2    two   2
3  three   3
4    two   4
5    one  42
6    six   6

In [42]: dfb = dfa.copy()

In [43]: dfb[dfb['a'].str.startswith('o')]['c'] = 42
<ipython-input-29-216d8bd475bb>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
  dfb[dfb['a'].str.startswith('o')]['c'] = 42

In [44]: dfb
Out[44]:
       a  c
0    one  0
1    one  1
2    two  2
3  three  3
4    two  4
5    one  5
6    six  6

对于上述的场景，pandas文档推荐的使用 .loc访问的方式如下：

In [45]: dfb = dfa.copy()

In [46]: mask = dfb['a'].str.startswith('o')

In [47]: dfb.loc[mask, 'c'] = 42

In [48]: dfb
Out[48]:
       a   c
0    one  42
1    one  42
2    two   2
3  three   3
4    two   4
5    one  42
6    six   6

In [49]: dfb = dfa.copy()

In [50]: dfb.loc[2, 'a'] = 11

In [51]: dfb
Out[51]:
       a  c
0    one  0
1    one  1
2     11  2
3  three  3
4    two  4
5    one  5
6    six  6

pandas中提供了一个选项 mode.chained_assignment，用于设置出现链式索引问题后提醒的级别，该选项有三个可选的值：

warn：发出警告，默认值，会输出 SettingWithCopyWarning
raise：抛出异常 SettingWithCopyError，必须解决链式索引的问题
None：忽略链式索引问题，不发出警告，也不抛出异常

`python
In [52]: pd.set_option(‘mode.chained_assignment’,’raise’)

In [53]: dfb[dfb[‘a’].str.startswith(‘o’)][‘c’] = 42

Original: https://blog.csdn.net/hzhaoy/article/details/126720017
Author: Elwin Wong
Title: pandas之链式索引问题（chained indexing）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694282/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python神经网络编程豆瓣,python神经网络图像分类

1、如何利用python实现神经网络官方不支持，建议等支持吧。 dll有自己版本对应的，必须使用专门为python3.4编译的dll（cv2.pyd），你拿python2.7的肯…

人工智能 2023年7月13日
0085
yolov4-tiny使用jetson nano进行目标检测+tensorrt+CSI+USB摄像头检测

软硬件版本 Jetson Nano 4G ubuntu 18.04JP 4.5.1CUDA 10.2TensorRT 7.1.3.0 Python 3.6 一、下载源码 git c…

人工智能 2023年7月11日
0082
OBJ 模型文件与MTL材质文件介绍

制作3D模型的软件有很多，例如3D max, Blender, Maya等。于是就有很多模型文件格式。例如.obj、.max、.fbx .3ds。其中obj最简单，关键是，还可…

人工智能 2023年6月18日
0097
树莓派4B安装tensorflow2.1和keras2.3.1

树莓派4B安装tensorflow2.1和keras2.3.1 最近入手了一块树莓派4B，运行内存为8GB（反正是老师出钱，要买就买顶配）。准备在树莓派上运行一下神经网络程序。此神…

人工智能 2023年5月26日
0080
stata回归分析与系数检验专题【计量经济系列（三）】

stata实证分析专题【计量经济系列（三）】文章目录 1. 数据 2. 有常数项的回归 3. 无常数项的回归 4. 多元回归 5. 对部分满足条件数据做回归 6. predict…

人工智能 2023年7月14日
00491
【Geron-机器学习实战】学习笔记 3-卷积神经网络 CNN的基本介绍

CNN 卷积层平移不变性，局部性虽称为卷积，但用的是互相关运算(不翻转)，而非信号处理中的卷积(翻转)概念影响前向计算的所有可能输入区域称为感受野填充(padding…

人工智能 2023年7月14日
0075
Python 字典dict详解（超详细）

字典是一个无序、可变和有索引的集合。在 Python 中，字典用花括号编写，拥有键和值。 1、创建字典在Python中，我们可以使用 {} 或者 dict() 函数来创…

人工智能 2023年7月5日
0069
论文阅读：Question Answering Over Temporal Knowledge Graphs

论文阅读：Question Answering Over Temporal Knowledge Graphs 我们首先在我们的新数据集上应用大型预训练的基于 LM 的 QA 方法。…

人工智能 2023年5月28日
0092
Deep Dream：理解深度神经网络结构及应用（实战篇）

慕课：《深度学习应用开发-TensorFlow实践》章节：第十一讲 Deep Dream：理解深度神经网络结构及应用TensorFlow版本为2.3 目录 Deep Dream…

人工智能 2023年5月26日
0084
几种主要的分类预测模型的python代码实现-感知机，支持向量机，决策树和随机森林，人工神经网络

机器学习定义：假设用 P 来评估计算机程序在某任务类 T 上的性能，若一个程序利用经验 E 在任务 T 上获得了性能改善，则我们就说关于 T 和 P, 该程序对 E 进行了学习。经…

人工智能 2023年6月15日
00107
图片经过卷积和池化层后输出尺寸的计算

以最近遇到的网络结构和MNIST数据集为例： class Net(nn.Module): def __init__(self): super(Net, self).__init__…

人工智能 2023年7月23日
0049
记一次失败的《将视频中的音频转换成文字》的经历

如何将视频中的音频转换为文本 [En] How to convert audio in video into text 前言前段时间我打算做B站林超的视频笔记，突然想到我是否可以…

人工智能 2023年5月27日
0097
〖Python零基础入门篇㉜〗- 面向对象编程 – 模块化程序设计之函数的小实战

### 回答1：面向对象_的 _程序设计_分为两种，一种是基于类的，另一种是基于原型的。其中基于类的 _程序设计_是最常见的一种，它主要涉及到两个概念，即类和对象。类是一个抽象的…

人工智能 2023年7月4日
0075
linux下的opencv-4.5.5 及 opencv_contrib 扩展模块安装

适用于ubuntu(20.04)下安装opencv-4.5.5 以及opencv_contrib 扩展模块一并安装，如果已经安装了opencv-4.5.5，需要安装扩展模块的话，…

人工智能 2023年5月26日
0073
【目标检测】YOLOv5针对小目标检测的改进模型/添加帧率检测

问题背景众所周知，YOLOv5会对输入的图片进行放缩，并进行32倍下采样。对于一些分辨率很高的遥感/无人机图片，小目标难以被训练识别。本篇博文就来尝试这篇博文YOLOV5 模型和…

人工智能 2023年7月30日
0088
【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism

论文标题：Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism来源：NLPCC 2021论文…

人工智能 2023年5月30日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas之链式索引问题（chained indexing）

大家都在看