啃书：《利用python进行数据分析》第五章——pandas入门（二）

2023年7月8日下午4:35 • 人工智能 • 阅读 74

书接上回~~

整数索引

接下来索引篇的一个难点，处理pandas的整数索引常常会难住新手，因为它与python的内置列表元组的索引方式不同。例如下面代码：

ser = pd.Series(np.arange(3.))
ser
ser[-1]

是不是没什么问题？？不，这里错了！！！

这里，pandas可以勉强进行整数索引，但是会导致小bug。我们有包含0,1,2的索引，但是引入用户想要的东西（基于标签或位置的索引）很难。

另外，对于非整数索引，不会产生歧义：

In [145]: ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])

In [146]: ser2[-1]
Out[146]: 2.0

为了进行统一，如果轴索引含有整数，数据选取总会使用标签。为了更准确，请使用loc（标签）或iloc（整数）：

In [147]: ser[:1]
Out[147]:
0    0.0
dtype: float64

In [148]: ser.loc[:1]
Out[148]:
0    0.0
1    1.0
dtype: float64

In [149]: ser.iloc[:1]
Out[149]:
0    0.0
dtype: float64

算术运算和数据对齐

pandas最重要的一个功能就是，它可以对不同索引的对象进行算术运算。当你把对象相加时，如果存在某个索引不对应，返回结果就是索引的并集。对于用过数据库的同学们来说，这类似与数据库中的自动外连接。以下是示例：

In [150]: s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [151]: s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
   .....:                index=['a', 'c', 'e', 'f', 'g'])

In [152]: s1
Out[152]:
a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [153]: s2
Out[153]:
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [154]: s1 + s2
Out[154]:
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

自动的数据对齐操作在不重叠的索引处引入了NA值。缺失值会在算术运算过程中传播。

对于DataFrame，对齐操作会同时发生在行和列上：

In [155]: df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
   .....:                    index=['Ohio', 'Texas', 'Colorado'])

In [156]: df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
   .....:                    index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [157]: df1
Out[157]:
            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0

In [158]: df2
Out[158]:
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

In [159]: df1 + df2
Out[159]:
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN

因为’c’和’e’列均不在两个DataFrame对象中，在结果中以缺省值呈现。行也是同样。

如果DataFrame对象相加，没有共用的列或行标签，结果都会是空：

In [160]: df1 = pd.DataFrame({'A': [1, 2]})

In [161]: df2 = pd.DataFrame({'B': [3, 4]})

In [162]: df1
Out[162]:
   A
0  1
1  2

In [163]: df2
Out[163]:
   B
0  3
1  4

In [164]: df1 - df2
Out[164]:
    A   B
0 NaN NaN
1 NaN NaN

使用填充值的算术方法

经过上面模块的学习，我想你也发现了一个问题，我在这两个不同索引对象运算中，我不想让它生成NaN，我想自己设置出现不同的情况怎么办。pandas当然也设计了如下，比如你要填充值是0时：

In [165]: df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
   .....:                    columns=list('abcd'))

In [166]: df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
   .....:                    columns=list('abcde'))

In [167]: df2.loc[1, 'b'] = np.nan

In [168]: df1
Out[168]:
     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

In [169]: df2
Out[169]:
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0

In [171]: df1.add(df2, fill_value=0)
Out[171]:
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0   5.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0

图5-2列出了Series和DataFrame的算术方法。它们每个都有一个副本，以字母r开头，它会翻转参数。因此这两个语句是等价的：

In [172]: 1 / df1
Out[172]:
          a         b         c         d
0       inf  1.000000  0.500000  0.333333
1  0.250000  0.200000  0.166667  0.142857
2  0.125000  0.111111  0.100000  0.090909

In [173]: df1.rdiv(1)
Out[173]:
          a         b         c         d
0       inf  1.000000  0.500000  0.333333
1  0.250000  0.200000  0.166667  0.142857
2  0.125000  0.111111  0.100000  0.090909

图5-2 灵活的算术方法

与此类似，在对Series或DataFrame重新索引时，也可以指定一个填充值：

In [174]: df1.reindex(columns=df2.columns, fill_value=0)
Out[174]:
     a    b     c     d  e
0  0.0  1.0   2.0   3.0  0
1  4.0  5.0   6.0   7.0  0
2  8.0  9.0  10.0  11.0  0

DataFrame和Series之间的操作

这两者之间的操作与Numpy中不同维度数组的操作类似，如果你有学习过我之前的文章，这一小节也会理解的非常快。首先举个例子，考虑二维数组和其中一行之间差：

In [175]: arr = np.arange(12.).reshape((3, 4))

In [176]: arr
Out[176]:
array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])

In [177]: arr[0]
Out[177]: array([ 0.,  1.,  2.,  3.])

In [178]: arr - arr[0]
Out[178]:
array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

当我们从arr减去arr[0]，每一行都会执行这个操作。这就叫做广播（broadcasting）。DataFrame和Series之间的运算差不多也是如此：

In [179]: frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
   .....:                      columns=list('bde'),
   .....:                      index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [180]: series = frame.iloc[0]

In [181]: frame
Out[181]:
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

In [182]: series
Out[182]:
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [183]: frame - series
Out[183]:
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0

如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集：

In [184]: series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [185]: frame + series2
Out[185]:
          b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN

如果你希望匹配行且在列上广播，则必须使用算术运算方法。例如：

In [186]: series3 = frame['d']

In [187]: frame
Out[187]:
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

In [188]: series3
Out[188]:
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [189]: frame.sub(series3, axis='index')
Out[189]:
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0

传入的轴号就是希望匹配的轴。在本例中，我们的目的是匹配DataFrame的行索引（axis=’index’ or axis=0）并进行广播。

再分个P~~

Original: https://blog.csdn.net/zhouxyly/article/details/125507914
Author: CodeByZhou
Title: 啃书：《利用python进行数据分析》第五章——pandas入门（二）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678875/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

制作一个简单HTML西安旅游网页(HTML+CSS)

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓，页面排版干净简洁。使用HTML+CSS页面布局设计,web大学生网页设计作业源码，这是一个不错的旅游网页制作，画面精明，排版整洁，内容…

人工智能 2023年6月26日
0084
对抗生成网络（GAN）详解

目录前言目标函数原理训练给定生成器，训练判别器给定判别器，训练生成器总结前言之前的生成模型侧重于将分布函数构造出来，然后使用最大似然函数去更新这个分布函数的参数，…

人工智能 2023年5月26日
0049
图像中的Exif信息及其处理

1.Exif 可交换图像文件格式（英语：Exchangeable image file format，官方简称Exif），是专门为数码相机的照片设定的文件格式，可以记录数码照片的属…

人工智能 2023年6月22日
0070
海康威视工业相机SDK二次开发（VS+Opencv+QT+海康SDK+C++）（二）

本文接上次的博客海康威视工业相机SDK二次开发（VS+Opencv+QT+海康SDK+C++）（一），上个博客中并未用到QT，本文介绍项目内容及源码，供大家参考。由于我的项目中是…

人工智能 2023年6月18日
00810
图像处理/计算机视觉/ python环境下如何用滤波器（/逆滤波/均值滤波/低通滤波/高通滤波）处理图片【附代码】

计算机视觉滤波器实操基础知识 * 一、计算机视觉技术中常见的几种滤波器二、滤波器相关知识应用一：算术均值、几何均值、谐波逆谐波 * 一、问题分析二、结果图三、代码附录 …

人工智能 2023年6月20日
0061
数据分析入门（kaggle实战—泰坦尼克）

载入数据任务一：导入numpy和pandas import numpy as np import pandas as pd 任务二：载入数据 (1) 使用相对路径载入数据(2) …

人工智能 2023年7月18日
0055
知识图谱培训笔记1

导师给报的知识图谱培训做个笔记如果没有反向传播不能自动更新权重和偏执有y值就是有监督就是有target x值就是features knn 在做知识图谱的时候很好用无监…

人工智能 2023年6月1日
0065
玉米叶片病害识别与分类的DenseNet优化模型（公共数据集合并）

A B S T R A C T 提出了一种优化的密集卷积神经网络(CNN)体系结构(DenseNet)，用于玉米叶片病害的识别和分类。玉米是世界上种植最多的谷物之一。玉米作物对某些…

人工智能 2023年7月2日
0089
ROS系列——如何把ROS和STM32之间联系起来

ROS系列——如何把ROS和STM32之间联系起来本节内容包括如何实现ros主控和stm32之间的通信，以及ros主控对stm32发送的数据做了哪些处理一. 两种控制器的功能 …

人工智能 2023年6月10日
0070
MATLAB群智能算法开源第二十八期-动态元启发式神经网络优化算法

1 写在前面该系列为基础群智能优化算法，欢迎私信一起交流问题，更多的改进算法可查看往期的推文。有问题或者需要其他建议的话，非常欢迎后台私信交流，共同进步，如若出现违反学术道德的…

人工智能 2023年7月14日
0060
超图学习:聚类、分类和嵌入（实现超图谱聚类和节点嵌入）

原文：learning-with-hypergraphs-clustering-classification-and-embedding 摘要：贡献：超图表示超越双边关系的复杂关…

人工智能 2023年5月31日
00275
机器学习之信用卡欺诈检测

机器学习之信用卡欺诈检测一、机器学习之信用卡欺诈检测 * 1.1 前言 1.2 案例分析 – 1.2.1 导入所需模块到 python 环境 1.2.2 读取数据，删…

人工智能 2023年7月28日
0066
【Pandas】笔记内容001：“FutureWarning: The default value of regex will change from True to False…“解释说明

文章目录背景过程说明修改解释背景使用pandas中的 .str.replace()进行文本内容转变时，得到一个提醒 FutureWarning: The default …

人工智能 2023年7月14日
0059
python——实现鼠标与键盘监听与事件处理

文章目录 * – 有三种方法 – 第一种方案 – 第二种方案 – 使用opencv实现 – 第三种方案 – …

人工智能 2023年7月6日
0076
线性神经网络–Fashion-MNIST数据集读取显示

读取和显示图像 import torch from d2l import torch as d2l from torch.utils import data import matp…

人工智能 2023年7月1日
0068
Greenplum 实时数据仓库实践（8）——事实表技术

目录 8.1 事实表概述 8.2 周期快照 8.3 累积快照 8.4 无事实的事实表 8.5 迟到的事实 8.6 累积度量小结上一篇里介绍了几种基本的维度表技术，并用示例演示了…

人工智能 2023年7月17日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30