Python数据分析系列5—DataFrame数据操作

2023年7月16日下午11:27 • 人工智能 • 阅读 95

1、索引对象index

pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index：

In [76]: obj = pd.Series(range(3), index=['a', 'b', 'c'])

In [77]: index = obj.index

In [78]: index
Out[78]: Index(['a', 'b', 'c'], dtype='object')

In [79]: index[1:]
Out[79]: Index(['b', 'c'], dtype='object')

Index对象是不可以赋值修改的，具有不可变性。不可变使得Index对象在多个数据结构之间安全共享。

2、Series和DataFrame中数据的基本手段

2.1 重新索引

①pandas对象的方法reindex：其作用是创建一个新对象，它的数据符合新的索引排序。

obj2 = obj.reindex([‘a’,’b’,’c’,’d’,’e’])

②reinex方法的method选项：实现前项值填充：

In [95]: obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [96]: obj3
Out[96]:
0      blue
2    purple
4    yellow
dtype: object

In [97]: obj3.reindex(range(6), method='ffill')
Out[97]:
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

③DataFrame中的reindex方法

reindex可以修改（行）索引和列。只传递一个序列时，会重新索引结果的行：

重新索引行：frame2 = frame.reindex([‘a’, ‘b’, ‘c’, ‘d’])

重新索引列：states = [‘Texas’, ‘Utah’, ‘California’]

frame.reindex(columns=states)

2.2 丢弃指定轴上的项

丢弃某条轴上的一个或多个项很简单，只要有一个 索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以 drop方法返回的是一个在指定轴上删除了指定值的 新对象：

In [105]: obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [106]: obj
Out[106]:
a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [107]: new_obj = obj.drop('c')

In [108]: new_obj
Out[108]:
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [109]: obj.drop(['d', 'c'])
Out[109]:
a    0.0
b    1.0
e    4.0
dtype: float64

DataFrame可以删除任意轴上的索引值，用标签序列调用drop会从行标签（axis 0）删除值（默认）：

In [112]: data.drop(['Colorado', 'Ohio'])
Out[112]:
          one  two  three  four
Utah        8    9     10    11
New York   12   13     14    15

通过传递 axis=1或axis=’columns’可以删除列的值：

In [113]: data.drop('two', axis=1)
Out[113]:
          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15

In [114]: data.drop(['two', 'four'], axis='columns')
Out[114]:
          one  three
Ohio        0      2
Colorado    4      6
Utah        8     10
New York   12     14

可以使用inplace关键字，指定替代原来的对象而不是产生新的对象：

In [115]: obj.drop('c', inplace=True)

In [116]: obj
Out[116]:
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

小心使用inplace，它会销毁所有被删除的数据。

2.3 索引、选取和过滤

Series索引（obj[…]）的工作方式类似于NumPy数组的索引，只不过Series的索引值不只是整数。下面是几个例子：

obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj['b']
obj[['b', 'a', 'd']]
obj[1]
obj[2:4]
obj[[1, 3]]
obj[obj < 2]

利用标签的切片运算与普通的Python切片运算不同， 其末端是包含的：

In [125]: obj['b':'c']
Out[125]:
b    1.0
c    2.0
dtype: float64

DataFrame索引：用一个值或序列对DataFrame进行索引其实就是获取一个或多个列。

data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=[‘Ohio’, ‘Colorado’, ‘Utah’, ‘New York’],
columns=[‘one’, ‘two’, ‘three’, ‘four’])

选取列：
向[ ]传递单一的元素或列表，就可选择列。
data[‘two’]
data[[‘three’, ‘one’]]
选取行：
切片或布尔型数组选取数据
data[:2]
data[data[‘three’] > 5]
选取行的语法data[:2]十分方便。

另一种用法是通过布尔型DataFrame（比如下面这个由标量比较运算得出的）进行索引：

In [134]: data < 5
Out[134]:
            one    two  three   four
Ohio       True   True   True   True
Colorado   True  False  False  False
Utah      False  False  False  False
New York  False  False  False  False

In [135]: data[data < 5] = 0

In [136]: data
Out[136]:
          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

2.4 用loc和iloc进行选取

对于DataFrame的行的标签索引，有特殊的标签运算符LOC和iloc，使用轴标签(loc)或整数索引(iloc)，从DataFrame选择行和列的子集：

In [137]: data.loc['Colorado', ['two', 'three']]
Out[137]:
two      5
three    6
Name: Colorado, dtype: int64

    &#x2018;&#x2018;&#x2018;&#x7528;iloc&#x548C;&#x6574;&#x6570;&#x8FDB;&#x884C;&#x9009;&#x53D6;&#x2019;&#x2019;&#x2019;

In [138]: data.iloc[2, [3, 0, 1]]
Out[138]:
four    11
one      8
two      9
Name: Utah, dtype: int64

In [139]: data.iloc[2]
Out[139]:
one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [140]: data.iloc[[1, 2], [3, 0, 1]]
Out[140]:
          four  one  two
Colorado     7    0    5
Utah        11    8    9

loc和iloc这两个索引函数也适用于一个标签或多个标签的切片：

data.loc[:’Utah’, ‘two’]

data.iloc[:, :3][data.three > 5]

Series和DataFrame的算术方法

它们每个都有一个副本，以字母r开头，它会翻转参数。因此这两个语句是等价的：

2.6 DataFrame和Series之间的运算

与不同维度的Numpy数组的运算相似，DataFrame和Series之间的运算遵循广播(broadcast)机制，当从arr减去arr[0]，每一行都会执行这个操作：

In [176]: arr
Out[176]:
array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])

In [177]: arr[0]
Out[177]: array([ 0.,  1.,  2.,  3.])

In [178]: arr - arr[0]
Out[178]:
array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

DataFrame和Series之间的运算差不多也是如此：

In [179]: frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
   .....:                      columns=list('bde'),
   .....:                      index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [180]: series = frame.iloc[0]

In [181]: frame
Out[181]:
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

In [182]: series
Out[182]:
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

默认情况下，DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，然后沿着行一直向下广播：

In [183]: frame - series
Out[183]:
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0

Original: https://blog.csdn.net/webwow/article/details/123542864
Author: webwow
Title: Python数据分析系列5—DataFrame数据操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697443/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Anaconda创建环境及环境配置

Anaconda创建环境及环境配置 1-创建环境 2-激活环境 3-删除环境 4-退出环境 5-注 1-创建环境前情提要：默认你已经安装 _anaconda_的基础上。以下操…

人工智能 2023年7月4日
0092
OpenCV4.5.5学习笔记（二十一）：SURF特征点检测和提取（绘制关键点与匹配点）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、绘制关键点二、绘制匹配点总结前言笔者本科时候有幸接触了OpenCV3.2.0版本的学习…

人工智能 2023年7月20日
0090
PyTorch中的张量（tensor）和NumPy数组有什么区别？如何进行张量操作和运算

引言在深度学习中，张量（tensor）是一种常用的数据结构，用于表示数据。PyTorch和NumPy都支持张量和数组操作，但它们之间有一些区别。本文将详细介绍PyTorch中张量…

人工智能 2024年1月2日
0032
NIPS20 基于在线聚类的表征学习 SwAV《Unsupervised Learning of Visual Features by Contrasting Cluster Assignment》

文章目录 * – 原文地址 – 初识 – 相知 – 回顾原文地址 https://arxiv.org/abs/2006.09882…

人工智能 2023年5月31日
0088
机器学习算法介绍-拔草ChatGPT

最近ChatGPT（https://chat.openai.com）特别火，笔者也借此机会尝鲜了一波。ChatGPT是一个一个大型语言模型，它的功能是回答用户提出的问题。它可以回答…

人工智能 2023年7月31日
0060
C++ Opencv之3D透视变换

前言: 各位小伙伴们是不是经常出现拍摄角度不佳,看着特别难受,想把图片中的某个物体翻转一下呢? 本文就以下面这本书为例,只需要鼠标按照顺时针点击书的四个脚就可以完成变换: 侧着看好…

人工智能 2023年6月18日
0086
动漫风格化—AnimeGANv2

animegan2_face2paint_v2bryandlee/naver-webtoon-faces AnimeGANv2 项目 [Project]AnimeGANv2 ; 摘…

人工智能 2023年5月28日
00125
基于Pytorch实现的声音分类

前言本章我们来介绍如何使用Pytorch训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。 …

人工智能 2023年7月20日
0067
商务蓝牙耳机什么牌子的好？商务通话蓝牙耳机推荐

随着时代的发展，人们对自我享受的要求越来越高，宁可静下心来听音乐，也好过和三个朋友约会。当然，良好的享受需要性价比高的设备。如果你也想体验蓝牙耳机带来的安静纯粹的享受，这里有4款蓝…

人工智能 2023年5月25日
0069
土地利用/土地覆盖数据整理

土地利用/土地覆盖数据是开展地理、生态、环境等研究的基础数据，本文对目前主流且开源的土地利用数据进行整理，随时更新，欢迎补充！ 1. GlobeLand30 中国向联合国提供的首个…

人工智能 2023年6月16日
0062
【流行前沿】Fundamentals of Task-Agnostic Data Valuation

今天分享一篇8月arxiv上发布的研究数据价值评估的文章，作者Amiri从Princeton又换到MIT的媒体实验室了。故事的起源是作者想衡量数据的价值，但是又不想依赖于现有的两…

人工智能 2023年6月4日
0074
tensorflow基础学习-anaconda方式安装tensorflow（gpu-1.15.0版本）

前言关于anaconda方式安装tensorflow(cpu版本)之前已经有博客写过了。这一次更新一下anaconda方式安装tensorflow（gpu版本），他们的区别在于T…

人工智能 2023年5月25日
0090
计算机视觉项目实战-目标检测与识别

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学…

人工智能 2023年6月23日
00105
Diffusion Model扩散模型原理

本文并非原创，只是个人的学习的笔记，作者只对一些步骤进行了简单的推导。具体内容请参考： https://lilianweng.github.io/posts/2021-07-11-…

人工智能 2023年6月16日
0059
OpenCV 通过计算连通域面积过滤面积小的区域–Python

代码参考：https://blog.csdn.net/u014264373/article/details/119486850 通过卷积神经网络预测图像的分割结果时，会发现分割外部…

人工智能 2023年6月18日
0073
R语言编写自定义分段函数、R语言编程实现分段函数并可视化分段函数实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31