pandas 数据结构（二）：DataFrame

2023年7月9日上午3:38 • 人工智能 • 阅读 107

DataFrame 的基本结构

DataFrame是一个表格型的数据，它是一系列有序的列的集合，每一列可以是不同的数据类型（数值、字符串、布尔值）。DataFrame既有行索引（columns），又有列索引（index），可以看成是一个共享相同索引的Series的集合。

; DataFrame 的构建

包含等长度列表的字典创建DataFrame

字典中的列表长度一定要相等，否则会报错。

In [1]: data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
   ...:         'year': [2000, 2001, 2002, 2001, 2002, 2003],
   ...:         'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [4]: df = pd.DataFrame(data)
In [5]: df
Out[5]:
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2

通过 columns关键字指定列的顺序。如果通过 columns传递的列不包含在字典中，会自动以NaN补齐该列。

In [6]: df1 = pd.DataFrame(data, columns=['year', 'state', 'pop'])

In [7]: df1
Out[7]:
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9
5  2003  Nevada  3.2

In [8]: df2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'])

In [9]: df2
Out[9]:
   year   state  pop debt
0  2000    Ohio  1.5  NaN
1  2001    Ohio  1.7  NaN
2  2002    Ohio  3.6  NaN
3  2001  Nevada  2.4  NaN
4  2002  Nevada  2.9  NaN
5  2003  Nevada  3.2  NaN

通过 index关键词指定行索引。

In [10]: df3 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five', 'six'])

In [11]: df3
Out[11]:
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN

包含等长度数组的字典创建DataFrame

In [28]: data = {'state': np.array(['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada']),
    ...:         'year': np.array([2000, 2001, 2002, 2001, 2002, 2003]),
    ...:         'pop': np.array([1.5, 1.7, 3.6, 2.4, 2.9, 3.2])}

In [29]: df4 = pd.DataFrame(data)
In [30]: df4
Out[30]:
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2

包含字典的嵌套字典创建DataFrame

In [31]: pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002:3.6}}

In [36]: df5 = pd.DataFrame(pop, index=[2000, 2001, 2002])
In [37]: df5
Out[37]:
      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6

使用嵌套字典构建DataFrame，字典的key会作为DataFrame的列索引，内部字典的key会作为行索引。内部字典的长度可以不等，缺失值以NaN补齐。

包含Series的字典创建DataFrame

In [41]: df5['Ohio']
Out[41]:
2000    1.5
2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [38]: pdata = {'Ohio': df5['Ohio'][:2], 'Nevada': df5['Nevada'][:2]}

In [39]: df6 = pd.DataFrame(pdata)
In [40]: df6
Out[40]:
      Ohio  Nevada
2000   1.5     NaN
2001   1.7     2.4

DataFrame 的增删改查

选取DataFrame的列

方式1： DataFrame[columns]
方式2： DataFrame.columns

In [12]: df3['state']
Out[12]:
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [13]: df3.state
Out[13]:
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

从DataFrame中获取一列，呈现出Series的形式。且返回的Series具有和DataFrame相同的行索引，Series的name属性也被合理的设置。

通过 `loc` 关键字获取行

In [14]: df3.loc['two']
Out[14]:
year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

重新为列赋值

使用标量为列赋值。

In [15]: df3['debt'] = 1.2

In [16]: df3
Out[16]:
       year   state  pop  debt
one    2000    Ohio  1.5   1.2
two    2001    Ohio  1.7   1.2
three  2002    Ohio  3.6   1.2
four   2001  Nevada  2.4   1.2
five   2002  Nevada  2.9   1.2
six    2003  Nevada  3.2   1.2

使用等长的列表或者数组为列赋值

In [17]: df3['debt'] = [-1.2, 3.0, 4.1, -5.2, 7.1, 10.9]

In [18]: df3
Out[18]:
       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   3.0
three  2002    Ohio  3.6   4.1
four   2001  Nevada  2.4  -5.2
five   2002  Nevada  2.9   7.1
six    2003  Nevada  3.2  10.9

In [19]: df3['debt'] = np.array([-1.2, 2.4, 5.2, -7.1, 8.9, 3.6])

In [20]: df3
Out[20]:
       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   2.4
three  2002    Ohio  3.6   5.2
four   2001  Nevada  2.4  -7.1
five   2002  Nevada  2.9   8.9
six    2003  Nevada  3.2   3.6

使用Series为列赋值。将Series赋值给某一列时，长度可以不一致，Series的索引会按照DataFrame的索引重新排列，缺失值以NaN填补。

In [21]: val = pd.Series([-1.2, 3.5, 7.1], index=['one', 'three', 'six'])

In [22]: df3['debt'] = val
In [23]: df3
Out[23]:
       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   NaN
three  2002    Ohio  3.6   3.5
four   2001  Nevada  2.4   NaN
five   2002  Nevada  2.9   NaN
six    2003  Nevada  3.2   7.1

添加列

如果被赋值的列不存在，则会创建一个新的列

In [24]: df3['eastern'] = df3['state'] == 'Ohio'

In [25]: df3
Out[25]:
       year   state  pop  debt  eastern
one    2000    Ohio  1.5  -1.2     True
two    2001    Ohio  1.7   NaN     True
three  2002    Ohio  3.6   3.5     True
four   2001  Nevada  2.4   NaN    False
five   2002  Nevada  2.9   NaN    False
six    2003  Nevada  3.2   7.1    False

使用 `del` 关键词删除列

In [26]: del df3['eastern']

In [27]: df3
Out[27]:
       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   NaN
three  2002    Ohio  3.6   3.5
four   2001  Nevada  2.4   NaN
five   2002  Nevada  2.9   NaN
six    2003  Nevada  3.2   7.1

Original: https://blog.csdn.net/m0_58830154/article/details/125946132
Author: cjwdllj
Title: pandas 数据结构（二）：DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679909/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Swim-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/…

人工智能 2023年5月28日
00152
数学建模学习笔记（八）——分类模型

文章目录 * – 一、分类模型综述 – 二、逻辑回归 – 三、两点分布（伯努利分布） – 四、连接函数的取法 – 五、L…

人工智能 2023年7月1日
0059
kohonen | SOM：自组织映射聚类法（1）

自组织映射（Self-Organizing Maps, SOM）是一种神经网络算法，可以用于聚类分析，由芬兰学者Kohonen提出，在R语言中对应的工具包是 kohonen。最初…

人工智能 2023年6月2日
0093
Qt +opencv 通过级联分类器训练的模型进行识别（车辆识别+人脸识别）

有不对的或更好的方法欢迎交流一些内容可参照这篇文章：https://blog.csdn.net/m0_64596200/article/details/126748697?spm…

人工智能 2023年7月19日
0073
RDF、RDFS和OWL之间的关系

RDF是一种数据模型，定义了知识图谱的图结构，以主谓宾三元组的形式来进行表示。它是一个自底向上的、以数据驱动而形成的知识图谱。 RDF 有很多序列化的方法，主要有RDFS、OWL、…

人工智能 2023年6月10日
0075
pnpm的浅了解

文章目录前言 1.硬链接和软链接概念 2.硬链接demo 3.软链接demo 4.pnpm安装与使用 5.pnpm安装依赖原理 6.pnpm安装依赖demo 前言没学过相关的计…

人工智能 2023年6月27日
0066
【论文精读】ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo Matching

这是一篇CVPR 2022的文章，基于一种新颖的注意力权重代价体构建方法，设计了一种网络结构，用以立体匹配（视差估计，双目深度估计）。原文链接：ACVNet代码链接：https:/…

人工智能 2023年6月2日
00100
Pytorch笔记4：多层感知机实现MNIST数据集分类

文章目录前言一、Torch相关包介绍二、搭建多层感知机 * 1.MNIST介绍 2.下载MNIST数据集 3.搭建神经网络层 1.权重和偏置 2.定义前向计算网络 3.定义梯…

人工智能 2023年7月1日
0095
【自用】图像算法、计算机视觉面试问题及答案1.0

传统机器算法 4.11 图像预处理图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像分割、匹配和识…

人工智能 2023年5月28日
00121
【论文翻译】TNT: Target-driveN Trajectory Prediction

文章目录 1. 前言 2. 相关工作 3. 公式 4. 目标驱动轨迹预测 * 4.1 场景背景编码 4.2 目标预测 4.3 目标条件运动估计 4.4 轨迹评分和选择 4.5 训练…

人工智能 2023年6月10日
0081
vue相关基础知识

vue $nextTick() 等待下一次dom更新刷新的方法使用场景：1、created中想要获取dom时 2、响应式数据变化后获取dom更新状态，比如希望获取列表更新后的高度…

人工智能 2023年6月28日
0073
【OpenCV 例程200篇】224. 特征提取之提取骨架

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程 300篇】224. 特征提取之提取骨架目标特征的基本概念通过图像分割获得多个区域，得到区域内的像素…

人工智能 2023年6月17日
0075
计算机视觉（十三）：Tensorflow执行模式

1.1 Graph Execution（图模式）特点：预定义的计算图表，可在运行时重复使用，不可更改。 [En] pre-defined calculation chart, …

人工智能 2023年5月25日
0085
自训练数据集打标签注意事项及使用工具推荐

盘点自训练数据集如何打标签！一、打标签规则二、推荐工具使用心得前言分享我在训练自己的数据集前期所碰到的一些问题，希望大家能及时避雷！一、打标签规则由于我使用YOLOv…

人工智能 2023年6月16日
00109
【微信小程序 | 实战开发】开发环境、测试环境和生产环境

; 写在前面：你是否想要掌握人工智能的最新技术和应用？你是否想要成为未来社会的创新者和领导者？你是否想要和全球的优秀导师和同学一起学习和交流？如果你的答案是肯定的，那么欢迎来到床…

人工智能 2023年5月31日
00110
知识图谱的时空关联设计

背景知识图谱可以应用在多个业务场景中，对各类对象进行表示、建模。作为一类重要的知识，空间信息在应用中经常需要用到，由此知识图谱与时空关联成为一种重要的应用形式，具备较好的可视化展…

人工智能 2023年6月1日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31