Python数据处理库pandas中的DataFrame数据结构简介

2023年7月7日上午7:31 • 人工智能 • 阅读 74

有很多方法可以创建DataFrame 数据，比如通过字典：

In [1]: import pandas as pd

In [8]: data = {'name': ['&#x5F20;&#x4E09;', '&#x5F20;&#x4E09;', '&#x5F20;&#x4E09;', '&#x674E;&#x56DB;', '&#x674E;&#x56DB;', '&#x674E;&#x56DB;'],
   ...:         'year': [2016, 2017, 2018, 2016, 2017, 2018],
   ...:         'income': [6000, 6500, 7000, 25000, 26000, 29000]}

In [9]: frame = pd.DataFrame(data)

In [10]: frame
Out[10]:
  name  year  income
0   &#x5F20;&#x4E09;  2016    6000
1   &#x5F20;&#x4E09;  2017    6500
2   &#x5F20;&#x4E09;  2018    7000
3   &#x674E;&#x56DB;  2016   25000
4   &#x674E;&#x56DB;  2017   26000
5   &#x674E;&#x56DB;  2018   29000

可以通过head方法来选取前5排：

In [11]: frame.head()
Out[11]:
  name  year  income
0   &#x5F20;&#x4E09;  2016    6000
1   &#x5F20;&#x4E09;  2017    6500
2   &#x5F20;&#x4E09;  2018    7000
3   &#x674E;&#x56DB;  2016   25000
4   &#x674E;&#x56DB;  2017   26000

通过指定columns 来对列排序：

In [13]: pd.DataFrame(data, columns=['year', 'income', 'name'])
Out[13]:
   year  income name
0  2016    6000   &#x5F20;&#x4E09;
1  2017    6500   &#x5F20;&#x4E09;
2  2018    7000   &#x5F20;&#x4E09;
3  2016   25000   &#x674E;&#x56DB;
4  2017   26000   &#x674E;&#x56DB;
5  2018   29000   &#x674E;&#x56DB;

如果在columns中指定了一个不存在的列，这不存在的列会用NAN补足：

In [14]: frame2 = pd.DataFrame(data, columns=['income', 'year', 'name', 'gender'],
    ...:                       index=['one', 'two', 'three', 'four', 'five', 'six'])
    ...:

In [15]: frame2
Out[15]:
       income  year name gender
one      6000  2016   &#x5F20;&#x4E09;    NaN
two      6500  2017   &#x5F20;&#x4E09;    NaN
three    7000  2018   &#x5F20;&#x4E09;    NaN
four    25000  2016   &#x674E;&#x56DB;    NaN
five    26000  2017   &#x674E;&#x56DB;    NaN
six     29000  2018   &#x674E;&#x56DB;    NaN

In [17]: frame2.columns
Out[17]: Index(['income', 'year', 'name', 'gender'], dtype='object')

通过列的名称来选取这一列的数据

In [18]: frame2['name']
Out[18]:
one      &#x5F20;&#x4E09;
two      &#x5F20;&#x4E09;
three    &#x5F20;&#x4E09;
four     &#x674E;&#x56DB;
five     &#x674E;&#x56DB;
six      &#x674E;&#x56DB;
Name: name, dtype: object

In [20]: frame2.income
Out[20]:
one       6000
two       6500
three     7000
four     25000
five     26000
six      29000
Name: income, dtype: int64

通过loc 来选取某一行的数据

In [21]: frame2.loc['six']
Out[21]:
income    29000
year       2018
name         &#x674E;&#x56DB;
gender      NaN
Name: six, dtype: object

可以对某列数字进行赋值

In [22]: frame2['gender'] = 'male'

In [23]: frame2
Out[23]:
       income  year name gender
one      6000  2016   &#x5F20;&#x4E09;   male
two      6500  2017   &#x5F20;&#x4E09;   male
three    7000  2018   &#x5F20;&#x4E09;   male
four    25000  2016   &#x674E;&#x56DB;   male
five    26000  2017   &#x674E;&#x56DB;   male
six     29000  2018   &#x674E;&#x56DB;   male

In [24]: frame2['gender'] = ['male', 'male', 'male', 'female', 'female', 'female']

In [25]: frame2
Out[25]:
       income  year name  gender
one      6000  2016   &#x5F20;&#x4E09;    male
two      6500  2017   &#x5F20;&#x4E09;    male
three    7000  2018   &#x5F20;&#x4E09;    male
four    25000  2016   &#x674E;&#x56DB;  female
five    26000  2017   &#x674E;&#x56DB;  female
six     29000  2018   &#x674E;&#x56DB;  female

可以应用series对对应index赋值

In [26]: gender = pd.Series(['male', 'female'], index=['one', 'four'])

In [27]: frame2['gender'] = gender

In [28]: frame2
Out[28]:
       income  year name  gender
one      6000  2016   &#x5F20;&#x4E09;    male
two      6500  2017   &#x5F20;&#x4E09;     NaN
three    7000  2018   &#x5F20;&#x4E09;     NaN
four    25000  2016   &#x674E;&#x56DB;  female
five    26000  2017   &#x674E;&#x56DB;     NaN
six     29000  2018   &#x674E;&#x56DB;     NaN

通过del 删除某列

In [29]: del frame2['gender']

In [30]: frame2.columns
Out[30]: Index(['income', 'year', 'name'], dtype='object')

另一种创建dataframe类的方法是通过字典嵌套方法：

In [31]: income = {'&#x5F20;&#x4E09;': {2016: 6000, 2017:6500, 2018:7000},
    ...:           '&#x674E;&#x56DB;': {2016: 25000, 2017:26000}}

In [32]: frame3= pd.DataFrame(income)

In [33]: frame3
Out[33]:
        &#x5F20;&#x4E09;          &#x674E;&#x56DB;
2016    6000      25000.0
2017    6500      26000.0
2018    7000          NaN

可以对dataframe转置：

In [34]: frame3.T
Out[34]:
       2016     2017    2018
&#x5F20;&#x4E09;   6000.0   6500.0  7000.0
&#x674E;&#x56DB;  25000.0  26000.0     NaN

对行和列加名字：

In [35]: frame3.index.name = 'year'

In [36]: frame3.columns.name = 'name'

In [37]: frame3
Out[37]:
name    &#x5F20;&#x4E09;       &#x674E;&#x56DB;
year
2016  6000  25000.0
2017  6500  26000.0
2018  7000      NaN

应用to_numpy方法将dataframe转换成二维数组

In [38]: frame3.to_numpy()
Out[38]:
array([[ 6000., 25000.],
       [ 6500., 26000.],
       [ 7000.,    nan]])

In [39]: frame2.to_numpy()
Out[39]:
array([[6000, 2016, '&#x5F20;&#x4E09;'],
       [6500, 2017, '&#x5F20;&#x4E09;'],
       [7000, 2018, '&#x5F20;&#x4E09;'],
       [25000, 2016, '&#x674E;&#x56DB;'],
       [26000, 2017, '&#x674E;&#x56DB;'],
       [29000, 2018, '&#x674E;&#x56DB;']], dtype=object)

参考自： Python for Data Analysis, 2nd Edition by Wes McKinney

Original: https://blog.csdn.net/bo17244504/article/details/124692061
Author: amateur
Title: Python数据处理库pandas中的DataFrame数据结构简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675770/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NLP工具集：【doccano】——标注平台doccano使用手册

一. 简介 doccano 是一个开源的文本标注平台。它为文本分类、序列标记和序列到序列任务提供标注功能。因此，您可以为情感分析、命名实体识别、文本摘要、机器翻译等任务创建标注数据…

人工智能 2023年5月27日
00129
小样本故障诊断 – 注意力机制代码 – BiGRU代码解析实现

文章目录 1 参考论文 2 开源代码 3.摘要 4.故障诊断流程图 5.网络模型 6.网络结构简介 7.网络模型代码 * 7.1MetaAconC – 模块代码代码测…

人工智能 2023年6月15日
0068
【视觉SLAM14讲】【汇总】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月23日
0086
Vscode Opencv4.5.2环境搭建

目录 1.引言2.环境3.步骤引言因为个人需要读懂视觉代码，linux系统使用较烂，于是便想使用vscode来进行。总结：个人水平不行，痛苦；关于 IDE 的选择：因为目前…

人工智能 2023年7月20日
0061
基于Anaconda、wIN10的TensorFlow-GPU环境安装

一、配置 Win10+显卡NVIDIA GeForce GT730Pycharm:2021版本（假设已经安装）Anaconda：2020版本（假设已经安装）二、环境要求 Tens…

人工智能 2023年5月24日
0057
【CIPS 2016】(17章)文字识别 (研究进展、现状&趋势)

CIPS 2016 笔记整理《中文信息处理发展报告（2016）》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理，官方定位是深度科普，旨在向政府、企业、媒体等对中…

人工智能 2023年5月30日
0094
python使用seaborn绘图：直方图displot、密度图、散点图

目录一、直方图distplot() 二、密度图 * 2.1 单个样本数据分布密度图转自：https://www.cnblogs.com/Forever77/p/11399523…

人工智能 2023年7月7日
0074
私域流量知识图谱_关于私域流量知识，简单易懂的图文介绍分享

最近总能看到各种关于”私域流量”的话题或课程，总觉得这个词语过于学术，实话说在2017年我接触到这个词也觉得云里雾里，今天就给大家分享收集整理来的干货介绍图…

人工智能 2023年6月1日
0068
一道题学习node.js中的CRLF注入

前言这几天刷题遇到在node.js题目中注入CRLF实现ssrf的题目，对于我来说知识听新颖。在此记录一下。 CRLF注入学习过http请求走私漏洞的师傅对于这个CRLF肯定不…

人工智能 2023年6月27日
0083
【ERROR】RuntimeError: CUDA error: no kernel image is available for execution on the device出现问题及解决方案

RuntimeError: CUDA error: no kernel image is available for execution on the device 可能原因一：G…

人工智能 2023年6月17日
00101
基于改进SSD算法的小目标检测与应用

人工智能技术与咨询点击蓝字 · 关注我们来源：《计算机科学与应用》，作者刘洋等关键词: SSD；深度学习；小目标检测摘要：摘要: 针对通用目标检测方法在复杂环境下检测…

人工智能 2023年7月9日
0076
基于ZYNQ的帧差法多运动目标检测(开源)

简介该项目基于OV5640摄像头与ZYNQ，实现最多8个运动目标的检测，输出结果会显示在RGB LCD屏幕，开发板的四个按键功能如下 PL_KEY0：控制运动区域阈值的变化 PL…

人工智能 2023年5月26日
0068
中断线程化

中断线程化中断处理程序包括上半部硬件中断处理程序，下半部处理机制，包括软中断、tasklet、workqueue、中断线程化。当一个外设中断发生后，内核会执行一个函数来响应该…

人工智能 2023年7月31日
0056
自制AVA数据集工具/slowfast模型训练数据集制作

AVA2.1版本更新了追踪这一列。那2.2版本请参考此链接文章：自定义ava数据集及训练与测试完整版时空动作/行为视频数据集制作 yolov5, deep sort, V…

人工智能 2023年5月28日
00145
Pandas简单操作

两种方式，一般用第一种就行了： import pandas as pd 此种方式导入的话，是通过pd来调用pandas的自带方法 from pandas import * 此种方式…

人工智能 2023年7月7日
0058
Python 文件的读写操作

Python 在文件读写操作中，会使用「内置函数」和「Pandas 库」两种方式。先来看内置函数，包括 open()、read()、readline()、readlines()、…

人工智能 2023年7月4日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据处理库pandas中的DataFrame数据结构简介

另一种创建dataframe类的方法是通过字典嵌套方法：

大家都在看