Python3 DataFrame数据详解

2023年6月19日下午3:51 • 人工智能 • 阅读 64

pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作，它是一个表格型的数据结构, 每一列代表一个变量，而每一行则是一条记录。简答地说，DataFrame是共享同一个index 的Series的集合。

DataFrame对象的创建方法与Series对象类似，只不过可以同时接受多条一维的列表, 每个列表都会成为单独的一列。在创建DataFYame对象之前，要先创建一个索引。索引是一个DataFrame对象必须有的元素，起到标识的作用。

import numpy as np
import pandas as pd

dates = ['2016-01-01','2016-01-02','2016-01-03','2016-01-04','2016-01-05','2016-01-06']
dates=pd.to_datetime(dates)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))

df

Out[5]:
                   A         B         C         D
2016-01-01  1.006510  1.678675 -0.156752  0.444550
2016-01-02  1.852856 -1.751584  0.720768  2.461106
2016-01-03 -0.800489  0.551971  0.330224 -1.446671
2016-01-04  0.335725  0.233649 -0.488270 -0.768260
2016-01-05  0.171777  0.029941 -1.627771 -0.375686
2016-01-06  0.527360 -0.405248 -0.431333 -0.051660

df2 = pd.DataFrame({'c1':['apple']*3+['banana']*3+['apple'],'c2':['a','a',3,3,'b','b','a']})

df2
Out[3]:
       c1 c2
0   apple  a
1   apple  a
2   apple  3
3  banana  3
4  banana  b
5  banana  b
6   apple  a

对于多数常见的存储数据的文件，比如 . t x t 文件或是 . C S V 文件，都可以用 read_table()函数来处理，该函数的调用形式为：

 pd.read_table('data_flie', sep='\t *, header=None, names=None)

上面代码中的参数是几个比较常见的参数，其中• datable(指定了需要读入的文档 (包含路径)；sep=’b表示字段之间的分隔符为Tab分隔符(此为默认取值)；header是指用作列名(变量名)的行数，比如header=0 (默认取值)指的是第0行的数据用来做列名，header=None是指没有列名；names可以指定各列变量名，如果header=0则说明将第 0行作为列名，此时可以将names取值为None。read_table()函数还有很多参数，有兴趣读者可以自行翻阅文档来查看该函数的所有参数及用法。

Pandas库中还有一个专门处理csv文件的函数read_csv(),该函数与read_table() 的参数十分类似。假设我们要读取test.csv中的数据，对应的代码如下：

df = pd.read_csv('filepath/test.csv', header=None, sep=',')

其中，filepath是test.csv文件所在的路径，比如在D盘的data文件夹里，则filepath 为D:/data； header=None表示没有列表名，sep=’,1表示字段之间的分隔符为逗号(默认值)。

另外，我们可以通过pd.to_csv()函数讲数据导成csv文件

要读取MySQL中的数据，首先要安装Pandas支持的MySQL驱动，MySQL and MariaDB — SQLAlchemy 1.4 Documentation列出了所有支持的 MySQL 驱动。下面以MySQLdb包为例来说明一下Pandas读取MySQL数据的方法。假设数据库stock安装在本地，用户名为root,密码为pwdl23,要读取stock数据库中的数据，对应的代码如

import pandas as pd
import MySQLdb
mysql_cn= MySQLdb.connect(host='localhost' , port=3306,user='root' , passwd='pwdl23',db='stock')

#stock数据库有两张表，分别为stock和company
#现在我们要从company表中读10笔资料
df=pd.read_sql('select * from company limit 10;' , con=mysql_cn)
mysql_cn.close()

上面的代码读取了 stock数据库company表中的10笔数据到df中，得到的df的数据结构为 Dataframe

我们可以先安装openpyxl包，然后使用pd.read_excel（）和pd.to_excel()完成Excel文件的读写。

二、查看DataFrame数据

我们可以通过head(),tail(),等方式查看DataFrame对象。

pro = ts.pro_api()
df = pro.daily(ts_code='600036.Sh', start_date='20220101', end_date='20220508')
df
df.head(20)
df.tail(20)
df.columns
df.values()

#对行进行切边
df[1:3]

#提取单独一列
df['open']

#提取多列
df['open','close','higt','low']

#根据boolean值进行条件提取
df[df['open']

可以通过行和列的标签名来提取相应的数据，主要是运用df.loc[row_indexer, column_ indexer]进行操作:

import numpy as np
import pandas as pd

dates = ['2022-01-01','2022-01-02','2022-01-03','2020-01-04','2022-01-05','2022-01-06']
df = pd.DataFrame(np.random.randn(6,4),index=pd.to_datetime(dates),columns=list('ABCD'))

df
Out[20]:
                   A         B         C         D
2022-01-01  0.913514 -0.730723  0.955370 -0.058252
2022-01-02 -0.971986 -2.042502 -0.030837 -0.598257
2022-01-03 -0.631342 -0.053240  2.327449 -0.690162
2020-01-04  1.206026 -0.604635 -0.041982 -1.108210
2022-01-05 -0.211006 -0.615417 -0.478857  1.036294
2022-01-06  1.372739 -0.161088 -0.308481 -0.091903

#提取某一列数据
df.loc[:,"A"]

#提取几列数据
df.loc[:,"A":"C"]

#提取特定的行和列
df.loc[dates[0:2],"A":"C"]
Out[21]:
                   A         B         C
2022-01-01  0.913514 -0.730723  0.955370
2022-01-02 -0.971986 -2.042502 -0.030837

#提取特定的标量
df.loc[dates[0],"A"]
Out[23]:
2022-01-01    0.913514
Name: A, dtype: float64

#根据boolean值进行条件提取
df.loc[df.loc[:,"A"]>0]

通过位置提取特定的数据与通过标签切片类似：

#提取某行数据
df.iloc[2]

#提取某列数据

df.iloc[:2]
#提取1行和4行的第2列及第3列的数据
df.iloc[[1,4],[2,3]]

#切片
df.iloc[1:4,2:3]

#提取特定标量
df.iloc[3,3]

df.iat[3,3]

#根据bolean值进行条件提取
df.loc[:,df.iloc[3]>0]

DataFrame数据结构是二维的，二维数据常常要用到的操作是转置:

df.T
Out[37]:
   2022-01-01  2022-01-02  2022-01-03  2020-01-04  2022-01-05  2022-01-06
A    0.913514   -0.971986   -0.631342    1.206026   -0.211006    1.372739
B   -0.730723   -2.042502   -0.053240   -0.604635   -0.615417   -0.161088
C    0.955370   -0.030837    2.327449   -0.041982   -0.478857   -0.308481
D   -0.058252   -0.598257   -0.690162   -1.108210    1.036294   -0.091903

DataFrame中的排序分为三类， 索引排序：sort_index()； 值排序：sort_values()； 值排名：rank()

有时我们需要将两个数据集合并在一起，可能会往横的方向上接续更多的列，也可能在纵的方向上拼接更多的行。在列的方向上操作时，数据集会自动根据index对齐；在行的方向操作时，数据集会自动根据列的名对齐。

dates = ['2022-01-01','2022-01-02','2022-01-03','2022-01-04','2022-01-05','2022-01-06']
dates=pd.to_datetime(dates)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))

S=pd.Series([1,3,5,7,9,11], index=pd.date_range('2022-01-02',periods=6))

S
Out[88]:
2022-01-02     1
2022-01-03     3
2022-01-04     5
2022-01-05     7
2022-01-06     9
2022-01-07    11

#增加一列
df['E']=S

df
Out[90]:
                   A         B         C         D    E
2022-01-01  0.173343 -0.817664  0.178729  1.146641  NaN
2022-01-02 -1.066184  0.132529 -0.438496 -0.207708  1.0
2022-01-03  0.869305  0.656714 -1.296309 -1.881551  3.0
2022-01-04 -0.379470  0.746313  2.361470  0.823606  5.0
2022-01-05  0.197038  0.802556 -0.208116  0.858625  7.0
2022-01-06 -2.258262 -3.090186 -0.861053 -0.249618  9.0

df=df[list('ABCD')]

#横向合并操作
pd.concat([df,S],axis=1)
Out[95]:
                   A         B         C         D     0
2022-01-01  0.173343 -0.817664  0.178729  1.146641   NaN
2022-01-02 -1.066184  0.132529 -0.438496 -0.207708   1.0
2022-01-03  0.869305  0.656714 -1.296309 -1.881551   3.0
2022-01-04 -0.379470  0.746313  2.361470  0.823606   5.0
2022-01-05  0.197038  0.802556 -0.208116  0.858625   7.0
2022-01-06 -2.258262 -3.090186 -0.861053 -0.249618   9.0
2022-01-07       NaN       NaN       NaN       NaN  11.0

df2=pd.DataFrame({'A':[1,2,3],'B':[1,2,3],'C':[1,2,3]},index=pd.date_range('2022-02-01',periods=3))

#纵向合并操作
df.append(df2)
Out[97]:
                   A         B         C         D
2022-01-01  0.173343 -0.817664  0.178729  1.146641
2022-01-02 -1.066184  0.132529 -0.438496 -0.207708
2022-01-03  0.869305  0.656714 -1.296309 -1.881551
2022-01-04 -0.379470  0.746313  2.361470  0.823606
2022-01-05  0.197038  0.802556 -0.208116  0.858625
2022-01-06 -2.258262 -3.090186 -0.861053 -0.249618
2022-02-01  1.000000  1.000000  1.000000       NaN
2022-02-02  2.000000  2.000000  2.000000       NaN
2022-02-03  3.000000  3.000000  3.000000       NaN

#内联合并操作
pd.concat([df,df2],join='inner')
Out[99]:
                   A         B         C
2022-01-01  0.173343 -0.817664  0.178729
2022-01-02 -1.066184  0.132529 -0.438496
2022-01-03  0.869305  0.656714 -1.296309
2022-01-04 -0.379470  0.746313  2.361470
2022-01-05  0.197038  0.802556 -0.208116
2022-01-06 -2.258262 -3.090186 -0.861053
2022-02-01  1.000000  1.000000  1.000000
2022-02-02  2.000000  2.000000  2.000000
2022-02-03  3.000000  3.000000  3.000000

#删除行数据
df.drop(dates[1:3])
Out[101]:
                   A         B         C         D
2022-01-01  0.173343 -0.817664  0.178729  1.146641
2022-01-04 -0.379470  0.746313  2.361470  0.823606
2022-01-05  0.197038  0.802556 -0.208116  0.858625
2022-01-06 -2.258262 -3.090186 -0.861053 -0.249618

#删除列数据
df.drop('D',axis=1),
Out[102]:
(                   A         B         C
 2022-01-01  0.173343 -0.817664  0.178729
 2022-01-02 -1.066184  0.132529 -0.438496
 2022-01-03  0.869305  0.656714 -1.296309
 2022-01-04 -0.379470  0.746313  2.361470
 2022-01-05  0.197038  0.802556 -0.208116
 2022-01-06 -2.258262 -3.090186 -0.861053,)

del df['C']

df
Out[105]:
                   A         B         D
2022-01-01  0.173343 -0.817664  1.146641
2022-01-02 -1.066184  0.132529 -0.207708
2022-01-03  0.869305  0.656714 -1.881551
2022-01-04 -0.379470  0.746313  0.823606
2022-01-05  0.197038  0.802556  0.858625
2022-01-06 -2.258262 -3.090186 -0.249618

有时我们需要将数据集中的某个或者某些值替换、更新，即先找到要替换的数据所在的位置（通过位置索引或者标签索引），然后赋予新的值：

df.loc[dates[2],'A']=100

df.iloc[3,2]=32

df.loc[:,'B']=np.arange(0,len(df))

df
Out[116]:
                     A  B          D
2022-01-01    0.173343  0   1.146641
2022-01-02   -1.066184  1  -0.207708
2022-01-03  100.000000  2  -1.881551
2022-01-04   -0.379470  3  32.000000
2022-01-05    0.197038  4   0.858625
2022-01-06   -2.258262  5  -0.249618

如果对DataFrame对象df调用reindex()函数，将返回一个新的对象，该对象的index 和列名由reindex()函数传入的参数设定。如果新对象的某个索引值或列名不存在于原对象df中，则引入缺失值。具体见下面的例子：

dates = ['2022-01-01','2022-01-02','2022-01-03','2022-01-04','2022-01-05','2022-01-06']
dates=pd.to_datetime(dates)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))

new_index=pd.date_range('2022-01-01',periods=10)

df.reindex(new_index,columns=list("ABCDE"))
Out[126]:
                   A         B         C         D   E
2022-01-01 -0.347887 -0.229641  1.373393 -1.195988 NaN
2022-01-02 -1.290596  0.101610 -0.926032 -0.393712 NaN
2022-01-03  0.550675  0.941960 -0.858507 -0.479702 NaN
2022-01-04  1.714638 -0.922391  0.347594 -1.227856 NaN
2022-01-05 -2.124143  1.723963  2.084947  1.421752 NaN
2022-01-06 -1.082870  0.329412  0.819416 -0.249792 NaN
2022-01-07       NaN       NaN       NaN       NaN NaN
2022-01-08       NaN       NaN       NaN       NaN NaN
2022-01-09       NaN       NaN       NaN       NaN NaN
2022-01-10       NaN       NaN       NaN       NaN NaN

另外，我们可以通过df.set_index(“date”)的形式来设置索引。

有时我们处理的数据会因为数据源头或者后续处理不当而出现重复数据，这样既会占据额外的储存空间，也可能会影响分析结果。

df5 = pd.DataFrame({'c1':['apple']*3+['banana']*3+['apple'],'c2':['a','a',3,3,'b','b','a']})

df5
Out[3]:
       c1 c2
0   apple  a
1   apple  a
2   apple  3
3  banana  3
4  banana  b
5  banana  b
6   apple  a

Pandas包里有直接处理重复数据的函数。DataFrame对象调用duplicated()可以得到一个bool型的Series,表示各行是否是重复行。

df5.duplicated()
Out[4]:
0    False
1     True
2    False
3    False
4    False
5     True
6     True

如果发现数据中有重复行，可以调用drop_duplicates()函数，来移除重复行:

df5.drop_duplicates()
Out[6]:
       c1 c2
0   apple  a
2   apple  3
3  banana  3
4  banana  b

以上两个方法是以默认的方式判断全部的列(上面的例子中是看两个变量 cl 和 c2 是

否都是重复出现)，我们也可以对特定的列进行重复项的判断。

Original: https://blog.csdn.net/hudashi/article/details/124640039
Author: 古月书斋
Title: Python3 DataFrame数据详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639721/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图解大数据 | 综合案例-使用Spark分析挖掘音乐专辑数据

作者：韩信子@ShowMeAI教程地址：http://www.showmeai.tech/tutorials/84本文地址：http://www.showmeai.tech/art…

人工智能 2023年7月15日
0062
【图像处理opencv】_图像锐化

目录 0 程序环境与所学函数 1 卷积 2 均值模糊 3 中值滤波 4 高斯模糊 5 双边滤波 0 程序环境与所学函数本章程序运行需要导入下面三个库，并定义了一个显示图像的函数 …

人工智能 2023年6月22日
0077
【python科研绘图】绘制饼图同时显示实际数值和占比情况，最后直接封装为函数调用

绘制饼图同时显示实际数值和占比情况，最后直接封装为函数调用 1 需求 2 问题解决手动反爬虫：原博地址 https://blog.csdn.net/lys_828/article…

人工智能 2023年7月8日
0084
《Java并发编程的艺术》读书笔记 – 第九章 – Java中的线程池

目录前言线程池的实现原理线程池的 7 大参数 corePoolSize maximumPoolSize keepAliveTime TimeUnit BlockingQueu…

人工智能 2023年6月29日
0073
电视剧里的代码真能运行吗？

大家好，欢迎来到 Crossin的编程教室！前几天，后台老有小伙伴留言”爱心代码”。这不是Crossin很早之前发过的内容嘛，怎么最近突然又被人翻出来了…

人工智能 2023年7月29日
0083
OpenCV入门函数API解析

一切图像皆Mat cvtColor:用于将图像从一个颜色空间转换到另一个颜色空间的转换（目前常见的颜色空间均支持），并且在转换的过程中能够保证数据的类型不变，即转换后的图像的数据类…

人工智能 2023年7月20日
0051
PaddleOCR识别模型训练及问题解决

1、下载PaddleOCR release2.3 2、整理数据集标签文本中的路径和标签值中间是一个tab 读取标签文件的时候，是把标签文件中的路径和上面数据集的路径合在一起，然后…

人工智能 2023年7月22日
00117
pytorch用自己数据集训练Unet

在图像分割这个问题上，主要有两个流派：Encoder-Decoder和Dialated Conv。本文介绍的是编解码网络中最为经典的U-Net。随着骨干网路的进化，很多相应衍生出来…

人工智能 2023年5月28日
0087
读书笔记-深度学习推荐系统4-推荐与embedding

本篇结合了书籍《深度学习推荐系统》和吴恩达老师的视频课程《Natural Language Processing and Word Embeddings》。 embedding…

人工智能 2023年5月28日
0087
ROS2功能包与节点

首先，在包，需要使用以下命令： catkin_create_pkg</p> <p>包名称，包所依赖的其他包的名称。接下来，在，用于打开USB摄像头…

人工智能 2023年7月19日
0065
训练大模型的九大深度学习库；谷歌转向文字→视频生成的两大利器｜AI系统前沿动态…

训练大型深度学习模型需要极大的内存，才能储存中间层的激活函数输出和权重等。一些模型只能在单个GPU上训练，训练时须将批大小（batch size）设置得极小；还有一些模型则太大，单…

人工智能 2023年6月23日
0083
TensorFlow的历史和背景是什么

Tensorflow的历史和背景 TensorFlow是由Google Brain团队开发的一种机器学习框架。它于2015年11月发布，是一个开源软件库，用于进行大规模数值计算和构…

人工智能 2023年12月30日
0045
python 提取dataframe中某一列为list_Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index…

我是一个python新手，问题比较初级，希望大家不要嘲笑我我用pandas读取某个CSV文件(包含两部分，一列时间，五列数据)，我想试图将DataFrame变为以时间为index…

人工智能 2023年7月6日
0065
jetson nano 安装pytorch和pytorchvision

文章目录前言一、Jetson nano 的镜像系统二、修改镜像源 * 1.在终端里使用vim /etc/apt/sources.list将原来的内容注释掉换成中科大源（清华源…

人工智能 2023年7月22日
0082
Pytorch初始化方法

常用初始化方法 PyTorch 中提供了 10 中初始化方法 3、nn.init.kaiming_normal_(m.weight.data) 5、用均匀分布的值填充输入张量, 参…

人工智能 2023年6月25日
0094
Python 命令行参数详解

Python 命令行参数详解 * – 0. 命令行参数 – 1. sys.argv – 2. getopt – + 2.1 geto…

人工智能 2023年6月18日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python3 DataFrame数据详解

二、查看DataFrame数据

大家都在看