pandas中关于DataFrame数据类型超好用的方法

2023年7月16日上午12:26 • 人工智能 • 阅读 47

参考资料：pandas官方参考文档
本文详细介绍了pandas中关于DataFrame数据类型的常用函数及其使用方法，结合了pandas给出的官方文档，佐以简单示例，万字长文助您一文搞定DataFrame相关的api调用问题。在使用pandas包中的函数时默认已经执行语句 import pandas as pd和 import numpy as np以调用pandas包和numpy包。

*
– DataFrame数据类型
–
+ Constructor构造
+ Attributes属性
+
* Axes轴函数
* conversion转换函数
* Indexing, iteration索引、遍历函数
– DataFrame的构造转换函数：pd.DataFrame()
– DataFrame的聚合函数、应用函数
–
+ df.apply() 或 df.applymap()
+ df.aggregate()或df.agg()
+ df.transform()
+ df.groupby()

DataFrame数据类型

DataFrame是在python中独有的一种数据类型，它是一种二维的、大小可变的、有潜在异构的表格型数据。

Constructor构造

DataFrame([data, index, columns,dtype, copy])

Attributes属性

这里只介绍常用的api，如需了解其它的，请参考文章顶部参考链接。

Axes轴函数

df.index：返回行标签；
df.columns：返回列标签；注意这两处都没有括号，且列标签要求有s；
df.dtypes：返回df的dtypes；
df.info(): 返回对于df的信息概述，如：
df.values：返回二维np数组的形式的df，如：
df.size：求出df中的元素数量，如上图df的size即为4；

; conversion转换函数

DataFrame.astype(dtype[, copy, errors])
作用：将一个df转换成指定的类型；
格式： df.astype('int32')
示例：

注意：不通过赋值不会存储转换结果，即执行完df.astype(‘int8’)之后如果直接执行df.dtypes返回的结果仍是int64；
DataFrame.convert_dtypes([infer_objects, …])
作用：将df中的列自动转换成最可能适配的类型，并且使用的dtype都是支持pd.NA的；即把用户自定义的类型转换成python语言中最适配的数据类型，并把np.nan转换为pd.NA；

即把用户自定义的类型转换成python语言中最适配的数据类型，并把np.nan转换为pd.NA；
DataFrame.infer_objects()
作用：尝试为列类型为object的列推断更好的数据类型；
与convert_dtypes()的区别：infer_objects()只针对类型为object的列，而convert_dtypes()针对所有的列；
DataFrame.copy([deep])
作用：复制一个df；
格式： df_new = df.copy()
示例：

Indexing, iteration索引、遍历函数

df.head([n])
作用：返回前n行数据，默认为5
df.at
作用：按标签返回 行列对的单个值
格式： df.at[row_label, col_label]
示例：
df.iat
作用：按索引返回 行列对的单个值
示例：
df.loc
作用：通过标签或布尔数组访问 一行或多行或一行列对（不是只能行列对哦！）
格式： df.loc[row_label]或 df.loc[row_label, col_label]或 df.loc[[row1_label, row2_label,...]]
注意：不能取一列数据
示例：
df.iloc
作用：通过索引或布尔数组访问 一行或多行或一行列对（不是只能行列对哦！）
格式： df.iloc[row_label]或 df.loc[row_label, col_label]或 df.loc[[row1_label, row2_label,...]]
注意：不能取一列数据

; DataFrame的构造转换函数：pd.DataFrame()

作用：将data转换成dataframe的数据类型；
格式：

pd.DataFrame(data = None, index = None, columns = None, dtype = None, copy = None)

参数：
data：需要转换位dataframe格式的原数据
index：行标签列表
columns：列标签列表
dtype：数据类型列表

示例：

DataFrame的聚合函数、应用函数

df.apply() 或 df.applymap()

作用：对于df执行某函数或对df的所有元素执行某函数
格式：

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)
df.applymap(func[, na_action])

参数：
func：欲施加给某行或者某列的函数
axis：{0 or ‘index’, 1 or ‘columns’}, default 0即为对列实施函数

0 or ‘index’: 对某列（的每行）实施函数
1 or ‘columns’: 对某行中（的每列）实施函数

raw：一个布尔值, default False，决定了一行或列的数据类型是以series还是ndarray object的形式传入函数

False : 以series为数据类型传入参数
True : 以ndarray objects为数据类型传入参数，如果函数是基于numpy包实现的时候有更好的表现

示例：

np自带的函数：
lambda函数：

df.aggregate()或df.agg()

作用: 对所有行或所有列做一项或多项聚合操作（两种形式的函数效果一模一样）；
格式：

DataFrame.aggregate(func=None, axis=0, *args, **kwargs)

示例：

df.transform()

作用：对df每个元素调用函数；
与df.apply()的区别：在调用一个普通函数的时候没有区别，调用聚合函数时有区别，调用多个函数时也有区别。（个人理解transform只能对每个元素都进行操作，选择axis参数的意义不大）

格式：

DataFrame.transform(func, axis=0, *args, **kwargs)

示例：

只调用一个函数：
同时调用多个lambda函数：

transform只显示最后一个lambda函数的执行结果，而apply会把每个执行结果都显示出来；
同时调用多个聚合函数：（部分函数只能使用apply函数）

np.sqrt, np.exp等两种函数都能使用：
sum等聚合函数在df.transform中要与groupby配合使用：

而df.transform(‘sum’)和df.transform(np.sum)都将报错；
总结：对于df执行函数时的情况复杂，如果不是对普通函数建议直接使用apply()，使用聚合函数时考虑实际情况选择需要调用的api。（需要groupby分区时用transform())

df.groupby()

作用：在对数据做聚合操作前给数据分组
格式：

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True,  observed=False, dropna=True)

主要参数：
by：mapping, function, label, or list of labels
用于确定 groupby 的组：

如果 by 是一个函数，它会在对象索引的每个值上调用。
如果传递了 dict 或 Series，则 Series 或 dict VALUES 将用于确定分组规则。
如果传递了 ndarray，则按原样使用这些值来确定组。
标签或标签列表可以通过 self 中的列传递给 group。
请注意，元组被解释为（单个）键。

axis：{0 or ‘index’, 1 or ‘columns’}, default 0
与其余函数的规则一致；

as_index：bool, default True
对于聚合输出，返回带有组标签的对象作为索引。仅与 DataFrame 输入相关。 as_index=False 是有效的”SQL 风格”分组输出。

sort：bool, default True
对组键进行排序。关闭此功能可获得更好的性能。请注意，这不会影响每个组内的观察顺序。 Groupby 保留每个组中行的顺序。

group_keys：bool, default True
调用apply时，将组键添加到索引以识别片段。

dropna：bool, default True
如果为 True，并且组键包含 NA 值，则 NA 值和行/列将被删除。如果为 False，NA 值也将被视为组中的键。
示例：

Original: https://blog.csdn.net/Daisy_Wang777/article/details/122099335
Author: 芊欣欲
Title: pandas中关于DataFrame数据类型超好用的方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/695346/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Adversarial Generation of Continuous Images 阅读笔记

任务在对图像的表示中，最经典的方式是利用矩阵对图片进行表达，但是这种表达方式将图片进行离散化了。而在真实的世界中，我们认为是连续的，或者近似连续的。于是，作者提出使用一个连续的函…

人工智能 2023年6月22日
0073
pandas删除最后一列_Python pandas从列中删除最后一个字符串/符号

我有一个很大的csv，列中包含以0开头、以a结尾的数字。在看起来。。在TC_NUM 0101.0001. 0101.0002. 0101.0003. 我希望它看起来像。。在 ^{…

人工智能 2023年7月8日
0061
编译原理：词法分析

一、词法分析任务 ; 二、正则表达式到自动机 1.正则表达式字母表中每一个字符都是一个正则表达式。 L(ε)={ε}，L(a)={a} (其中a是字母表中一个字符)。同时多个正…

人工智能 2023年6月29日
0085
Paper Reading – Loss系列 – Focal Loss for Dense Object Detection

确实发现大神的文章都比较简单明了实用 – ICCV2017计算机视觉-Paper&Code – 知乎 Abstract 总结主要为以下几点 OHEM…

人工智能 2023年5月26日
0064
人工智能：卷积神经网络及YOLO算法入门详解与综述（二）

经过前六章的阅读，我从三个世界、数据法则、信息纽带、知识升华、自然智能以及人工智能六个方面对于信息科学技术与创新有了深层次的认识与了解。从对于三个世界的描述中，我了解到了物理、生物…

人工智能 2023年6月17日
00104
回归模型评价指标

计算公司：R 2 = S S R S S T = 1 − S S E S S T R2 = \frac {SSR} {SST} = 1 – {\frac {SSE} {…

人工智能 2023年6月18日
0086
超详细，Python 处理缺失值的这 8 种方法真的很棒

缺失值可能是数据科学中最不受欢迎的值，然而，它们总是在身边。忽略缺失值也是不合理的，因此我们需要找到有效且适当地处理它们的方法。在本文中，我们将介绍 8 种不同的方法来解决缺失值…

人工智能 2023年7月14日
0061
时间序列之协整检验(3)

协整检验 * – + * 1. 协整检验（cointegration test） * 2. 常用的协整检验 * 3. 研究变量之间的协整关系，对研究经济问题的定量分析有…

人工智能 2023年6月18日
0059
快速解决“多分类不平衡”问题

在机器学习中，经常会遇到分类不平衡问题。简单来说，就是多分类时有的类别数量少，会影响整体模型的准确率。目录前言一、问题详细描述 1.项目介绍 2.调参尝试二、分析原因 1….

人工智能 2023年6月23日
0086
HTML期末作业，基于html实现中国脸谱传统文化网站设计(5个页面)

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0088
语音识别从入门到进阶一文末附项目/源码

嗨，大家我，欢迎来到AI+语音专栏，本专栏长期更新，每篇文章必备干货，文章附带大量的算法原理+代码实现教学，欢迎关注，一起AI。语音识别原理首先是语音识别和语音唤醒等任务。一听…

人工智能 2023年6月24日
0074
leetcode 143

leetcode 143重排联表这题实在没搞懂，明天继续花时间搞懂！ posted @2021-10-26 22:11 Geeksongs 阅读(12 ) 评论() 编辑 Cod…

人工智能 2023年6月6日
0073
Codeforces gym 103990

C – Correct prob.: ICPC赛制规则，九点开始的场，有个队只交了一发且直接AC，给出提交时间，问罚时 code： #include using nam…

人工智能 2023年6月29日
0056
双目深度算法——基于Cost Volume的方法（GC-Net / PSM-Net / GA-Net）

双目深度算法——基于Cost Volume的方法（GC-Net / PSM-Net / GA-Net）双目深度算法——基于Cost Volume的方法（GC-Net / PSM-…

人工智能 2023年5月26日
0051
3D目标检测方案总结

前言感谢商汤学术 2022/06/22 带来的基于 BEV环视感知直播课程，借助这次机会，总结了我前段时间的工作，主要内容如下： FOV和BEV的常用方案，对两种视角在视觉检…

人工智能 2023年7月10日
0067
WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因 WGCNA 系列 WGCNA 系列参考关联模块与临床特征量化module-trait(模块-特征)关系基因与性…

人工智能 2023年6月16日
00317

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30