Pandas数据整理

2023年7月6日下午3:56 • 人工智能 • 阅读 75

1.Pandas中有两个主要的数据结构：Series和DataFrame。

Serise：一维的数据结构。Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之相关的索引两部分构成。

构造方法创建：class pandas.Series（data = None，index = None，dtype = None， name = None，copy = False，fastpath = False）；

通过传入一个列表来创建一个Series类对象：例：# 创建Series类对象 ser_obj = pd.Series([1, 2, 3, 4, 5])

创建Series类对象，并指定索引例：ser_obj = pd.Series([1, 2, 3, 4, 5], index=[‘a’, ‘b’, ‘c’, ‘d’, ‘e’])；

除了使用列表构建Series类对象外，还可以使用dict进行构建，例：year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj2 = pd.Series(year_data)

DataFrame：二维的、表格型的数据结构。DataFrame是一个类似于二维数组或表格（如excel）的对象，它每列的数据可以是不同的数据类型。

Pandas的DataFrame类对象可以使用以下构造方法创建：pandas.DataFrame（data = None，index = None，columns = None， dtype = None，copy = False ）

通过传入数组来创建DataFrame类对象：例：# 创建数组 demo_arr = np.array([[‘a’, ‘b’, ‘c’], [‘d’, ‘e’, ‘f’]]) # 基于数组创建DataFrame对象 df_obj = pd.DataFrame(demo_arr)

在创建DataFrame类对象时，如果为其指定了列索引，则DataFrame的列会按照指定索引的顺序进行排列。例：df_obj = pd.DataFrame(demo_arr, columns=[‘No1’, ‘No2’, ‘No3’])

可以使用列索引的方式来获取一列数据，返回的结果是一个Series对象。例：# 通过列索引的方式获取一列数据 element = df_obj[‘No2’] # 查看返回结果的类型 type(element)

还可以使用访问属性的方式来获取一列数据，返回的结果是一个Series对象。例：# 通过属性获取列数据 element = df_obj.No2 # 查看返回结果的类型 type(element)

在获取DataFrame的一列数据时，推荐使用列索引的方式完成，主要是因为在实际使用中，列索引的名称中很有可能带有一些特殊字符（如空格），这时使用”点字符”进行访问就显得不太合适了。

2.索引对象

Pandas中的索引都是Index类对象，又称为索引对象，该对象是不可以进行修改的，以保障数据的安全。

重置索引

Pandas中提供了一个重要的方法是reindex()，该方法的作用是对原索引和新索引进行匹配，也就是说，新索引含有原索引的数据，而原索引数据按照新索引排序。

reindex()方法的语法格式如下：

DataFrame.reindex（labels = None，index = None， columns = None，axis = None，method = None， copy = True，level = None，fill_value = nan，limit = None，tolerance = None ）

索引操作

Series有关索引的用法类似于NumPy数组的索引，只不过Series的索引值不只是整数。如果我们希望获取某个数据，既可以通过索引的位置来获取，也可以使用索引名称来获取。

虽然DataFrame操作索引能够满足基本数据查看请求，但是仍然不够灵活。为此，Pandas库中提供了操作索引的方法来访问数据，具体包括：loc：基于标签索引（索引名称），用于按标签选取数据。当执行切片操作时，既包含起始索引，也包含结束索引。 iloc：基于位置索引（整数索引），用于按位置选取数据。当执行切片操作时，只包含起始索引，不包含结束索引。

3.算术运算与数据对齐

Pandas执行算术运算时，会先按照索引进行对齐，对齐以后再进行相应的运算，没有对齐的位置会用NaN进行补齐。

4.数据排序

01.按索引排序

Pandas中按索引排序使用的是sort_index()方法，该方法可以用行索引或者列索引进行排序例：sort_index（axis = 0，level = None，ascending = True，inplace = False，kind =’ quicksort ‘，na_position =’last’，sort_remaining = True ）

按索引对Series进行分别排序，示例如下。按索引对Series进行分别排序，示例如下。ser_obj = pd.Series(range(10, 15), index=[5, 3, 1, 3, 2]) # 按索引进行升序排列 ser_obj.sort_index() # 按索引进行降序排列 ser_obj.sort_index(ascending = False)

按索引对DataFrame进行分别排序，示例如下。

df_obj = pd.DataFrame(np.arange(9).reshape(3, 3), index=[4, 3, 5]) # 按行索引升序排列 df_obj.sort_index() # 按行索引降序排列 df_obj.sort_index(ascending=False)

Pandas中用来按值排序的方法为sort_values()，该方法的语法格式如下。

sort_values(by,axis=0, ascending=True, inplace=False, kind=’quicksort’,na_position=’last’)

02.按值排序

Pandas中用来按值排序的方法为sort_values()，该方法的语法格式如下。

sort_values(by,axis=0, ascending=True, inplace=False, kind=’quicksort’,na_position=’last’)

按值的大小对Series进行排序的示例如下：ser_obj = pd.Series([4, np.nan, 6, np.nan, -3, 2]) # 按值升序排列 ser_obj.sort_values()

5.统计计算与描述

常用的统计计算：Pandas为我们提供了非常多的描述性统计分析的指标方法，比如总和、均值、最小值、最大值等。

层次化索引

什么是层次化索引？前面所涉及的Pandas对象都只有一层索引结构，又称为单层索引，层次化索引可以理解为单层索引的延伸，即在一个轴方向上具有多层索引

Series和DataFrame均可以实现层次化索引，最常见的方式是在构造方法的index参数中传入一个嵌套列表。

7.读写数据操作

01.读写文本文件

在进行数据分析时，通常不会将需要分析的数据直接写入到程序中，这样不仅造成程序代码臃肿，而且可用率很低。常用的解决方法是将待分析的数据存储到本地中，之后再对存储文件进行读取

02.读写Excel文件

Excel文件也是比较常见的存储数据的文件，它里面均是以二维表格的形式显示的，可以对数据进行统计、分析等操作。Excel的文件扩展名有.xls和.xlsx两种。

03.读取HTML表格数据

在浏览网页时，有些数据会在HTML网页中以表格的形式进行展示。对于网页中的表格，可以使用read_html()函数进行读取，并返回一个包含多个DataFrame对象的列表

04.读写数据库

大多数情况下，海量的数据是使用数据库进行存储的，这主要是依赖于数据库的数据结构化、数据共享性、独立性等特点。Pandas 支持Mysql、Oracle、SQLite等主流数据库的读写操作。

总结：简单介绍了常用的数据结构、索引操作、算术运算、数据排序、统计计算与描述、层次化索引和读写数据操作

Original: https://blog.csdn.net/m0_59871294/article/details/123310534
Author: m0_59871294
Title: Pandas数据整理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674274/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python–pandas分组聚合

分组聚合是数据处理中常见的场景，在pandas中用groupby方法实现分组操作，用agg方法实现聚合操作。 python3.9 win10 64bit pandas==1.2.1…

人工智能 2023年7月8日
0063
【python】图像数据预处理

安装cv2 pip install -i https://pypi.douban.com/simple opencv-python 1. 基本操作（1）用opencv读取图像代码…

人工智能 2023年6月18日
0079
Pandas基础-连接merge join concat

以下用df1 df2 df3表示三个表格dataframe，pd表示pandas模块一.merge 连接类似于SQL的join 默认是inner 内连接，基于字段的左右连接 1…

人工智能 2023年7月6日
0075
目标检测中的BBox 回归损失函数-L2，smooth L1，IoU，GIoU，DIoU，CIoU，Focal-EIoU，Alpha-IoU，SIoU

目标检测的两个任务，分类和位置回归，本帖将经典的位置回归损失函数总结如下，按发表时间顺序。 L1、L2、smooth L1 loss 提出smooth L1 loss的论文： L1…

人工智能 2023年6月17日
00120
MATLAB数字图像处理大作业:人脸表情识别

一、课程设计任务运用已掌握的知识以及查阅相关资料，设计方案能够识别人脸表情中的高兴、厌恶、生气、悲伤、面无表情这五类表情。二、课程设计原理及设计方案 2.1整体原理本系统是基…

人工智能 2023年7月26日
0058
最新最全Diffusion Models论文、代码汇总(图像生成、图像分割、图像翻译、超分辨率重建、医疗影像、自然语言处理、视频生生成、时间序列生成、3D点云生成、文本语音转换、音频生成等)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0081
牛客云集！蒙牛第二届“牛客松”创新技术大赛招募正式开启

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0079
彻底解决 TypeError: cannot pickle ‘_thread.RLock‘ object ，以 PyTorch DDP 为例

解决问题的思路是，首先找到导致序列化失败的对象，然后将其覆盖为一个正常对象。网上能找到很多相关解答，但是往往都是授人以鱼，没有授人以渔。这个问题的出现场景很多，但是归根结底，都是…

人工智能 2023年7月20日
0056
pandas 多折线图_干货：使用pandas和seaborn制作炫酷图表（附代码）

原标题：干货：使用pandas和seaborn制作炫酷图表(附代码) 我们介绍过用matplotlib制作图表的一些tips，感兴趣的同学可以戳→纯干货：手把手教你用Python做…

人工智能 2023年7月8日
0041
图文并茂：什么是 K-means 聚类算法

概述聚类属于机器学习的无监督学习，在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。它跟分类的最主要区别就在于有没有&#8221…

人工智能 2023年5月31日
00103
win10跑深度学习程序无法调用gpu的问题（已解决）

win10跑深度学习真的是一言难尽，但是windows系统又使用的比较习惯，过去使用过ubuntu系统，里面写文档什么的确实不习惯，所以自己做的实验项目也主要是以win10为主工具…

人工智能 2023年6月16日
0064
机器学习中的数学——激活函数（三）：线性整流函数（ReLU函数）

分类目录：《机器学习中的数学》总目录相关文章：· 激活函数：基础知识· 激活函数（一）：Sigmoid函数· 激活函数（二）：双曲正切函数（Tanh函数）· 激活函数（三）：线性…

人工智能 2023年7月14日
0059
神经网络（NN）网络构建及模型算法介绍

概述神经网络最主要的作用是作为提取特征的工具，最终的分类并不是作为主要核心。人工神经网络也称为多层感知机，相当于将输入数据通过前面多个全连接层网络将原输入特征进行了一个非线性变…

人工智能 2023年6月15日
0061
机器学习实战（1）-文本分类

参考链接：14种分类算法进行文本分类实战：https://blog.csdn.net/qq_41731978/article/details/109459234（这个博主写的很详细…

人工智能 2023年7月1日
0055
[深度学习]如何替换YoloV5的主干网络:Flexible-Yolov5

Flexible-Yolov5:可自定义主干网络的YoloV5工程实践本文目录：概述理论学习与环境配置准备自己的数据集修改或调整自定义的主干网络部署训练一、概述 Yo…

人工智能 2023年7月20日
0048
机器学习实操的7个步骤

文章目录到底怎么使用机器学习？机器学习的7个步骤 * 步骤1：收集数据步骤2：数据准备步骤3：选择一个模型步骤4：训练步骤5：评估步骤6：参数调整步骤7：预测实验…

人工智能 2023年6月25日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas数据整理

大家都在看