Pandas

2023年7月7日下午7:10 • 人工智能 • 阅读 51

一、Pandas的数据结构分析

Pandas的两个主要的数据结构：Series和DataFrame

(1)Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之相关的索引两部分构成

indexelement0112233445

(2)通过传入一个列表来创建一个Series类对象：

创建Series类对象：

创建Series类对象，并指定索引：

使用dict进行构建：

（3）为了能方便地操作 Series对象中的索引和数据，所以该对象提供了两个属性index和values分别进行获取

1、获取s1的索引

2、获取s1的数据

获取位置索引3对应的数据

(4)DataFrame是一个类似于二维数组或表格（如excel）的对象，它每列的数据可以是不同的数据类型

（5） Pandas的DataFrame类对象创建：

创建数组

基于数组创建DataFrame对象

(6)在创建DataFrame类对象时，如果为其指定了列索引，则DataFrame的列会按照指定索引的顺序进行排列

索引的获取

属性获取

增减数据

二、 Pandas索引操作及高级索引

（1） Pandas中的索引都是Index类对象，又称为索引对象，该对象是不可以进行修改的，以保障数据的安全

Pandas还提供了很多Index的子类，常见的有如下几种：

1、Int64Index：针对整数的特殊Index对象。

2、MultiIndex：层次化索引，表示单个轴上的多层索引。

3、DatetimeIndex：存储纳秒寄时间戳。

（2）Pandas中提供了一个重要的方法是reindex()，该方法的作用是对原索引和新索引进行匹配，也就是说，新索引含有原索引的数据，而原索引数据按照新索引排序。

reindex()方法的语法格式如下：

DataFrame.reindex&#xFF08;labels = None&#xFF0C;index = None&#xFF0C;
columns = None&#xFF0C;axis = None&#xFF0C;method = None&#xFF0C;
copy = True&#xFF0C;level = None&#xFF0C;fill_value = nan&#xFF0C;limit = None&#xFF0C;tolerance = None&#xA0;&#xFF09;

index：用作索引的新序列。

method：插值填充方式。

fill_value：引入缺失值时使用的替代值。

limit：前向或者后向填充时的最大填充量。

（3）重置索引

如果不想填充为NaN，则可以使用fill_value参数来指定缺失值。

ser_obj.reindex(['a', 'b', 'c', 'd', 'e', 'f'],fill_value = 6)

如果期望使用相邻的元素值进行填充，则可以使用method参数，该参数对应的值有多个

（4） 索引操作

Series有关索引的用法类似于NumPy数组的索引，只不过Series的索引值不只是整数。如果我们希望获取某个数据，既可以通过索引的位置来获取，也可以使用索引名称来获取。

ser_obj = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser_obj[2]    # &#x4F7F;&#x7528;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;&#x83B7;&#x53D6;&#x6570;&#x636E;
ser_obj['c']   # &#x4F7F;&#x7528;&#x7D22;&#x5F15;&#x540D;&#x79F0;&#x83B7;&#x53D6;&#x6570;&#x636E;

如果使用的是位置索引进行切片，则切片结果是不包含结束位置；如果使用索引名称进行切片，则切片结果是包含结束位置的。

ser_obj[2: 4]           # &#x4F7F;&#x7528;&#x4F4D;&#x7F6E;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x5207;&#x7247;
ser_obj['c': 'e']        # &#x4F7F;&#x7528;&#x7D22;&#x5F15;&#x540D;&#x79F0;&#x8FDB;&#x884C;&#x5207;&#x7247;

如果希望获取的是不连续的数据，则可以通过不连续索引来实现

&#x901A;&#x8FC7;&#x4E0D;&#x8FDE;&#x7EED;&#x4F4D;&#x7F6E;&#x7D22;&#x5F15;&#x83B7;&#x53D6;&#x6570;&#x636E;&#x96C6;
ser_obj[[0, 2, 4]]
&#x901A;&#x8FC7;&#x4E0D;&#x8FDE;&#x7EED;&#x7D22;&#x5F15;&#x540D;&#x79F0;&#x83B7;&#x53D6;&#x6570;&#x636E;&#x96C6;
ser_obj[['a', 'c', 'd']]

布尔型索引同样适用于Pandas，具体的用法跟数组的用法一样，将布尔型的数组索引作为模板筛选数据，返回与模板中True位置对应的元素。

&#x521B;&#x5EFA;&#x5E03;&#x5C14;&#x578B;Series&#x5BF9;&#x8C61;
ser_bool = ser_obj > 2
&#x83B7;&#x53D6;&#x7ED3;&#x679C;&#x4E3A;True&#x7684;&#x6570;&#x636E;ser_obj[ser_bool]

虽然DataFrame操作索引能够满足基本数据查看请求，但是仍然不够灵活。为此，Pandas库中提供了操作索引的方法来访问数据，具体包括：

loc：基于标签索引（索引名称），用于按标签选取数据。当执行切片操作时，既包含起始索引，也包含结束索引。

iloc：基于位置索引（整数索引），用于按位置选取数据。当执行切片操作时，只包含起始索引，不包含结束索引。

三、算术运算与数据对齐

（1）Pandas执行算术运算时，会先按照索引进行对齐，对齐以后再进行相应的运算，没有对齐的位置会用NaN进行补齐。

如果希望不使用NAN填充缺失数据，则可以在调用add方法时提供fill_value参数的值，fill_value将会使用对象中存在的数据进行补充。

&#x6267;&#x884C;&#x52A0;&#x6CD5;&#x8FD0;&#x7B97;&#xFF0C;&#x8865;&#x5145;&#x7F3A;&#x5931;&#x503C;
obj_one.add(obj_two, fill_value = 0)

四、数据排序

（1）Pandas中按索引排序使用的是sort_index()方法，该方法可以用行索引或者列索引进行排序

sort_index&#xFF08;axis = 0&#xFF0C;level = None&#xFF0C;ascending = True&#xFF0C;
inplace = False&#xFF0C;kind ='&#xA0;quicksort&#xA0;'&#xFF0C;na_position ='last'&#xFF0C;
sort_remaining = True&#xA0;&#xFF09;

axis：轴索引，0表示index（按行），1表示columns（按列）。

level：若不为None，则对指定索引级别的值进行排序。

ascending：是否升序排列，默认为True表示升序。

（2）按索引对Series进行分别排序

ser_obj = pd.Series(range(10, 15), index=[5, 3, 1, 3, 2])
&#x6309;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x5347;&#x5E8F;&#x6392;&#x5217;
ser_obj.sort_index()
&#x6309;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x964D;&#x5E8F;&#x6392;&#x5217;
ser_obj.sort_index(ascending = False)

（3）按索引对DataFrame进行分别排序

df_obj = pd.DataFrame(np.arange(9).reshape(3, 3),
               index=[4, 3, 5])
&#x6309;&#x884C;&#x7D22;&#x5F15;&#x5347;&#x5E8F;&#x6392;&#x5217;
df_obj.sort_index()
&#x6309;&#x884C;&#x7D22;&#x5F15;&#x964D;&#x5E8F;&#x6392;&#x5217;
df_obj.sort_index(ascending=False)

（4）按值的大小对Series进行排序

ser_obj = pd.Series([4, np.nan, 6, np.nan, -3, 2])
&#x6309;&#x503C;&#x5347;&#x5E8F;&#x6392;&#x5217;
ser_obj.sort_values()

（5）按值排序

在DataFrame中，sort_values()方法可以根据一个或多个列中的值进行排序，但是需要在排序时，将一个或多个列的索引传递给by参数才行

df_obj = pd.DataFrame([[0.4, -0.1, -0.3, 0.0],
                                      [0.2, 0.6, -0.1, -0.7],
                                      [0.8, 0.6, -0.5, 0.1]])
&#x5BF9;&#x5217;&#x7D22;&#x5F15;&#x503C;&#x4E3A;2&#x7684;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x6392;&#x5E8F;
df_obj.sort_values(by=2)

五、统计计算与描述

常用的统计计算

Pandas为我们提供了非常多的描述性统计分析的指标方法，比如总和、均值、最小值、最大值等。

统计描述

如果希望一次性输出多个统计指标，则我们可以调用describe()方法实现

describe(percentiles=None,include=None,exclude=Node)

六、层次化索引

（1）认识层次化索引

Series和DataFrame均可以实现层次化索引，最常见的方式是在构造方法的index参数中传入一个嵌套列表。

 mulitindex_series = pd.Series([15848,13472,12073.8,7813,
                                                   7446,6444,15230,8269],
                          index=[['&#x6CB3;&#x5317;&#x7701;','&#x6CB3;&#x5317;&#x7701;','&#x6CB3;&#x5317;&#x7701;','&#x6CB3;&#x5317;&#x7701;',
                                        '&#x6CB3;&#x5357;&#x7701;','&#x6CB3;&#x5357;&#x7701;','&#x6CB3;&#x5357;&#x7701;','&#x6CB3;&#x5357;&#x7701;'],
                                       ['&#x77F3;&#x5BB6;&#x5E84;&#x5E02;','&#x5510;&#x5C71;&#x5E02;','&#x90AF;&#x90F8;&#x5E02;','&#x79E6;&#x7687;&#x5C9B;&#x5E02;',
                                        '&#x90D1;&#x5DDE;&#x5E02;','&#x5F00;&#x5C01;&#x5E02;','&#x6D1B;&#x9633;&#x5E02;','&#x65B0;&#x4E61;&#x5E02;']])

from_tuples()方法可以将包含若干个元组的列表转换为MultiIndex对象，其中元组的第一个元素作为外层索引，元组的第二个元素作为内层索引。

list_tuples = [('A','A1'), ('A','A2'), ('B','B1'),('B','B2'), ('B','B3')]
&#x6839;&#x636E;&#x5143;&#x7EC4;&#x5217;&#x8868;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;MultiIndex&#x5BF9;&#x8C61;
multi_index = MultiIndex.from_tuples(tuples=list_tuples,
                        names=[ '&#x5916;&#x5C42;&#x7D22;&#x5F15;', '&#x5185;&#x5C42;&#x7D22;&#x5F15;'])

from_arrays()方法是将数组列表转换为MultiIndex对象，其中嵌套的第一个列表将作为外层索引，嵌套的第二个列表将作为内层索引。

multi_array = MultiIndex.from_arrays(arrays =[['A', 'B', 'A', 'B', 'B'],
                                             ['A1', 'A2', 'B1', 'B2', 'B3']],
                                     names=['&#x5916;&#x5C42;&#x7D22;&#x5F15;','&#x5185;&#x5C42;&#x7D22;&#x5F15;'])

Original: https://blog.csdn.net/weixin_67638029/article/details/123303347
Author: 奇奇怪怪的小刘同学
Title: Pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676894/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

sigmoid、softmax函数/交叉熵损失函数/二分类、多分类详细推导过程

一、交叉熵损失函数 1、离散变量i i i的概率分布为P ( i ) P(i)P (i )，熵的公式：E n t r o p y = − ∑ i P ( i ) l o g P (…

人工智能 2023年7月2日
0081
yolo调用海康威视网络摄像头踩坑记

用yolo调用海康威视摄像头首先第一点：关注海康威视客户服务这个公众号，然后让里面的人工查询下你这个摄像头能不能登网页，非常重要。我开始用的一个就不行，坑了一两天时间。然后说…

人工智能 2023年7月19日
0075
分位数回归（quantile regression）简介和代码实现

普通最小二乘法如何处理异常值？它对待一切事物都是一样的——它将它们平方！但是对于异常值，平方会显著增加它们对平均值等统计数据的巨大影响。我们从描述性统计中知道，中位数对异常值…

人工智能 2023年6月19日
0097
【从零开始】win10系统部署Yolov5详细过程（CPU，无GPU）

前言也是看别人的博客，碰了很多坑，将近一上午才部署明白。所以在开始之前请大家一定要明确对应版本！请按照步骤一步步来。除此以外，请大家自行下载好YOLOV5源码并解压保存，Git…

人工智能 2023年7月5日
0095
RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0； 4.00 GiB total capacity； 2.44

调试手写数字识别代码时出现的问题，将cpu的代码改用gpu训练时虽然可以训练，详见上一条博客(Mnist手写数字识别cpu训练与gpu训练)，但是会出现Error。查找资料后以下是…

人工智能 2023年7月20日
0059
【OpenCV 】Ubuntu系统下配置安装OpenCV开发环境

开发环境物理主机：Win 10 64位虚拟工具：VMware Workstation 15 Pro 虚拟系统：Ubuntu 20.04.4 LTS 软件版本： OpenCV 4…

人工智能 2023年6月19日
0082
目标检测: 一文读懂 OTA 标签分配

论文：OTA: Optimal Transport Assignment for Object Detection 论文链接：https://arxiv.org/abs/2103….

人工智能 2023年5月26日
00297
体验最近火爆的ChatGPT

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0086
python中的pd是什么意思_python pd.crosstab在处理时间序列文本数据的用处

在优矿上的-量化分析师的Python日记中看到一个函数很不错–pd.crosstab 。因为我们平时取到的多股数据可能如以下所示；取两股为例： Sec1， Sec2 …

人工智能 2023年7月7日
0085
编译android libopencv_java4.so，版本opencv-4.5.5和contrib，成功编译并经测试后的源代码和脚本

一、文件目录opencv/open4.5.5opencv/open4.5.5/ opencv_contribopencv/open4.5.5/ build ：编译目录和库生成目录…

人工智能 2023年7月20日
0056
生成式对抗网络GAN（一）—基于python实现

基于python实现生成式对抗网络GAN 构建和训练一个生成对抗网络(GAN) ，使其可以生成数字(0-9)的手写图像。学习目标从零开始构建GAN的生成器和判别器。创建GAN…

人工智能 2023年6月17日
0065
线性回归之标准方程法

目录引入梯度下降法VS标准方程法标准方程法代码实现引入假设引入一个买房子的问题，如下表，记录了房子大小，卧室数，客厅数，拥有几年了以及价格我们将这些数据转换成矩阵形式，…

人工智能 2023年6月18日
0088
【参赛作品93】openGauss-An Autonomous Database【PVLDB论文阅读分享】

作者：YAN左使本文基于openGauss在VLDB2021上最新发表的论文《openGauss: An Autonomous Database System》，从学术的角度来探…

人工智能 2023年6月16日
00106
一点就分享系列（实践篇3-中篇）— 虽迟但到！全网首发？yolov5之“baseline修改小结“+“CV领域展开-Involution&&transformer&&cnn”

一点就分享系列（实践篇3-中篇）— yolov5之”修改总结以及baseline算子的分享” 说明上篇有很多朋友照搬了我的yaml结构，这里抱歉下也有原因…

人工智能 2023年6月15日
0095
机器学习：常见的机器学习算法归纳

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。常见的回归算法包括：最小二乘法（Ordinary Least Square），逻辑…

人工智能 2023年7月13日
0053
小样本（少样本）目标检测概述（few-shot object detection）

文章目录 * – 一、小样本目标检测 vs 少样本目标检测 – 二、小样本目标检测简介 – 三、小样本目标检测的方法 – 四、小样本…

人工智能 2023年7月26日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas

大家都在看