数据分析快速入门_Pandas详解（一）

2023年8月20日上午10:12 • Python • 阅读 47

（2）通过Dictionary定义Series

（3）构建系列对象

2、DataFrame 数据结构

（1）DataFrame可以作为一个特殊的字典

（2）从Series创建DataFrame

（7）在DataFrame中的Data选择

（8）Pandas的运算操作

（9）DataFrame和Series之间的操作

（10）处理缺失数据

（11）处理空值

一、简介

Pandas是一个构建在NumPy之上的较新的包，提供了DataFrame的有效实现。

DataFrames本质上是带有行和列标签的多维数组，通常具有异构类型和/或缺失数据。

Pandas有三种基本的数据结构:

Series
DataFrame
Index

二、主要内容：

1、Series数据结构

Pandas Series是索引数据的一维数组。

Series可以从列表或数组创建。

（1）通用NumPy数组定义Series

Pandas Series有一个与这些值关联的显式定义的索引。

（2）通过Dictionary定义Series

（3）构建系列对象

基本结构pd.Series(data=data, index=index)

2、DataFrame 数据结构

DataFrame既可以看作是NumPy数组的泛化，也可以看作是Python字典的专门化。

DataFrame作为一个通用的NumPy数组

DataFrame可以看作是二维NumPy数组的泛化，其中的行和列都有一个用于访问数据的泛化索引。

（1）DataFrame可以作为一个特殊的字典

（2）从Series创建DataFrame

（3）从字典创建DataFrame

（4）Pandas的Index对象

Index对象既可以看作是不可变数组，也可以看作是有序的多集。

（5）数据的索引Index和选择

如果您使用过NumPy模式(索引、切片、屏蔽、花式索引和它们的组合)，那么在Pandas中对应的模式将会非常熟悉，尽管有一些奇怪的地方需要注意。

请记住，Series对象在许多方面类似于1D NumPy数组，在许多方面类似于标准Python字典。

（6）loc 和iloc

上一节中的切片和索引可能会引起混淆，尤其是当Series的显式索引标签是整数时。

为了消除这些混淆，Pandas提供了一些”特殊的索引器属性”，这些属性显式地公开某些索引方案。

（7）在DataFrame中的Data选择

DataFrame在许多方面类似2D NumPy数组，在其他方面类似于共享相同索引的Series对象的字典。

使用字典样式的语法修改DataFrame对象，在本例中添加一个新列。

我们可以看到DataFrame是一个增强的二维NumPy数组。

使用iloc索引器，我们可以使用隐式python风格的索引来索引底层数组，就好像它是一个单一的NumPy数组一样，但是DataFrame索引和列标签在结果中保持不变。

（8）Pandas的运算操作

Pandas继承了NumPy的大部分功能。

然而，Pandas包含了一些有用的变化:

对于一元运算，如反运算和三角函数，这些ufuncs将在输出中保留索引和列标签。

对于加法和乘法等二进制操作，Pandas将在将对象传递给ufunc时自动对齐索引。

如果我们对这些Pandas对象中的任何一个应用NumPy ufunc，结果将是另一个保留索引的Pandas对象。

对于两个Series或DataFrame对象的二进制操作，Pandas将在执行操作的过程中对齐索引。

当您在数据帧上执行操作时，列和索引也会发生类似的对齐类型。

（9）DataFrame和Series之间的操作

DataFrame和Series之间的操作类似于二维和一维NumPy数组之间的操作。

（10）处理缺失数据

处理缺失数据真实世界的数据很少是整洁，相同的。
特别是，许多有趣的数据集可能会丢失一些数据。
麻烦的是，不同的数据源可能以不同的方式表示缺失的数据。
在本文中，我们通常将缺失的数据称为null、NaN或NA值。
Pandas选择对丢失的数据使用哨兵值，并进一步选择使用两个已经存在的Python空值:特殊的浮点NaN值和Python None对象。
Pandas使用的第一个哨兵值是None，这是一个Python单例对象，通常用于Python代码中缺失的数据。
因为None是Python对象，所以它不能在任意NumPy/Pandas数组中使用，只能在数据类型为’ object ‘的数组中使用(即Python对象数组)。
这意味着NumPy可以推断数组内容的最佳通用类型表示形式是它们是Python对象。

虽然类型对象数组在某些用途上很有用，但对数据的任何操作都将在Python级别上完成，十分耗费时间

NumPy确实提供了一些特殊的聚合，这些聚合将忽略这些缺失的值。

NaN和None都有自己的位置，而Pandas几乎可以交换地处理它们，在适当的地方在它们之间进行转换。

（11）处理空值

Pandas将None和NaN视为本质上可互换的，以指示缺失值或空值。
为了促进这种约定，有几种有用的方法可以检测、删除和替换Pandas数据结构中的空值。
Isnull()(它是isna()的别名) 生成一个指示缺失值的布尔掩码。
notnull () 相反isnull ()
dropna () 返回经过筛选的数据版本
fillna () 返回数据的副本，其中填充或计算了缺失的值

有时，我们不想删除NA值，而是希望用有效值替换它们。这个值可能是一个单独的数字，比如0，或者它可能是由好的值进行的某种imputation或插值。

指定一个反向填充以向后传播下一个值。

对于数据帧，选项是类似的，但是我们还可以指定填充发生的轴。

注意，如果前一个值在向前填充期间不可用，NA值仍然保留。

Original: https://blog.csdn.net/m0_59160272/article/details/126607778
Author: 西伯利亚的长颈鹿
Title: 数据分析快速入门_Pandas详解（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754722/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python魔术世界 1 如何使用Visual Studio在WIN10中一键安装Python3入门编程环境并测试Django

本文通过VS安装Python和Django的环境，创建了一个Web程序，前后5分钟的操作，让你快速入门Python的编程世界，各种Python和Django的概念会在实战中给你娓娓…

Python 2023年6月12日
0095
利用python库 pandas完成数据分析（持续更新中~）

利用python库 pandas完成数据分析导读 Pandas是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也…

Python 2023年8月16日
0072
Unity API Random类

Random[class in UnityEngine] using UnityEngine; 描述：用于生成随机数据的静态类静态变量变量名functioninsideUnit…

Python 2023年11月7日
0031
Dapr 证书过期了怎么办？别慌，有救！

Dapr 默认证书有效时间是1年，证书过期后就不能执行相关控制面和数据面的交互了，如下图： Dapr 支持使用 Dapr 控制平面、Sentry 服务（中央证书颁发机构 (CA)）…

Python 2023年10月21日
0050
科学计算库NumPy

一、创建NumPy数组 1、使用array（）函数创建一个一维数组 data1 = np.array([1,2,3]) 创建一个二维数组 data2 = np.array([[1…

Python 2023年8月26日
0046
pandas plot绘图详解：一文教会你各种绘图

pandas.DataFrame.plot绘图详解一、介绍 * 1.1 参数介绍 1.2 其他常用说明二、举例说明 * 2.1 折线图 line 2.2 条型图 bar 2.3…

Python 2023年8月2日
00100
Android掌控WiFi不完全指南

前言如果想要对针对WiFi的攻击进行监测，就需要定期获取WiFi的运行状态，例如WiFi的SSID，WiFi强度，是否开放，加密方式等信息，在Android中通过WiFiMana…

Python 2023年10月17日
0052
Python自动化必不可少的测试框架 — pytest

Python在测试圈的应用非常广泛，特别是在自动化测试以及测试开发的领域，其中在自动化测试中我们常用的测试框架是 uniitest 和 pytest，本文将带领大家搭建以及熟悉py…

Python 2023年9月9日
0048
itemexporters-scrapy框架8-python

文章目录 1 前言 2 item exporters * 2.1 Item Exporters 2.2 BaseItemExporter 2.3 实例化 – 2.3.1…

Python 2023年10月6日
0053
Python字符串格式化输出语法汇总

1. 引言在程序设计中，对于字符串的处理是个免不了的工作。对于字符串的常见操作，Python内置了各种不同的工具，本篇要讨论的是关于Python中字串格式化输出的各种语法。 2….

Python 2023年5月25日
0074
Python全功能测试框架pytest

文章目录 PyTest * 一、快速开始 – 1、介绍 2、安装 3、第一个测试 4、断言引发异常 5、分组测试 6、添加临时目录二、调用测试 &#8…

Python 2023年9月12日
0076
【python】numpy使用

1.简介： numpy支持大规模矩阵运算，同时提供大量数组运算的数学函数特点： N维数组对象ndarray 广播功能嵌入线性代数，傅里叶变换，随机数生成等功能函数整合了C/C…

Python 2023年8月25日
0059
Python实现函数可视化–快捷显示数学函数图像的轻量级工具制作教程

Python函数可视化工具目录 1.简介对于如今的中学生乃至大学生，只要接触到数学相关内容的，就必然离不开函数这一”生死大关”。为什么说是生死大关呢？实…

Python 2023年8月30日
0057
学python，怎么能不学习scrapy呢！

摘要：本文讲述如何编写scrapy爬虫。本文分享自华为云社区《学python，怎么能不学习scrapy呢，这篇博客带你学会它》，作者：梦想橡皮擦。在正式编写爬虫案例…

Python 2023年5月24日
0083
React-native开发环境搭建(Windows平台)

安装依赖安装Node.js React Native开发需要用到Node.js环境。我们做React Native开发会经常性的和Node.js进行打交道，比如：我们用npm s…

Python 2023年11月8日
0052
【计算方法】实验二：python实现高斯消去、列主元高斯消去，LU分解分别求解线性方程组

文章目录题目方法一：高斯消去法 * – + 结果截图方法二：列主元素高斯消元法 * – + 结果截图方法三：LU分解结果截图 * – …

Python 2023年8月3日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析快速入门_Pandas详解（一）

1、Series数据结构

（1）通用NumPy数组定义Series

（2）通过Dictionary定义Series

（3）构建系列对象

2、DataFrame 数据结构

（1）DataFrame可以作为一个特殊的字典

（2）从Series创建DataFrame

（3）从字典创建DataFrame

（4）Pandas的Index对象

（5）数据的索引Index和选择

（6）loc 和iloc

（7）在DataFrame中的Data选择

（8）Pandas的运算操作

（9）DataFrame和Series之间的操作

（10）处理缺失数据

（11）处理空值

大家都在看