数据分析工具pandas

2023年8月17日上午7:43 • Python • 阅读 44

一、pandas的数据结构分析

Pandas 中有两个主要的数据结构：Series 和DataFrame 。

Series 是一维的数据结构，DataFrame是二维的、表格型的数据结构。

Series

Series 是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之相关的索引两部分构成。

Pandas 的Series 类对象可以使用以下构造方法创建：

class pandas.Series （data = None ，index = None ，dtype = None ，
name = None ，copy = False ，fastpath = False ）

data：表示传入的数据。

index：表示索引，唯一且与数据长度相等，默认会自动创建一个从0~N 的整数索引。

通过传入一个列表来创建一个Series 类对象

创建Series 类对象

ser_obj = pd.Series([1, 2, 3, 4, 5 ])

创建Series 类对象，并指定索引

ser_obj = pd.Series([1, 2, 3, 4, 5],
index =[‘a’, ‘b’, ‘c’, ‘d’, ‘e’])

使用dict 进行构建。

year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5}
ser_obj2 = pd.Series(year_data )

为了能方便地操作Series 对象中的索引和数据，所以该对象提供了两个属性index 和values 分别进行获取。

获取ser_obj 的索引

ser_obj.index

获取ser_obj 的数据

ser_obj.values

直接使用索引来获取数据。

获取位置索引3 对应的数据

ser_obj[3]

DataFrame

DataFrame 是一个类似于二维数组或表格（如excel ）的对象，它每列的数据可以是不同的数据类型。

Pandas的DataFrame 类对象可以使用以下构造方法创建：

pandas.DataFrame （data = None ，index = None ，columns = None ，
dtype = None ，copy = False ）

index：表示行标签。若不设置该参数，则默认会自动创建一个从0~N 的整数索引。

columns：列标签。

通过传入数组来创建DataFrame 类对象：

创建数组

demo_arr = np.array([[‘a’, ‘b’, ‘c’],
[‘d’, ‘e’, ‘f ‘]])

基于数组创建DataFrame 对象

df_obj = pd.DataFrame(demo_arr )

在创建DataFrame 类对象时，如果为其指定了列索引，则DataFrame 的列会按照指定索引的顺序进行排列。

df_obj = pd.DataFrame(demo_arr, columns=[‘No1’, ‘No2’, ‘No3’])

使用列索引的方式来获取一列数据，返回的结果是一个Series 对象。

通过列索引的方式获取一列数据

element = df_obj[‘No2’]

查看返回结果的类型

type(element)

使用访问属性的方式来获取一列数据，返回的结果是一个Series 对象。

通过属性获取列数据

element =df_obj.No2

查看返回结果的类型

type(element)

为DataFrame 增加一列数据，则可以通过给列索引或者列名称赋值的方式实现。

增加No4 一列数据

df_obj [‘No4’] = [‘g’, ‘h ‘

删除某一列数据，可以使用del 语句实现

删除No3 一列数据

del df_obj[‘No3 ‘]

二、Pandas索引操作及高级索引

Pandas 中的索引都是Index 类对象，又称为索引对象，该对象是不可以进行修改的，以保障数据的安全。

Pandas 中提供了一个重要的方法是reindex()，该方法的作用是对原索引和新索引进行匹配，也就是说，新索引含有原索引的数据，而原索引数据按照新索引排序。（如果新索引中没有原索引数据，那么程序不仅不会报错，而且会添加新的索引，并将值填充为NaN 或者使用fill_vlues()填充其他值。）

reindex()方法的语法格式如下：

DataFrame.reindex （labels = None ，index = None ，
columns = None ，axis = None ，method = None ，
copy = True ，level = None ，fill_value = nan ，limit = None ，tolerance = None ）

三、算术运算与数据对齐

Pandas 执行算术运算时，会先按照索引进行对齐，对齐以后再进行相应的运算，没有对齐的位置会用NaN 进行补齐。

四、数据排序

Pandas 中按索引排序使用的是sort_index()方法，该方法可以用行索引或者列索引进行排序。

sort_index （axis = 0 ，level = None ，ascending =True ，inplace = False ，kind =’ quicksort ‘，na_position =’last’，sort_remaining = True ）

按索引对Series 进行分别排序

ser_obj = pd.Series(range(10, 15), index=[5, 3, 1, 3, 2])

按索引进行升序排列

ser_obj.sort_index()

按索引进行降序排列

ser_obj.sort_index(ascending = False)

按索引对DataFrame 进行分别排序

df_obj = pd.DataFrame(np.arange(9).reshape(3, 3),
index =[4, 3, 5])

按行索引升序排列

df_obj.sort_index ()

按行索引降序排列

df_obj.sort_index(ascending=False )

Pandas 中用来按值排序的方法为sort_values()，该方法的语法格式如下。

sort_values(by,axis=0 , ascending=True, inplace=False, kind=’quicksort ‘,na_position =’last’)

按值的大小对Series 进行排序

ser_obj = pd.Series([4, np.nan, 6, np.nan, -3, 2])

按值升序排列

ser_obj.sort_values()

Original: https://blog.csdn.net/qq_61376769/article/details/123394973
Author: Yyyyy.852
Title: 数据分析工具pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751885/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tolist方法python_python中如何使用tolist()方法将数组或者矩阵转换为列表？

python中最基础的数据类型就是列表，可以使数据的计算简单明了名可以快速地运算，那么如何将复杂数组或者矩阵转换为列表进行计算呢？其实只需要简单的一步，使用tolist()方法，它…

Python 2023年8月28日
0056
用excel表画一个乐高

一、背景:在商场看到一个超级玛丽的乐高图感觉使用excel的颜色填充也能画出来，并且可以借助python来实现二、excel表如何绘制正方形：1.统一设置行高与列宽excel表单…

Python 2023年10月13日
0054
Python3获取5000个元素的单字符表

此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的 chr(number)的方法里面包含了太多的非字母条目…

Python 2023年5月24日
0049
1.支付系统

项目场景：用户购买东西时支付的场景，这里以电脑支付为例支付的流程支付宝沙箱的配置登录 – 支付宝登陆上支付宝之后进入到上边的网址，然后进入到控制台，找到沙箱应…

Python 2023年8月14日
0093
Python 中 Iterator和Iterable的区别

Python中 list，truple，str，dict这些都可以被迭代，但他们并不是迭代器。为什么？因为和迭代器相比有一个很大的不同，list/truple/map/dict…

Python 2023年6月9日
0079
cuda、cudnn、nvidia驱动版本、linux内核版本的对应，pytorch、tensorflow、paddle对应的cuda、cudnn版本 conda源、pip源配置

本文把许多深度学习相关环境配置、版本查询和镜像源配置的基础操作都统一整理出来，提升实际操作的效率。 1、docker+conda配置深度学习环境 cuda、cudnn、nvidia…

Python 2023年9月8日
0067
python从入门到实践12章答案

系列文章目录 python从入门到实践13章答案 python从入门到实践14章答案目录前言一、12-1蓝色天空二、12-2游戏角色三、12-3Pygame文档四、12…

Python 2023年9月18日
0036
【ChatGPT】注册OpenAI账号试用ChatGPT

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月3日
0052
数据结构初阶–二叉树介绍（基本性质+堆实现顺序结构）

树的相关概念节点的度：一个节点含有的子树的个数称为该节点的度；如上图：A的为2叶节点或终端节点：度为0的节点称为叶节点；如上图：D、F、G、H为叶节点非终端节点或分支节点：度…

Python 2023年10月14日
0035
面试官：请设计一个能支撑百万连接的系统架构！

目录 1、到底什么是连接？ 2、为什么每次发送请求都要建立连接？ 3、长连接模式下需要耗费大量资源 4、Kafka遇到的问题：应对大量客户端连接 5、Kafka的架构实践：Reac…

Python 2023年11月5日
0034
字符串的应用-

1.2.1 string.isspace() 如果string中只包含空格，则返回true 1.2.2 string.isalnum() 如果string至少有一个字符并且所有字符…

Python 2023年11月3日
0027
python3 scrapy中文文档_如何用python3创建scrapy项目

我使用macos，它有python2.7和python3.4。我使用pip install命令在Python2.7中安装scrapy。我还使用pip3 install命令在pyth…

Python 2023年10月5日
0026
Pandas统计分析基础（3）：DataFrame功能介绍及DataFrame中元素的增、删、改、查

✅作者简介：大家好我是Xlong，一枚正在学习COMSOL、Python的工科研究僧📃个人主页: Xlong的个人博客主页🔥系列专栏: Python大数据分析💖如果觉得博主的文章还…

Python 2023年8月6日
0065
数据分析 — Pandas③

目录表格合并 * 纵向合并横向合并数据清洗 * 删除缺失数据行数据填充统一数据格式去除重复数据 pandas 中很实用的方法——apply() 方法附：匿名函数表格…

Python 2023年8月17日
0050
Django项目练习（六）——视频页面功能开发

一、视频页面功能开发在app文件夹的views文件夹中，创建一个video文件。再在templates文件夹下的dashboard文件夹下建一个video文件夹，方video页面…

Python 2023年8月5日
0051
LeetCode 997. Find the Town Judge

In a town, there are n people labeled from 1 to n. There is a rumor that one of these peop…

Python 2023年9月16日
0022

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析工具pandas

创建Series 类对象

创建Series 类对象，并指定索引

获取ser_obj 的索引

获取ser_obj 的数据

获取位置索引3 对应的数据

创建数组

基于数组创建DataFrame 对象

通过列索引的方式获取一列数据

查看返回结果的类型

通过属性获取列数据

查看返回结果的类型

增加No4 一列数据

删除No3 一列数据

按索引进行升序排列

按索引进行降序排列

按行索引升序排列

按行索引降序排列

按值升序排列

大家都在看