数据分析工具Pandas

2023年7月7日上午12:10 • 人工智能 • 阅读 83

一.series

一维的数据结果（series）二维的，表格型的数据结果（DataFrame）

Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之相关的索引两部分构成。

Pandas的Series类对象可以使用以下构造方法创建：class pandas.Series(data=None,index=None,dtype=None,name=None,copy=False,fatspath=False)

data：表示传入的数据。 index：表示索引，唯一且与数据长度相等，默认会自动创建一个从0~N的整数索引。

创建series类对象

ser_obj = pd.Series([1, 2, 3, 4, 5])

创建Series类对象，并指定索引

ser_obj = pd.Series([1, 2, 3, 4

除了使用列表构建Series类对象外，还可以使用dict进行构建。

二.DataFrame

DataFrame是一个类似于二维数组或表格（如excel）的对象，它每列的数据可以是不同的数据.

注意： DataFrame的索引不仅有行索引，还有列索引，数据可以有多列。

Pandas的DataFrame类对象可以使用以下构造方法创建：

pandas.DataFrame（data = None，index = None，columns = None， dtype = None，copy = False ）

通过传入数组来创建DataFrame类对象：

创建数组 demo_arr = np.array([[‘a’, ‘b’, ‘c’], [‘d’, ‘e’, ‘f’]]) # 基于数组创建DataFrame对象 df_obj = pd.DataFrame(demo_arr)

三.Pandas索引操作及高级索引

reindex()方法的语法格式如下：

DataFrame.reindex（labels = None，index = None， columns = None，axis = None，method = None， copy = True，level = None，fill_value = nan，limit = None，tolerance = None ）

索引操作：

ser_obj[2: 4]

使用位置索引进行切片

ser_obj[‘c’: ‘e’]

使用索引名称进行切片

如果希望获取的是不连续的数据，则可以通过不连续索引来实现。

通过不连续位置索引获取数据集

ser_obj[[0, 2, 4]]

通过不连续索引名称获取数据集

ser_obj[[‘a’, ‘c’, ‘d’]]

四.数据排序

Pandas中按索引排sort_index（axis = 0，level = None，ascending = True，inplace = False，kind =’ quicksort ‘，na_position =’last’，sort_remaining = True ）序使用的是sort_index()方法，该方法可以用行索引或者列索引进行排序。

按索引对Series进行分别排序，示例如下

ser_obj = pd.Series(range(10, 15), index=[5, 3, 1, 3, 2])

按索引进行升序排列

ser_obj.sort_index()

按索引进行降序排列

ser_obj.sort_index(ascending = False)

六.层次化索引

Series和DataFrame均可以实现层次化索引，最常见的方式是在构造方法的index参数中传入一个嵌套列表。

注：在创建层次化索引对象时，嵌套函数中两个列表的长度必须是保持一致的，否则将会出现ValueError错误。

from_tuples()：

list_tuples = [(‘A’,’A1′), (‘A’,’A2′), (‘B’,’B1′),(‘B’,’B2′), (‘B’,’B3′)] # 根据元组列表创建一个MultiIndex对象 multi_index = MultiIndex.from_tuples(tuples=list_tuples, names=[ ‘外层索引’, ‘内层索引’])

from_product()

numbers = [0, 1, 2] colors = [‘green’, ‘purple’] multi_product = pd.MultiIndex.from_product(iterables=[numbers, colors], names=[‘number’, ‘color’])

在Pandas中，交换分层顺序的操作可以使用swaplevel()方法来完成。

要想按照分层索引对数据排序，则可以通过sort_index()方法实现。

sort_index（axis = 0，level = None，ascending = True，inplace = False，kind =’ quicksort ‘，na_position =’last’， sort_remaining = True，by = None ）

七.读写文本

文本文件 Excel文件 HTML文件数据库

to_csv()方法的功能是将数据写入到CSV文件中。

path_or_buf：文件路径。

index：默认为True，若设为False，则将不会显示索引。

sep：分隔符，默认用”，”隔开。

to_csv(path_or_buf=None,sep=’,’,na_rep=”,float_format=None,columns=None,header=True, index=True, index_label=None, mode=’w’, …)

注意:read_csv()与read_table()函数的区别在于使用的分隔符不同，前者使用”，”作为分隔符，而后者使用”\t”作为分隔符。

to_excel()方法的功能是将DataFrame对象写入到Excel工作表中。

excel_writer：表示读取的文件路径。

sheet_name：表示工作表的名称，默认为”Sheet1″。

na_rep：表示缺失数据。

index：表示是否写行索引，默认为True。

to_excel(excel_writer,sheet_name=’Sheet1′,na_rep=”, float_format=None, columns=None, header=True, index=True, …)

对于网页中的表格，可以使用read_html()函数进行读取，并返回一个包含多个DataFrame对象的列表。

io：表示路径对象。

header：表示指定列标题所在的行。

index_col：表示指定行标题对应的列。

attrs：默认为None，用于表示表格的属性值。

pandas.read_html(io, match=’.+’, flavor=None,header=None,

本章小结： 常用的数据结构、索引操作、算术运算、数据排序、统计计算与描述、层次化索引和读写数据操作等，并结合北京高考分数线的分析案例，讲解如何使用Pandas操作数据。

Original: https://blog.csdn.net/qq_61374339/article/details/123375143
Author: 文静人
Title: 数据分析工具Pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675075/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

高斯过程回归

Gaussian Process Regression 本节我们来讲解一下高斯过程回归，这是一个比较难的知识，因此只要理解思想即可，具体细节推导不做要求。对于线性回归，我们假设所要…

人工智能 2023年6月17日
00103
BI工具介绍

title: BI工具介绍 date: 2022-01-15 22:44:59 tags: [BI,数据分析,商业智能] categories: BI工具下面介绍现在用的比较多的…

人工智能 2023年6月11日
0099
关联分析——频繁项集的产生之Apriori算法

关联分析——频繁项集的产生之Apriori算法频繁项集的产生—Apriori算法 Apriori算法的Python实现 * 提取1-项集提取频繁k-项集生成候选k-项集 Ap…

人工智能 2023年7月18日
0047
悬架模糊控制

应用模糊控制，悬架加速度和速度作为输入，主动悬架作动力是输出程序上还有不少问题，最终悬架位移在白噪声的作用下竟然没有收敛，水平实在有限，希望有相关研究的小伙伴可以指正。导入相关…

人工智能 2023年6月4日
0096
Xray数据集与论文整理

Dataset Year Classes Images Annotations Type Scene Application Availability Total Prohibit…

人工智能 2023年6月17日
0087
R 多元相关与回归分析

多元相关与回归分析 1.数据描述 2.调入数据 3.多元相关分析 * 3.1 多元数据散点图 3.2 多元数据相关系数矩阵 3.3 多元数据相关系数检验 4.多元回归分析 * 4….

人工智能 2023年6月17日
0070
聚类分析

通俗的讲，聚类分析它是根据研究对象的特征按照一定的标准，对研究对象来进行分类的一种分析方法，它使分成后的每一种类的数据对象具有较高的相似度，而不同类的对象有比较大的差异性，聚类分析…

人工智能 2023年6月2日
00100
YOLOv5（v6.1）解析（四）超参数进化

YOLOv5（v6.1）解析（四）超参数进化本文对YOLOv5项目的超参数算法进行详细阐述，笔者以后会定期讲解关于模型的其他的模块与相关技术，笔者也建立了一个关于目标检测的交流群…

人工智能 2023年5月26日
00128
＜人生重开模拟器＞——《Python项目实战》

目录 1.模拟实现 “人生重开模拟器” 1.1 问题导引： 1.2 问题分析： 2. 模拟实现分析及步骤： 3.完整源码： 4.写在最后的话：后记：●由于…

人工智能 2023年7月10日
0057
【pytorch】ResNet18、ResNet20、ResNet34、ResNet50网络结构与实现

文章目录 ResNet主体 BasicBlock * ResNet18 ResNet34 ResNet20 Bottleneck Block * ResNet50 ResNet到底…

人工智能 2023年6月16日
0093
R语言计算杰卡德相似系数（Jaccard Similarity）实战：自定义函数计算Jaccard相似度、对字符串向量计算Jaccard相似度、将Jaccard相似度转化为Jaccard距离

R语言计算杰卡德相似系数（Jaccard Similarity）实战：自定义函数计算Jaccard相似度、对字符串向量计算Jaccard相似度、将Jaccard相似度转化为Jacc…

人工智能 2023年7月17日
0061
数据分析实例-餐饮行业分析

本次数据分析案例共有8道题开发工具：jupyter bootbook 话不多说，首先导入本次案例需要用到的包导包 import pandas as pd import matp…

人工智能 2023年7月16日
0064
怎么使用小爱同学音响_天猫精灵、小爱同学，哪一款智能音响才是你的最爱？…

科学技术的不断发展也让我们每年都能跟上新的智能浪潮。例如，两年前的智能手机、智能平板电脑和可穿戴设备在过去两年无疑是火上浇油。小编也紧跟潮流，进了天猫精灵，每天都和天猫精灵聊天。 …

人工智能 2023年5月27日
00129
Qt编译OpenCv详细记录（MinGW-32编译）

Qt编译OpenCv详细记录（MinGW-32编译32位OpenCV）一、环境：Qt5.14.1 OpenCv 4.54 * 1、安装Qt 2、安装Cmake 二、编译流程 * …

人工智能 2023年7月20日
0081
深度学习安装笔记（二）显卡、显卡驱动、CUDA 的关系以及显卡驱动升级

显卡、显卡驱动、CUDA 的关系以及显卡驱动升级介绍如何查看他们的信息 * 显卡显卡驱动 CUDA 显卡驱动与CUDA对应表比较重要但是很少人说显卡驱动升级通过配置各…

人工智能 2023年6月16日
00114
目标检测YOLO系列总结

目标检测目标检测一、YOLO系列 * YOLOv1: YOLOV2 – + Darknet-19 Batch Normalization Anchor Dimens…

人工智能 2023年7月9日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析工具Pandas

大家都在看