数据分析——Pandas的用法（Series,DataFrame）

2023年6月2日上午5:02 • 人工智能 • 阅读 64

我们先要了解，pandas是基于Numpy构建的，pandas中很多的用法和numpy一致。pandas中又有series和DataFrame，Series是DataFrame的基础。

pandas的主要功能：

具备对其功能的数据结构DataFrame，Series
集成时间序列功能
提供丰富的数学运算和操作
灵活处理缺失数据，处理NaN数据（**）

一、Series

Series是一种类似于一维数组的对象，由一组数据和一组与之相关的数据标签(索引)组成

1.创建方法

第一种：
pd.Series([4,5,6,7])
#执行结果
0    4
1    5
2    6
3    7
dtype: int64
#将数组索引以及数组的值打印出来，索引在左，值在右，由于没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引，取值的时候可以通过索引取
第二种：
pd.Series([4,5,6,7,8],index=['a','b','c','d','e'])   #index索引是用[]
#执行结果
a    4
b    5
c    6
d    7
e    8
dtype: int64
自定义索引，index是指定的索引名，是一个索引列表，里面包含的是字符串，依然可以通过默认索引取值。
第三种：
pd.Series({"a":1,"b":2})  #传入字典格式数据
#执行结果：
a    1
b    2
dtype: int64
传入字典格式的数据，字典的key当成指定索引
第四种：
pd.Series(0,index=['a','b','c'])
#执行结果：
a    0
b    0
c    0
dtype: int64
创建一个值都是0的数组

对于Series，其实我们可以认为它是一个长度固定且有序的字典，因为它的索引和数据是按位置进行匹配的，像我们会使用字典的上下文，就肯定也会使用Series，也支持通过索引取值。

2.缺失数据（**）在处理数据的时候经常会遇到这类情况

dropna() # 过滤掉值为NaN的行
fillna() # 填充缺失数据
isnull() # 返回布尔数组，缺失值对应为True
notnull() # 返回布尔数组，缺失值对应为False

第一步，创建一个字典，通过Series方式创建一个Series对象
st = {"sean":18,"yang":19,"bella":20,"cloud":21}
obj = pd.Series(st)
obj
运行结果：
sean     18
yang     19
bella    20
cloud    21
dtype: int64
#第三步
obj1 = pd.Series(st,index=a)
obj1  # 将第二步定义的a变量作为索引传入

运行结果：
rocky     NaN
cloud    21.0
sean     18.0
yang     19.0
dtype: float64
因为rocky没有出现在st的键中，所以返回的是缺失值

dropna() #过滤掉值有NaN的行

obj1.dropna()
#执行结果
cloud    21.0
sean     18.0
yang     19.0
dtype: float64

fillna() #填充缺失数据，这个填写1

obj1.fillna(1)
#执行结果
cloud    21.0
sean     18.0
yang     19.0
rocky     1.0
dtype: float64

isnull() #缺失值返回True

obj1.isnull()
#执行结果
cloud    False
sean     False
yang     False
rocky     True
dtype: bool

notnull() #不是缺失值返回True

obj1.notnull()
#执行结果
cloud     True
sean      True
yang      True
rocky    False
dtype: bool

利用布尔值索引过滤缺失值

obj1[obj1.notnull()]   #只有True的才显示
#执行结果
cloud    21.0
sean     18.0
yang     19.0
dtype: float64

3.Series特性

从ndarray创建Series:Series(arr)
与标量（数字）：sr * 2
两个Series运算
通用函数：np.ads(sr)
布尔值过滤：sr[sr>0]
统计函数：mean()、sum()、cumsum()

因为pandas是基于numpy的，所以有numpy的很多特性,Series和numpy很多类似

支持字典的特性：

从字典创建Series：Series(dic),
In运算：’a’in sr、for x in sr
键索引：sr[‘a’],sr[[‘a’,’b’,’d’]]
键切片：sr[‘a’:’c’]
其他函数：get(‘a’,default=0)等

4.整数索引

sr = pd.Series(np.arange(10))
sr1 = sr[3:]
sr1
运行结果：
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32
到这里会发现很正常，一点问题都没有，可是当使用整数索引取值的时候就会出现问题了。因为在pandas当中使用整数索引取值是优先以标签解释的（就是index的值），而不是下标。

比如我想取索引值为1的数值，不再是我们之前的那种方法

sr1[1]   #这种方式是取不出的，因为默认优先的是以标签解释的，这个没有1的标签（index）

解决方法：

loc属性 # 以标签解释
iloc属性 # 以下标(索引)解释

sr1.iloc[1]  #以下标取值，（索引值为1的）
#执行结果
4

sr1.loc[4]   #以标签取值（index值为1）
#执行结果
4

5.Series数据对齐

sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr2 = pd.Series([11,20,10], index=['d','c','a',])
sr1 + sr2
运行结果:
a    33
c    32
d    45
dtype: int64
可以通过这种索引对齐直接将两个Series对象进行运算
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1 + sr3
运行结果：
a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64
sr1 和 sr3的索引不一致，所以最终的运行会发现b索引对应的值无法运算，就返回了NaN,一个缺失值

将两个Series对象相加时将缺失值设为0

sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1.add(sr3,fill_value=0)
运行结果：
a    33.0
b    14.0
c    32.0
d    45.0
dtype: float64
将缺失值设为0，所以最后算出来b索引对应的结果为14

二.DataFrame

DataFrame是一个表格型的数据结构，相当于是一个二维数组，含有一组有序的列。他可以被看做是由Series组成的字典，并且共用一个索引（这里的索引指的就是列索引）。

1.创建方式

创建一个DataFrame数组可以有多种方式，其中最为常用的方式就是利用包含等长度列表或Numpy数组的字典来形成DataFrame：

第一种：
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
产生的DataFrame会自动为Series分配所索引，并且列会按照排序的顺序排列
运行结果：
    one two
0   1   4
1   2   3
2   3   2
3   4   1
#字典的key就是列索引，行索引和series一致
> 指定列
可以通过columns参数指定顺序排列
data = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame(data,columns=['two','one'])  #指定显示顺序
#执行结果
    two    one
0    4    1
1    3    2
2    2    3
3    1    4
#注意：columns一定要是key值中的，才能匹配的到，不然会报错
第二种：
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])})
运行结果：
   one  two
a   1   2
b   2   1
c   3   3#字典的key是列索引，index是行索引

2.查看数据

常用属性和方法：（和numpy类似）

index 获取行索引
columns 获取列索引
T 转置
values 获取值
describe() 获取快速统计

`
one two
a 1 2
b 2 1
c 3 3
这样一个数组df
df.columns #列索引
运行结果：
Index([‘one’, ‘two’], dtype=’object’)
df.values #获取值，ndarray类型
运行结果：
array([[1, 2],
[2, 1],
[3, 3]], dtype=int64)

Original: https://www.cnblogs.com/wangcuican/p/11979342.html
Author: 只会玩辅助
Title: 数据分析——Pandas的用法（Series,DataFrame）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559767/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

java计算机毕业设计bs架构实习管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月28日
0078
【手把手教你】股票可视化分析之Pyecharts（二）

0 1 引言 Pyechartss 是基于Echarts 的开源可视化库，可以制作非常精美的图表。公众号推文《》，以股票交易数据为例，为大家展示了使用 Pyehcarts 构建直角…

人工智能 2023年7月16日
0076
整理了6个Python经典项目（python爬虫、python人工智能、python数据分析、python web、python办公自动化、python游戏），送给正在求职的你

前言职场中一贯有”金三银四”、”金九银十”的说法。尤其是3、4月刚过完年后，很多企业的员工会选择离职，大量空缺职位被放出，同时HR…

人工智能 2023年7月28日
0070
3.3 柔顺控制代码实现

本文隶属于工程机械臂末端柔顺控制（Ros+Gazebo仿真实现） 0 前言之前写了一个UR5的运动学库，参考3.2 写一个UR机器人运动学库，发现该运动学库需要补充一部分内容，主…

人工智能 2023年6月16日
0085
ONNXRuntime学习笔记(四)

接上一篇在Python端的onnx模型验证结果，上一篇在Pytorch和onnxruntime-gpu推理库上分别进行效果效率统计分析，结论要比最初设置的50ms高很多，这一篇我将…

人工智能 2023年6月4日
0089
HIBOG: Improving the clustering accuracy by amelioratingdataset with gravitation论文笔记

HIBOG: Improving the clustering accuracy by amelioratingdataset with gravitation 论文链接总结优…

人工智能 2023年6月2日
0091
torch.nn.interpolate—torch上采样和下采样操作

前言：最近博主搭建网络需要用到一些直接对于GPU上的tensor的上采样和下采样操作，如果使用opencv那么就需要先将数据从GPU上面copy到CPU，操作完后在转移到GPU。…

人工智能 2023年6月17日
0083
Hough变换原理-直线检测

目录一、简介二、原理三、Python代码实现一、简介 Hough（霍夫）变换是图像处理中从图像中识别几何形状的基本方法之一。 Hough变换是将图像坐标空间变换到参数空间，…

人工智能 2023年6月19日
0067
京东用户行为数据分析报告(python)

1. 背景与目的该重构项目对京东的运营数据集的用户购买行为进行分析，研究用户过程中的行为特点、购物偏好、以及在购物过程中的转化率和流失情况，为精准营销提供高质量的目标群体。 2….

人工智能 2023年7月15日
00286
多层感知机(MLP)的构建与实现

前面介绍的线性回归与Softmax回归，都属于单层神经网络，而在深度学习领域，主要关注多层模型，这节主要熟悉多层感知机（MultiLayer Perceptron，MLP），因为神…

人工智能 2023年7月14日
0076
ZZNUOJ_用Java编写程序实现1254：三角形(附源码)

题目描述用N个三角形最多可以把平面分成几个区域? 输入数据的第一行是一个正整数T(1 对于每组测试数据,请输出题目中要求的结果. 样例输入 212 样例输出完整源码： impo…

人工智能 2023年6月28日
0079
AI遮天传 ML-回归分析入门

相信大家初高中都学习过求解回归线方程，大学概率论的第九章也有讲，忘记了也不要紧，这里简单回忆一下：线性回归方程为：我们可以先求出x、y的均值：对于系数 : 对于系数 : 例：已知…

人工智能 2023年6月18日
00109
Pandas数据类型-DataFrame之创建和访问

DataFrame是一个表格型（类似Excel）的数据结构，它既有行，也有列，每一行的索引为index，每一列的索引为column。同样也可以把DataFrame类型看作是一维的…

人工智能 2023年7月7日
0078
在Convolutional网络中，如何防止过拟合问题的发生？有哪些常见的方法

问题描述在Convolutional Neural Network (CNN)中，过拟合是一个常见的问题。过拟合指的是模型在训练数据上表现良好，但在未见过的测试数据上表现较差。过…

人工智能 2024年1月3日
0055
数据分析-聚类-案例

目录 0、数据集介绍 1、导入必要的包 2、读入数据 3、数据探索 4、数据预处理 5、建模 5.1 Kmeans 探寻最优的K值 5.2 MeanShift 5.3 Agglom…

人工智能 2023年7月18日
0083
python读取文件的几种方式

下面是不同场景较为合适的数据读取方法： 1.python内置方法（read、readline、readlines）纯文本格式或非格式化、非结构化的数据，常用语自然语言处理、非结构…

人工智能 2023年7月4日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析——Pandas的用法（Series,DataFrame）

大家都在看