Pandas

2023年8月22日上午7:51 • Python • 阅读 43

Pandas

1 Series
*
1.1 创建Series
1.2 指定Series索引
1.3 获取Series数据
1.4 Series运算
2 DataFrame
*
2.1 创建Dataframe
2.2 dataframe常见操作
3 对比Series与Dataframe
*
3.1 Dataframe可拆分成多个Sereis
3.2 多个Sereis可组成Dataframe
3.3 其他：逐行读取数据
4 Pandas IO 操作（input/output文件的读与写）
*
4.1 读取数据
4.2 输出数据
5 loc与iloc数据选择
*
5.1 loc
5.2 iloc
6 pivot_table 数据透视表
7 merge连接
8 groupby分组
9 map、replace操作
*
9.1 map
9.2 Replace
10 分箱操作
11 apply自定义函数
12 其他常用函数

Pandas(Python Data Analysis Library)是基于numpy的一种工具，为了解决数据分析任务而创建。

1 Series

结构：索引 + 一维数组数值

1.1 创建Series

通过三种方式创建： pd.Series ( list /array / dict)

列表list
数组array
字典dict（键——索引，值——值）

; 1.2 指定Series索引

pd.Series (list , index=[ ])

Series默认索引为0 1 2 3…

指定index ,索引长度要与值长度一致

1.3 获取Series数据

获取索引 .index

获取值 .values
Pandas

; 1.4 Series运算

加减乘除
直接对Series进行操作
筛选

筛选出大于3的数值

Series之间的操作

**两个series进行操作，相同索引的值进行运算；若无相同索引，最终相加结果赋值为NaN。

2 DataFrame

表格型数据结构，含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）；
既有行索引也有列索引，可以被看作由series组成的字典（共用同一个索引）。

2.1 创建Dataframe

pd. DataFrame (array / dict）

通过 array

未指定行索引和列索引，默认0 1 2…

指定行列索引：pd. DataFrame (arr , columns =[ ] , index=[ ])

通过dict

; 2.2 dataframe常见操作

查看数据
head()查看头数据 tail()查看尾数据
info() 查看数据结构及储存信息
describe() 查看数据按列的统计信息

std代表标准差

mean()均值 median()中位数

index 行索引 columns 列索引
T转置
排序

sort_index（axis=0/1,ascending=True/False）

axis=0按行索引进行排序 axis=1按列索引进行排序
ascending=True（索引按从小到大排序）/False(索引按从大到小排序)

3 对比Series与Dataframe

DataFrame是由多个共用相同索引的Series组成，
Series没有列索引，DataFrame有列索引
可拆分、合并互相转化

3.1 Dataframe可拆分成多个Sereis

通过相应列名

; 3.2 多个Sereis可组成Dataframe

其中name,age,sex列为不同的Series.

3.3 其他：逐行读取数据

for index.value in df.iterrows():

读出具体数值

; 4 Pandas IO 操作（input/output文件的读与写）

url: ‘https://pandas.pydata.org/pandas- docs/ version/1.0.1 /users_guide /io.html’

4.1 读取数据

读取外部数据

import pandas as pd
data=pd.read_csv(r'C:\Users\lenovo\python数据分析\df.csv',sep=',')

查看当前目录下文件
!dir #Windows操作系统

!ls #Linux

调用os包

import os
os.chdir(r'C:\Users\lenovo\python数据分析')
data1=pd.read_table('df.txt')

read_csv 读取csv、txt数据
read_excel 读取excel数据

4.2 输出数据

to_excel

输出一个excel文件

df.to_excel(‘ ‘,header=T/F,index=T/F)

header=True/False 输出/不输出标题

index=True/False 输出/不输出索引

to_dict

输出一个字典

to_csv (‘ 文件名’)

输出一个csv文件

to_html

输出一个网页文件

; 5 loc与iloc数据选择

选择指定行列 loc/iloc

5.1 loc

选择列/行

loc [row,column]

df.loc[ : , : ] 返回所有数据

row 选择指定行数索引

df.loc[ : 3, : ] 返回前4行（0,1,2,3）

column 选择指定的列名

df.loc[ : ,’列名’] 返回Series （1列）
df.loc[ : , [‘列名’，’列名’]] 返回DataFrame （可多列）

加中括号可返回多列DataFrame

筛选特定条件的DataFrame

选择出所有stockcode为71053的数据

选择出所有索引为偶数的数据 df .index%2==0
Pandas

; 5.2 iloc

loc前面输入数字后面需要输入列名
iloc前后返回行列都需要输入数字，不能输入相应列名

df.iloc[ :3 , : 3] 返回前3行前3列（0,1,2）与loc不同

6 pivot_table 数据透视表

df.pivot_table( ) 内部参数默认

aggfunc 默认计算均值，可进行修改用于求和等

aggfunc=[np.sum,len,np.mean]

可传入字典，指定列进行相关计算

fill_value 空值填充
margins 统计，求和由aggfunc决定

; 7 merge连接

内部参数

how:
‘inner’内连接（默认内连接）根据on条件，列出左右两表共有数据
‘left’ 左连接表1的完全集，而表2中匹配的则有值，没有匹配的则以null值取代
‘right’右连接表2从完全集，而表1中匹配的则有值，没有匹配的则以null值取代
‘outer’全连接所有值

on =两个dataframe相同的列名
left_on=第一个dataframe列名
right_on=第二个dataframe列名
Suffixes=(‘_x’,’_y’) 可传入指定后缀名，如果两个dataframe有相同列名，则第一个dataframe列名默认后缀+’_x’,第二个列名默认后缀+’_y’

8 groupby分组

g=data.groupby(‘分组字段’)

过程是将一个DataFrame按照groupby字段，化分成若干个分组DataFrame，分组会返回一个DataFrameGroupby对象

list() 查看DataFrameGroupby对象内部情况
get_group() 查看一个组的数据情况 g.get_group()
agg函数聚合 data.groupby( ).agg( )

相关函数：
min 、max、 sum、 mean、 median、
count 计数，不包含NaN值、
size 计数，包含NaN值、
nunique 计算去重后的个数。

groupby分组后直接.agg()进行聚合操作
Pandas

**可通过传入字典的形式不同列进行不同操作，也可对一个列进行多个操作

; 9 map、replace操作

9.1 map

内部参数

字典键值对替换，若字典中没有找到series中对应的值，则赋值为 NaN

na_action

如果传入’ignore’，则跳过对空值的操作

; 9.2 Replace

字典键值对替换，其他值保持不变

指定列替换
不指定列替换

10 分箱操作

pd.cut 常用来把一组数据分割成离散的区间

内部参数

x：被切分的类数组数据，一维，arrary/series
bins：被切割后的区间个数

int：当bins为一个ins型标量时，如bins=3，代表将x分为三个区间
sequence：指定区间如[0,59,70,80,100]，控制区间范围

right：bool型参数，默认为True。right=True，区间左开右闭；right=False，区间左闭右开
labels:给分割后的bins区间设置标签，labels的长度和划分后的区间长度相同，例如分割后有2个区间，则labels长度必须为2.

可将其转化为dataframe形式

; 11 apply自定义函数

可直接用于Series和DataFrame对象，进行数据聚合运算

apply( np.sqrt ) 开根号

apply ( pd.to_datetime ) 计算时间间隔
Pandas

对多列进行操作采用自定义函数，axis=1
例：score>=600且interval

lambda

12 其他常用函数

rename 修改列名/索引

令inplce=True，才会将其真正改变，否则只是改变了副本
set_index 将DataFrame中的某一（多）个字段设置为索引

若将多个字段同时设置为索引需加中括号
reset_index 重置索引

参数：drop
drop=False 保留原索引，并作为DataFrame新字段默认
drop=True 删除原索引

drop_duplicates 去重

参数：
subset 指定列作为主键，即在去重过程只针对指定列进行去重，保留指定列不同的字段；不指定列时去重完全重复的数据。
keep first/last 即在去重过程中保留第一行还是最后一行，默认first.

drop 删除DataFrame指定列与索引
isin 常用于构建布尔索引，对DataFrame的数据条件筛选
value_counts 统计分类变量中每个类的数量

参数：normalize=True返回各类的占比，否则返回具体数量

isna 判断DataFrame/Series是否为缺失值，是的话返回True。

返回出有缺失值的一行

any df.isna( ).any( ) 可判断某一列是否有缺失值，方便
dropna 删除含有缺失值的数据
fillna 填充缺失值

参数：
value
method
=pad/ffill 用上一个值填充；
=backfill/bfill 用下一个值填充。

sort_values

按照某列（通过参数by实现）进行排序，对Series按数据列进行排序

默认ascending=True,即由小到大排序；令ascending=False由大到小排序

Original: https://blog.csdn.net/mylnn/article/details/119857546
Author: Luminita_myl
Title: Pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756464/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

聊聊损失函数1. 噪声鲁棒损失函数简析 & 代码实现

今天来聊聊非常规的损失函数。在常用的分类交叉熵，以及回归均方误差之外，针对训练样本可能存在的数据长尾，标签噪声，数据不均衡等问题，我们来聊聊适用不同场景有针对性的损失函数。第一章我…

Python 2023年10月29日
0037
NeurIPS 2022：基于语义聚合的对比式自监督学习方法

摘要：该论文将同一图像不同视角图像块内的语义一致的图像区域视为正样本对，语义不同的图像区域视为负样本对。 1.研究背景近些年来，利用大规模的强标注数据，深度神经网络在物体识别、物…

Python 2023年10月28日
0023
【NLP】文本情感分析

昨晚太晚代码还没有跑完，恰巧又遇到PSO-LSTM的准确率没办法复原，惨兮兮/(ㄒoㄒ)/，具体内容今天来补上文本情感分析 * – 一、情感分析简介 – …

Python 2023年8月1日
0050
python-i18n / python国际化 / python-gettext / – pythonweb(5)

python-i18n / pythonweb国际化国际化可以方便我们以一种语言(英语)编写程序中的字符串，但是可以向不同国家的人提供对应的语言翻译，那么python语言如何…

Python 2023年8月4日
0034
Pandas模块的使用

Pandas 数据结构 – Series Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。 Series 由索引（…

Python 2023年8月18日
0057
Self-Attention：初步理解

Self-Attention 的基本结构与计算 Attention（注意力）实际上就是权重的另一种应用的称呼，其具体结构与初始输入的 content (\vec{x_{1}}, \…

Python 2023年10月22日
0039
Scrapy框架（二. 数据持久化存储)

简单的持久化存储数据 Scrapy快速入门两种存储方式：一. 通过执行命令（有局限性）二. 编写pipelines.py等文件 (操作相对复杂)1. 修改、编写 item…

Python 2023年10月1日
0071
python 数据合并函数 merge, concat, append的使用方法比较小结

概述数据分析中经常会遇到数据合并的基本问题：1. 数据或表格的上下连接；2. 数据或表格的左右连接。根据上述问题，本文总结了python中的表格合并函数的基本用法和使用效果： m…

Python 2023年8月19日
0063
pygame库和pgzero库

安装游戏开发库Python之所以功能强大，其中一个原因就是它有大量功能强大的库，安装好库后即可使用这些库的功能。安装Pygame、Pygame Zero两个游戏开发库。（Pygam…

Python 2023年9月17日
0041
python字典中存储列表_在列表或字典中存储代码？

有没有一种方法可以将代码存储在要运行的list或字典中，而不是执行长if..elif？比如：my_dict = {‘up’: ‘y=y+1&#8…

Python 2023年9月22日
0038
新版CaImAn自动安装脚本解决conda solving environment卡死

新版CaImAn自动安装脚本新版CaIman发布，实验室师兄师姐都说安不上，不想一个个帮忙安装，于是写了脚本，特此分享。具体思路是用新建虚拟环境安装mamba，再用mamba创建…

Python 2023年9月8日
0064
【Leetcode】滑动窗口

给你两个长度相同的字符串，s 和 t。将 s 中的第 i 个字符变到 t 中的第 i 个字符需要 |s[i] – t[i]| 的开销（开销可能为 0），也就是两个字符…

Python 2023年6月6日
0065
Python Numpy快速创建包含初始值的N维数组的函数介绍及用法汇总（附python代码）

1. 快速创建包含初始值的N维数组的函数： arange() – 创建指定数值范围的一维数组，需要指定起始值、终止值和步长，在创建的数组中不包含终止值 linspace() – …

Python 2023年8月26日
0055
pandas3 DataFrame数据的查询编辑

3.DataFrame数据的查询和编辑通过列索引标签或者属性的方式可以单独获取DataFrame的列数据，返回数据类型为Series。在选取列时不能使用切片的方式，超过一个列名…

Python 2023年8月8日
0040
hrsc2016数据集xml格式转换为yolo格式，附下载链接

数据集介绍数据集背景： HRSC2016数据集包含27种类型的遥感地物目标提取自Google Earth由西北工业大学于2016年发布采用oriented bounding b…

Python 2023年10月26日
0060
如何通过Grafana配置企业微信机器人实现监控告警

Grafana配置企业微信机器人实现监控告警 1.方案架构 2.企业微信配置 3.Grafana配置 4.Webhook代码示例 5.K8S部署Yaml文件 6.效果展示 1.方案…

Python 2023年8月9日
0044

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas

Pandas

1.1 创建Series

; 1.2 指定Series索引

Series默认索引为0 1 2 3…

指定index ,索引长度要与值长度一致

1.3 获取Series数据

; 1.4 Series运算

筛选出大于3的数值

2.1 创建Dataframe

; 2.2 dataframe常见操作

std代表标准差

3.1 Dataframe可拆分成多个Sereis

通过相应列名

; 3.2 多个Sereis可组成Dataframe

其中name,age,sex列为不同的Series.

3.3 其他：逐行读取数据

4.1 读取数据

4.2 输出数据

header=True/False 输出/不输出标题

5.1 loc

df.loc[ : , : ] 返回所有数据

row 选择指定行数索引

column 选择指定的列名

加中括号可返回多列DataFrame

; 5.2 iloc

df.iloc[ :3 , : 3] 返回前3行前3列 （0,1,2） 与loc不同

aggfunc=[np.sum,len,np.mean]

9.1 map

; 9.2 Replace

默认ascending=True,即由小到大排序；令ascending=False由大到小排序

大家都在看

df.iloc[ :3 , : 3] 返回前3行前3列（0,1,2）与loc不同