Pandas选取合并操作总结

2023年8月19日上午2:08 • Python • 阅读 44

df.rolling

1、函数原型及参数说明：

DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

window：表示时间窗的大小，注意有两种形式（int or offset）。如果使用int，则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型，表示时间窗的大小。pandas offset相关可以参考这里。

min_periods：最少需要有值的观测点的数量，对于int类型，默认与window相等。对于offset类型，默认为1。

freq：从0.18版本中已经被舍弃。

win_type：窗口类型，默认为None一般不特殊指定，了解支持的其他窗口类型，参考这里。

on：对于DataFrame如果不使用index（索引）作为rolling的列，那么用on来指定使用哪列。

closed：定义区间的开闭，曾经支持int类型的window，新版本已经不支持了。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left both等。

axis：方向（轴），一般都是0。

&#x8BA1;&#x7B97;&#x5747;&#x7EBF;
    df['median'] = df['close'].rolling(n, min_periods=1).mean()

计算均线的时候，n表示向前n个数，min_period=1表示最少有1个数，.mean()表示求均值。即对dataframe中’median’这一列前n个数求均值，求出来的数即为简单易懂平均线。

pandas选取数据总结

最重要的就是熟悉各种切片操作是开区间还是闭区间。

主要分为几种情况：

1、选取某一行

这种情况直接使用 df[中间写条件]来选取满足条件的行

a.整数索引切片：前闭后开

df[0:1]  # &#x9009;&#x53D6;&#x7B2C;&#x4E00;&#x884C;&#xFF0C;&#x524D;&#x95ED;&#x540E;&#x5F00;

b、标签索引切片：前闭后闭

df[:'a']  # &#x9009;&#x53D6;&#x7D22;&#x5F15;&#x4E3A;a&#x7684;&#x884C;
df['a':'b']  # &#x9009;&#x53D6;&#x7D22;&#x5F15;a&#x5230;b&#x7684;&#x884C;&#xFF0C;&#x524D;&#x95ED;&#x540E;&#x95ED;

c、布尔数组方法

df[[True,True,True,False,False,False,False,False,False,False]]  # &#x9009;&#x53D6;True&#x5BF9;&#x5E94;&#x7684;&#x884C;

d、选取附带条件的行

第二行代码实质上用的是布尔方法，df[‘age’]>30输出的是一个布尔数。

df[[each>30 for each in df['age']]] # &#x9009;&#x53D6;age>30&#x7684;&#x884C;
df[df['age']>30]  # &#x9009;&#x53D6;age>30&#x7684;&#x884C;
df[(df['age']>30) & (df['isMarried']=='no')]  # &#x9009;&#x53D6;age>30&#x4E14;isMarried=='no'&#x7684;&#x884C;

二者的区别在于df.loc是通过索引进行选取，df.iloc是通过

df.loc[condition1 & condition2, 'signal_long'] = 1  # &#x5C06;&#x4EA7;&#x751F;&#x505A;&#x591A;&#x4FE1;&#x53F7;&#x7684;&#x90A3;&#x6839;K&#x7EBF;&#x7684;signal&#x8BBE;&#x7F6E;&#x4E3A;1&#xFF0C;1&#x4EE3;&#x8868;&#x505A;&#x591A;

2、选取某一列

a、通过某一列的名字选取

df[['name','age']]  # &#x9009;&#x53D6;name&#x548C;age&#x5217;&#x6570;&#x636E;

b、选取第n列

df[lambda df: df.columns[0]]  # &#x9009;&#x53D6;&#x7B2C;&#x4E00;&#x5217;

3、区域选取loc方法

总结一下：

a、逗号前面是选取行的条件，逗号后面是选取列的条件

b、loc方法区间前闭后闭

c、只能使用标签索引，不能使用整数索引

df.loc[['a','b','c'], :]  # &#x9009;&#x53D6;a&#xFF0C;b&#xFF0C;c&#x4E09;&#x884C;
df.loc['a':'d', :]  # &#x9009;&#x53D6;a&#x5230;d&#x884C;
df.loc[[True,True,True,False,False,False], :]  # &#x9009;&#x53D6;True&#x5BF9;&#x5E94;&#x7684;&#x884C;
df.loc[df['age']>30,:]  # &#x9009;&#x53D6;age>30&#x7684;&#x884C;
df.loc[lambda df:df['age'] > 30, :]  # &#x9009;&#x53D6;age>30&#x7684;&#x884C;
df.loc[:, 'name':'age']  # &#x9009;&#x53D6;name&#x5230;age&#x5217;
df.loc[:, ['name','age','isMarried']]  # &#x9009;&#x53D6;&#x8FD9;&#x4E09;&#x5217;
df.loc[:, [True,True,True,False]]  # &#x9009;&#x53D6;True&#x5BF9;&#x5E94;&#x7684;&#x5217;
df.loc[df['age']>30,['name','age']]  # &#x8F93;&#x51FA;age>30&#x884C;&#x7684;name&#x548C;age

4、区域选取iloc方法

总结一下：

a、逗号前面是选取行的条件，逗号后面是选取列的条件

b、loc方法区间前闭后开

c、只能使用整数索引，不能使用标签索引

df.iloc[1, :]  # &#x9009;&#x53D6;&#x7B2C;&#x4E8C;&#x884C;
df.iloc[:3, :]  # &#x9009;&#x53D6;&#x524D;&#x4E09;&#x884C;
df.iloc[[1,3,5],:]  # &#x9009;&#x53D6;2&#x3001;4&#x3001;6&#x884C;
df.iloc[[True,True,True,False,False,False], :]  # &#x9009;&#x53D6;True&#x5BF9;&#x5E94;&#x7684;&#x884C;

pandas合并操作

append操作：将df1和df2上下拼接起来

ignore_index=True意思就是我把两个df拼接起来之后，index就不再是以前df中的index，而是形成新的index；如果不写这个参数，合并后的df还是原来的index。

如果df1和df2的列数不一样，加一个sort = True参数。

df3 = df1.append(df2, ignore_index=True)  # ignore_index&#x53C2;&#x6570;&#xFF0C;&#x7528;&#x6237;&#x91CD;&#x65B0;&#x786E;&#x5B9A;index

merge操作：左右合并

suffixes=[‘_left’, ‘_right’]意思就是来自左边的df索引加个_left后缀，来自右边的df索引加_right后缀，这个参数可有可无。

df_merged = pd.merge(left=df1, right=df2, left_on='candle_begin_time',right_on='candle_begin_time',suffixes=['_left', '_right'])

df.drop（）

删除指定的行和列

DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)

labels 就是要删除的行列的名字，用列表给定
axis 默认为0，指删除行，因此删除columns时要指定axis=1；
index 直接指定要删除的行
columns 直接指定要删除的列
inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe；
inplace=True，则会直接在原数据上进行删除操作，删除后无法返回

np.floor（）

返回不大于这个数的最大整数

Original: https://blog.csdn.net/weixin_38754624/article/details/116397061
Author: 每天进步一点点321
Title: Pandas选取合并操作总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753566/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习实战——3.2 在Python中使用Matplotlib注释绘制树形图

目录 1. Matplotlib注释 1.1 使用文本注释绘制树节点 2. 构造注解图 2.1 获取叶节点的数目和树的层数 2.2 plottree函数 Matplotlib注释 …

Python 2023年8月31日
0070
Pandas:DataFrame常用方法

持续补充写在最前本文主要介绍Pandas中DataFrame的常用方法。在正式介绍之前，需要先说明以下几点：从DataFrame中抽取出其中的一列形成的数据类型既可以是Ser…

Python 2023年8月17日
0053
机器学习基础

Linear Regression 线性回归 cost function 代价函数 [J(\theta_0,\theta_1) = \frac{1}{2m} \sum^m_{i=1…

Python 2023年6月6日
0077
如何处理使用Pycharm安装pygame失败的情况

如何处理使用Pycharm安装pygame失败的情况 * – 将pip添加到PATH – + * 打开”高级系统设置” * 添加新的…

Python 2023年9月19日
0061
scrapy中关于POST请求的问题

首先谈一下常规情况，常规方法： #手动提交post class LoginSpider(sc…

Python 2023年10月4日
0046
Python面向对象小备忘

最近学到面向对象了，感觉到Python这方面的语法也有点神奇，这里专门归纳一下Python面向对象中我觉得比较重要的笔记。本文目前有的内容：实例属性和类属性的访问，使用@pro…

Python 2023年5月24日
0074
Scrapy框架的使用

• Scrapy 命令分为两种：全局命令和项目命令 ( 使用 scrapy –h 可以查看 ) 全局命令：在哪里都能使用。项目命令：必须在爬虫项目里面才能使用。 • Scra…

Python 2023年10月4日
0051
python生成动图不动_python-3.x – PyGame桨板不动

关键事件在控制台上正常注册.此外,我的桨显示,这表明我从另一个文件调用的paddle类工作.但是,当按下左箭头键或右箭头键时,我希望我的拨片顺利移动,这样用户就不必反复点击.但是,…

Python 2023年9月23日
0034
python生信库（opencadd、openbabel）安装与绘图

以下几个包通过anaconda安装十分方便，如果没有anaconda也可以使用python命令行安装。 openbabel Linux/unix系统下直接安装： apt-get i…

Python 2023年9月9日
0046
Python3，3行代码，把excel转换成任意格式的word文档，老板直接给我涨薪10K！！！

Excel转换任意格式Word 1、引言 2、excel转换成word * 2.1 手动转换 2.2 自动转换 – 2.2.1 docxtpl 介绍 2.2.2 代码实…

Python 2023年8月12日
00105
Numpy 实现全连接神经网络

神经网络与深度学习实验报告一、实验名称 Numpy 实现全连接神经网络二、实验要求用 python 的 numpy 模块实现全连接神经网络。网络结构为一个输入层、一个隐藏层、…

Python 2023年8月23日
0052
JDBC — API

目录 DriverManager 驱动管理类作用注册驱动获取数据库连接 Connection 数据库连接对象作用获取执行SQL的对象管理事务 Statement 作用 …

Python 2023年9月27日
0033
人工智能导论(4)——不确定性推理(Uncertainty Reasoning)

文章目录一、概述二、重点内容三、思维导图四、重点知识笔记 * 1. 不确定性推理概述 – 1.1 概念 1.2 分类 1.3 基本问题 2. 概率方法 …

Python 2023年10月7日
0079
2-线性回归之多变量线性回归基本原理的python实现

文章目录多变量线性回归基本原理的python实现 * 1数据读取 2特征及标签获取 3参数及超参数设置 4使用梯度下降进行拟合 5拟合结果查看 6不同学习率下的拟合情况参考文章…

Python 2023年8月7日
0063
爬虫日记(87)：Scrapy的RFPDupeFilter类(二）

前面函数的代码已经很清楚，就是生成请求对象的指纹信息，现在来分析每一行代码的作用：第52和53行是判断请求是否包含额外包含的头内容，如果有就把它们先排序，然后把每一项转换为小写字…

Python 2023年10月5日
0052
python 数据清洗代码分享

分享一下近期用python做数据清洗汇总的相关代码。不得不说，python代码是真的非常友好，在R上可能就需要写好几句代码才能实现的功能，在python上可能就简单一句话。这里我们…

Python 2023年8月7日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31