Pandas时间序列处理

2023年8月22日上午4:39 • Python • 阅读 61

pd.date_ranges生成时间序列

time格式：年月日分隔符号可以是”-“，”/”，空格这三种格式(年月日、日月年、月日年都可以)；时分秒只能用”:”分隔，顺序只能是时分秒。
start：起始时间（time）
end：终止时间（time）
periods：期数（int），使用时只能出现start或者end，两者不能同时出现
freq：频率(numY,num年；numM,num月；numD,num日），详细参数见下表

频率别名描述B工作日频率C自定义工作日频率D日历日频率W每周频率M每月最后一个日历日SM每半个月最后一个日历日（15日和月末）BM每月最后一个工作日CBM自定义每月最后一个工作日MS每月第一个日历日SMS每半月第一个日历日（第1和第15）BMS每月第一个工作日CBMS自定义每月第一个工作日Q每季度最后一个月的最后一个日历日BQ每季度最后一个月的最后一个工作日QS每季度最后一个月的第一个日历日BQS每季度最后一个月的第一个工作日A, Y每年的最后一个日历日BA, BY每年的最后一个工作日AS, YS每年的第一个日历日BAS, BYS每年的第一个工作日BH工作日按”时”计算频率H每小时频率T, min每分钟频率S每秒频率L, ms毫秒频率U, us微秒频率N纳秒频率

import pandas as pd
import numpy as np
df = pd.DataFrame( data=np.random.randint(1,20,10),
                  index=pd.date_range(start="20/01/2021",periods=10,freq="M"),)
print(df)

             0
2021-01-31   1
2021-02-28   6
2021-03-31  12
2021-04-30   5
2021-05-31   7
2021-06-30   4
2021-07-31   9
2021-08-31   7
2021-09-30  18
2021-10-31  10

             0
count  10.00000
mean    7.90000
std     4.72464
min     1.00000
25%     5.25000
50%     7.00000
75%     9.75000
max    18.00000

创建时添加索引

pd.DataFrame(...,index=[],...)

df.set_index使用现有列设置索引
keys：列名，多个列用[name1,name2]
drop：设置升序(True)、降序(False)
inplace：替换原变量(True)，不替换(False)

df.set_index(["X"],inplace=True)
df.set_index(["X","Y"],inplace=True)

df.reset_index可以还原索引

df.reset_index("X")

df.truncate过滤数据

before：过滤之前的数据(time)
after：过滤之后的数据(time)
axis：列(columns)，行(index)

df.truncate(before="2021-5",after="2021-9")

           0
2021-05-31  7
2021-06-30  4
2021-07-31  9
2021-08-31  7

df.loc索引过滤

df.loc["2021-5":]

             0
2021-05-31   7
2021-06-30   4
2021-07-31   9
2021-08-31   7
2021-09-30  18
2021-10-31  10

4.1 查询是否有重复值

duplicated()方法判断


df.duplicated()

df.columns_name.duplicated()

df.duplicated(subset = ['n1','n2'])

groupby().count()

df.groupby('columns').count()>1

4.2 去除重复值

drop_duplicats参数说明：

参数subset：用来指定特定的列，默认所有列
参数keep：first和last表示是选择最前一项还是最后一项保留，默认first
参数inplace：是直接在原来数据上修改还是保留一个副本，默认为False

df.drop_duplicats(subset=['name1','name2'],keep='last',inplace=True)

按照index索引去重

df.index.duplicated(keep='last')

5.1 缺失值查询

df.info查询各列的信息

`python
df.info()

Int64Index: 10 entries, 19 to 14
Data columns (total 2 columns):

Original: https://blog.csdn.net/qq_44285092/article/details/117638171
Author: 而又何羡乎
Title: Pandas时间序列处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756344/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

冠军斩获10万奖金！首届“域见杯”医检AI开发者大赛精彩落幕

摘要：首届”域见杯”医检AI开发者大赛精彩落幕。 8月24日，由广州市科学技术局指导，金域医学和华为云共同打造的中国第三方医检行业首个开发者大赛——&#82…

Python 2023年10月28日
0051
FastDFS客户端与django自定义文件存储系统

1. FastDFS的Python客户端 python版本的FastDFS客户端使用说明参考https://github.com/jefforeilly/fdfs_client-p…

Python 2023年6月11日
0076
matplotlib之pyplot模块之柱状图（bar()：基础参数、外观参数）

bar() 函数概述 bar()函数用于绘制柱状图。 bar()的函数签名为 matplotlib.pyplot.bar(x, height, width=0.8, bottom=…

Python 2023年8月31日
00117
你真的了解 RSA 加密算法吗？

作者：小傅哥博客：https://bugstack.cn源码：https://github.com/fuzhengwei/java-algorithms 沉淀、分享、成长，让自己和…

Python 2023年10月13日
0074
数据分析项目：股票数据预处理/双均线量化策略/各州人口分布分析/美国大选献金项目数据分析

1，股票数据预处理（计算茅台酒股票从15年到21年买卖的收入）import tushare as tsimport pandas as pdfrom pandas import D…

Python 2023年8月21日
0061
python pygame 游戏实战:Maze 迷宫生成，显示和游戏（附全部代码）

生成迷宫(maze)的算法有很多种，论坛上有很多这方面的资料可以参考。这里使用回溯法(backtracking)，主要参考Build a 2-player maze game w…

Python 2023年9月19日
0057
Django实训项目——图书管理系统

目录一、创建一个Django项目——–Library 二、完成基本配置 1、配置数据库信息 2、进行数据迁移 3、路由配置三、创建应用——i…

Python 2023年8月3日
0086
使用pybind11为Python编写一个简单的C语言扩展模块

相关：为Python编写一个简单的C语言扩展模块在Pybind11 出现之前为Python编写扩展模块的方法有多种，但是并没有哪种方法被认为一定比其他的好，因此也就变得在为Py…

Python 2023年5月25日
0090
【Scrapy从青铜到王者】第二篇：Scrapy进阶

–分布式爬虫： – 概念：我们需要分布式的机群（多台电脑完成），让其对同一组资源进行分布联合爬取 – 作用：提升爬取数据的效率高 –…

Python 2023年10月4日
0065
部署Netlify站点博客

Netlify站点部署静态博客今天尝试把站点部署在Netlify上，因为部署在GitHub Pages上，国内访问速度太慢了，所以就尝试一下别的站点，部署成功之后发现速度还是不太…

Python 2023年10月22日
0035
【面试总结】项目实战面试（版本2）

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/upstudy/p/16711062.htmlAutho…

Python 2023年6月15日
0085
Electron是什么以及可以做什么

新用户购买《Electron + Vue 3 桌面应用开发》，加小册专属微信群，参与群抽奖，送《深入浅出Electron》、《Electron实战》作者签名版。 1等奖：《深入浅出…

Python 2023年10月15日
0046
基于 WEB 的室内温湿度监测系统（树莓派）

一、项目介绍 本实验通过 DHT11 模&amp…

Python 2023年8月11日
00109
Docker 下【Locust 2.8】 + prometheus + influxdb + grafana 性能测试结果采集、监控、数据持久化

本文使用docker部署，建议使用docker-compose一键部署方式，观看这篇： https://blog.csdn.net/qq_41522024/article/deta…

Python 2023年8月14日
0053
Python测试框架Pytest—–几种断言的对比

### 回答1：在进行接口测试_时，使用自动化 _框架_可以提高工作效率并减少出错的可能性。 _Python_中的requests库可以方便地发送HTTP请求并获取响应，而 _…

Python 2023年9月10日
0058
2. Numpy中的ndarray

《玩转Numpy计算库》视频课程《玩转Numpy计算库》视频课程链接：https://edu.csdn.net/course/detail/28656 ndarray 数组对象（…

Python 2023年8月29日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas时间序列处理

4.1 查询是否有重复值

4.2 去除重复值

5.1 缺失值查询

大家都在看