python groupby填充缺失值_然后Pandas groupby会填充缺失的行

2023年8月7日上午11:59 • Python • 阅读 40

解决方案

输入数据帧：LCLid energy(kWh/hh)

day_time

2014-01-01 00:00:00 MAC000006 0.270453

2014-01-01 00:00:00 MAC000007 0.170603

2014-01-01 00:30:00 MAC000006 0.716418

2014-01-01 00:30:00 MAC000007 0.276678

2014-01-01 03:00:00 MAC000006 0.819146

2014-01-01 03:00:00 MAC000007 0.027490

2014-01-01 03:30:00 MAC000006 0.688879

2014-01-01 03:30:00 MAC000007 0.868017

你需要做的是：

^{pr2}$

结果：LCLid energy(kWh/hh)

2014-01-01 00:00:00 MAC000006 0.270453

2014-01-01 00:00:00 MAC000007 0.170603

2014-01-01 00:30:00 MAC000006 0.716418

2014-01-01 00:30:00 MAC000007 0.276678

2014-01-01 01:00:00 MAC000006 0.716418

2014-01-01 01:00:00 MAC000007 0.276678

2014-01-01 01:30:00 MAC000006 0.716418

2014-01-01 01:30:00 MAC000007 0.276678

2014-01-01 02:00:00 MAC000006 0.819146

2014-01-01 02:00:00 MAC000007 0.027490

2014-01-01 02:30:00 MAC000006 0.819146

2014-01-01 02:30:00 MAC000007 0.027490

2014-01-01 03:00:00 MAC000006 0.819146

2014-01-01 03:00:00 MAC000007 0.027490

2014-01-01 03:30:00 MAC000006 0.688879

2014-01-01 03:30:00 MAC000007 0.868017

首先，我将构建一个类似于您的的示例数据帧

import numpy as np

import pandas as pd

Building an example DataFrame that looks like yours

df = pd.DataFrame({

‘day_time’: [

pd.Timestamp(2014, 1, 1, 0, 0),

pd.Timestamp(2014, 1, 1, 0, 30),

pd.Timestamp(2014, 1, 1, 3, 0),

pd.Timestamp(2014, 1, 1, 3, 30),

‘LCLid’: [

‘MAC000006’,

‘MAC000007’,

‘MAC000006’,

‘MAC000007’,

‘MAC000006’,

‘MAC000007’,

‘MAC000006’,

‘MAC000007’,

‘energy(kWh/hh)’: np.random.rand(8)

).set_index(‘day_time’)

结果：LCLid energy(kWh/hh)

day_time

2014-01-01 00:00:00 MAC000006 0.270453

2014-01-01 00:00:00 MAC000007 0.170603

2014-01-01 00:30:00 MAC000006 0.716418

2014-01-01 00:30:00 MAC000007 0.276678

2014-01-01 03:00:00 MAC000006 0.819146

2014-01-01 03:00:00 MAC000007 0.027490

2014-01-01 03:30:00 MAC000006 0.688879

2014-01-01 03:30:00 MAC000007 0.868017

请注意，我们是如何缺少以下时间戳的：2014-01-01 01:00:00

2014-01-01 01:30:00

2014-01-02 02:00:00

2014-01-02 02:30:00

在数据框重新索引()

首先要知道的是，df.reindex()允许您填充缺少的索引值，对于缺少的值，默认值为NaN。在您的例子中，您需要提供完整的时间戳范围索引，包括在起始数据帧中没有显示的值。在

在这里，我使用pd.date_range()列出最小和最大起始索引值之间的所有时间戳，以30分钟为单位。警告：这种方式意味着，如果丢失的时间戳值在开头或结尾，则不会重新添加它们！所以也许你想显式地指定start和{}。在full_idx = pd.date_range(start=df.index.min(), end=df.index.max(), freq=’30T’)

结果：DatetimeIndex([‘2014-01-01 00:00:00’, ‘2014-01-01 00:30:00’,

‘2014-01-01 01:00:00’, ‘2014-01-01 01:30:00’,

‘2014-01-01 02:00:00’, ‘2014-01-01 02:30:00’,

‘2014-01-01 03:00:00’, ‘2014-01-01 03:30:00’],

dtype=’datetime64[ns]’, freq=’30T’)

现在，如果我们使用它来重新索引一个分组的子数据帧，我们将得到：grouped_df = df[df.LCLid == ‘MAC000006’]

grouped_df.reindex(full_idx)

结果：LCLid energy(kWh/hh)

2014-01-01 00:00:00 MAC000006 0.270453

2014-01-01 00:30:00 MAC000006 0.716418

2014-01-01 01:00:00 NaN NaN

2014-01-01 01:30:00 NaN NaN

2014-01-01 02:00:00 NaN NaN

2014-01-01 02:30:00 NaN NaN

2014-01-01 03:00:00 MAC000006 0.819146

2014-01-01 03:30:00 MAC000006 0.688879

您说过要使用最近的可用周围值来填充缺少的值。这可以在重新编制索引期间执行，如下所示：grouped_df.reindex(full_idx, method=’nearest’)

结果：LCLid energy(kWh/hh)

2014-01-01 00:00:00 MAC000006 0.270453

2014-01-01 00:30:00 MAC000006 0.716418

2014-01-01 01:00:00 MAC000006 0.716418

2014-01-01 01:30:00 MAC000006 0.716418

2014-01-01 02:00:00 MAC000006 0.819146

2014-01-01 02:30:00 MAC000006 0.819146

2014-01-01 03:00:00 MAC000006 0.819146

2014-01-01 03:30:00 MAC000006 0.688879

同时使用数据框groupby()

现在我们想将此转换应用到数据帧中的每个组，其中

组由其LCLid定义。在(

.groupby(‘LCLid’, as_index=False) # use LCLid as groupby key, but don’t add it as a group index

.apply(lambda group: group.reindex(full_idx, method=’nearest’)) # do this for each group

.reset_index(level=0, drop=True) # get rid of the automatic index generated during groupby

.sort_index() # This is optional, just in case you want timestamps in chronological order

结果：LCLid energy(kWh/hh)

2014-01-01 00:00:00 MAC000006 0.270453

2014-01-01 00:00:00 MAC000007 0.170603

2014-01-01 00:30:00 MAC000006 0.716418

2014-01-01 00:30:00 MAC000007 0.276678

2014-01-01 01:00:00 MAC000006 0.716418

2014-01-01 01:00:00 MAC000007 0.276678

2014-01-01 01:30:00 MAC000006 0.716418

2014-01-01 01:30:00 MAC000007 0.276678

2014-01-01 02:00:00 MAC000006 0.819146

2014-01-01 02:00:00 MAC000007 0.027490

2014-01-01 02:30:00 MAC000006 0.819146

2014-01-01 02:30:00 MAC000007 0.027490

2014-01-01 03:00:00 MAC000006 0.819146

2014-01-01 03:00:00 MAC000007 0.027490

2014-01-01 03:30:00 MAC000006 0.688879

2014-01-01 03:30:00 MAC000007 0.868017

相关文件：

Original: https://blog.csdn.net/weixin_31955925/article/details/113961715
Author: 蟲小山
Title: python groupby填充缺失值_然后Pandas groupby会填充缺失的行

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739928/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python的django写页面上传文件以及遇到的问题

首先上结构 mynode -> app5 -> urls.py & views.py | -> templates -> 5 -> uploa…

Python 2023年11月1日
0040
django+channel+vue 前后端分离实现推送消息给前端和我的疑惑

原因：最新在写数据仓，其中一项是后端实时返回订单状态给前端，前端就一条一条显示。所有使用了django 推荐的websocket 插件channels 本人也是刚学的，做个记录，新…

Python 2023年8月3日
0075
Session | 基于Session改造oa项目的登录功能

目录一：总结域对象二：基于Session改造oa项目的登录功能三：oa项目的安全退出系统一：总结域对象（1）request（对应的类名：HttpServletReques…

Python 2023年9月15日
0061
导入csv文件python并打印_读取csv文件并打印其结果

In [5]: import pandas as pd rogramming/master/2014/Python/Numerical-Descriptions-of-the-Da…

Python 2023年8月22日
0054
OpenCV-Python实战（23）——将OpenCV计算机视觉项目部署到云端

[ _OpenCV_是一款非常强大的 _计算机视觉_库，其中包含了很多功能强大的图像处理和 _计算机视觉_算法。而在这个系列的第三篇文章中，我们将重点介绍如何在 _OpenCV_中…

Python 2023年8月14日
0062
1.13 通过关键字排序字典列表

您有一个要根据一个或多个词典字段进行排序的词典列表。 [En] You have a list of dictionaries that you want to sort acco…

Python 2023年5月24日
0064
【Python爬虫】拉钩网招聘信息数据采集

本文要点：爬虫的基本流程 requests模块的使用保存csv 可视化分析展示环境介绍 python 3.8 pycharm 2021专业版激活码 Jupyter Note…

Python 2023年5月25日
0091
数据分析（一）

目录数据加载一、加载数据载入数据：逐块读取更改表头、索引初步观察数据保存数据 pandas基础 Series DataFrame 筛选探索性数据分析数据加载一、…

Python 2023年8月8日
0053
Qt扫盲-QTextBrowser理论总结

QTextBrowser理论总结 * – 1. 简述 – 2. 文档来源和内容 – 3. 导航 – 4. 用途 1. 简述 QTex…

Python 2023年9月29日
0070
data后缀文件解码_04 pandas DataFrame_创建、文件读取、编码

=== DataFrame 简介 === 定义：数据帧 (DataFrame) 是二维数据结构，即数据以行和列的表格方式排列。特点： 1、潜在的列是不同的类型 2、大小可变 …

Python 2023年8月22日
0042
22矩阵——向量范数和矩阵范数 : 矩阵范数与向量范数的相容、Numpy计算范数

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月26日
0044
scrapy框架学习

文章目录一、IP代理池(比较简陋，后续更新) * 验证ip，proxies用的是两个协议，http和https都要有二、python爬虫之scrapy框架 * 先贴一张图并来…

Python 2023年10月2日
0054
pandas-series和dataframe

pandas Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 “panel data&#82…

Python 2023年8月17日
0040
python如何屏幕输入_Pygam中的屏幕输入

在学校的一个编程项目中，我必须用pygame创建一个拼写游戏。然而，由于我对这一切都很陌生，所以我无法想出如何允许用户输入字母并使它们出现在游戏显示屏上。这是我目前为止的代码(以及…

Python 2023年9月23日
0041
VS Code摸鱼神器，让你快速开发AI模型

摘要：ModelArts VS Code插件一键接入云上开发环境介绍及操作指导对于习惯于使用本地VS Code IDE的开发者，受限于本地资源，采用本地开发加云上调测的远程开发…

Python 2023年10月28日
0044
第三方登录流程代码实现及流程图分析

1.oauth认证原理 2.第三方登录与本地登陆的关联（三种情况）情况1: 本地未登录，第一次登录第三方 2.2 情况2：本地未登录，再次登录第三方 2.3 情况3：本地登录，并…

Python 2023年8月9日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python groupby填充缺失值_然后Pandas groupby会填充缺失的行

大家都在看