python 统计次数问题_python – 计算dask.dataframe中某些值的出现次数

2023年8月8日下午8:54 • Python • 阅读 123

我有这样的数据帧：

df.head()

day time resource_record

0 27 00:00:00 AAAA

1 27 00:00:00 A

2 27 00:00:00 AAAA

3 27 00:00:01 A

4 27 00:00:02 A

并想知道某些resource_records存在多少次.

我的第一次尝试是使用value_counts()返回的系列,这看起来很棒,但之后不允许我排除一些标签,因为在dask.Series中没有实现drop().

所以我试着不打印不需要的标签：

for row in df.resource_record.value_counts().iteritems():

if row[0] in [‘AAAA’]:

continue

print(‘\t{0}\t{1}’.format(row[1], row[0]))

哪个工作正常,但如果我想进一步处理这些数据并真的希望它”清理”怎么办？所以我搜索了一些文档并找到了mask(),但这也有点笨拙：

records = df.resource_record.mask(df.resource_record.map(lambda x: x in [‘AAAA’])).value_counts()

我找了一个允许我只计算单个值的方法,但count()会计算所有不是NaN的值.

然后我找到了str.contains(),但我不知道如何处理我用以下代码返回的未记录的Scalar类型：

print(df.resource_record.str.contains(‘A’).sum())

输出：

dd.Scalar

但即使在查看了dask / dataframe / core.py中的Scalar代码之后,我也找不到获取其价值的方法.

您如何有效地计算数据框中某组值的出现次数？

Original: https://blog.csdn.net/weixin_28721917/article/details/112884336
Author: 新经济100人
Title: python 统计次数问题_python – 计算dask.dataframe中某些值的出现次数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743133/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

企业应用架构研究系列十二：网络模型与网络协议

最近研究IOT相关的技术与架构，由于网络上的资料质量并不是很好，很多文章把一些网络模型与协议混淆，因此梳理了一下这些概念。无论是做IOT平台还是微服务都是离不开网络开发这个一个重要…

Python 2023年10月16日
0040
TypeError: mean() received an invalid combination of arguments – got (list, dim=int), but expected o

TypeError: mean() received an invalid combination of arguments – got (list, dim=int)…

Python 2023年8月29日
0046
Docker 与 K8S学习笔记（二十五）—— Pod的各种调度策略（下）

在实际应用中，我们往往需要提高Kubernetes集群的资源利用率，即允许集群中所有负载所需的资源总量超过集群所提供的资源量，这个时候，当资源不足时，系统可以选择释放一些不重要的负…

Python 2023年10月17日
0042
ImportError: Couldn‘t import Django

ImportError: Couldn’t import Django ImportError: Couldn’t import Django 在使用Dja…

Python 2023年8月3日
0047
基于内容、用户算法推荐

推荐算法： 1.获取数据集 2.根据数据集，做数据分析，分析一定规律（相似度） 3.人为定义阈值k，根据分析结果，做筛选 4.筛选正相关匹配的内容 5.筛选出推荐内容进行排…

Python 2023年8月22日
0044
Python数据标准化

目录一.数据标准化方式 1.实现中心化和正态分布的Z-Score 2.实现归一化的Max-Min 3.用于稀疏数据的MaxAbs 4.针对离群点的RobustScaler 二.P…

Python 2023年8月1日
0069
跟羽夏学 Ghidra ——引用

写在前面此系列是本人一个字一个字码出来的，包括示例和实验截图。本人非计算机专业，可能对本教程涉及的事物没有了解的足够深入，如有错误，欢迎批评指正。如有好的建议，欢迎反馈。码字…

Python 2023年10月22日
0065
遥感技术及高分遥感影像在地震中的应用及高分二号获取

长期以来，地震预报监测、灾害调查、灾情信息获取主要依靠实地勘测手段，其获取的数据精度和置信度虽然较高，但存在工作量大、效率低、费用高和信息不直观等缺点。遥感技术手段可在一定程度上克…

Python 2023年9月28日
0061
符合ASTM标准的雨流计数法及其不同的改进方法

随着研究的深入，人们发现采用时间序列计算载荷谱太麻烦了，处理的工作量太大，我们不需要将每个时刻点的载荷都做运算，疲劳计算只需要提供幅值、均值和循环次数，鉴于此发展出了很多不同…

Python 2023年6月11日
00104
第五章变形

文章目录一、长宽表的变形 * 1. pivot 2. pivot_table 3. melt 4. wide_to_long 二、索引的变形 * 1. stack与unstack…

Python 2023年8月20日
0062
量化入门系列：沪深300、中证500、中证1000的估值百分位

本系列通过一些实例介绍量化的入门知识，适合零基础的初学者。本篇计算三个宽基指数：沪深300、中证500、中证1000的估值百分位，并将其与价格百分位比较。本文的程序运行前要先导入…

Python 2023年8月8日
0065
2019泰迪杯数据分析技能赛B题-学生校园消费行为分析

任务1.1 1、数据导入 import seaborn as sns import matplotlib.pyplot as plt import numpy as np impo…

Python 2023年8月1日
00206
绘制折线图分析股票涨跌

绘制折线图分析股票涨跌 * – 利用numpy加载文件 – 平均值 – + 算术平均值 + 加权平均值 + * VWAP – 成交量…

Python 2023年8月29日
0096
图解来啦！机器学习工业部署最佳实践！10分钟上手机器学习部署与大规模扩展 ⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

Python 2023年10月24日
0066
服务架构的演变与SpringCloud

CSDN话题挑战赛第2期参赛话题：学习笔记学习之路，长路漫漫，写学习笔记的过程就是把知识讲给自己听的过程。这个过程中，我们去记录思考的过程，便于日后复习，梳理自己的思路。学习之乐…

Python 2023年8月27日
0059
MAX_STRING_SIZE

12c引入新参数，用于控制VARCHAR2, NVARCHAR2, and RAW data types的大小，RAC各实例要使用相同值 MAX_STRING_SIZE = { S…

Python 2023年9月23日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 统计次数问题_python – 计算dask.dataframe中某些值的出现次数

大家都在看