DataFrame 数据筛选

2023年7月6日下午3:59 • 人工智能 • 阅读 68

近期使用pandas比较频繁，在进行数据处理的时候经常要用到dataframe的数据筛选功能，这里做个小结。

数据有以下的格式：

columns = [“blockNumber”,”timestamp”,”transactionHash”,”from”,”to”,”creates”,……”isError”]

数据筛选基本格式

初级筛选：

==, !=, >, >=,

主要用于简单的判断

选取”from”列数据，最后一位为0或a的数据。（数据类型默认str）

data[data['from'].str[-1:].str.contains('0|a')]

contains语句中，可以以’|’符号为分割，添加多个候选项。

这里由于要只选最后一位，需要使用两次 str 方法。

已有一个取值数组，目标是选择数据中，”from”数据的值在取值数组内的数据

targetList = ['0x12','0x1a','0x98', ... , '0x82']
data[data['from'].isin(targetList)]

这里 targetList最好保持 list的数据类型，使用 pandas.Series可能会有意外的错误

反过来，如果目标是选择数据中，”from”数据的值不在取值数组内的数据

targetList = ['0x12','0x1a','0x98', ... , '0x82']
data[data['from'].isin(targetList)]
</code></pre>
<p>仔细注意，这里是在前面加个反引号  ，通过反引号来表示取反
选取的是数据中，"from"列数据的取值在目标数组内，或者"to"列数据取值最后一位为0或a的数据
targetList = ['0x12','0x1a','0x98', ... , '0x82']
data[(data['from'].isin(targetList)) | (data['to'].str[-1:].str.contains('0|a'))]

选取的是数据中，"from"列数据的取值在目标数组内，并且"to"列数据最后一位为0或a的数据
targetList = ['0x12','0x1a','0x98', ... , '0x82']
data[(data['from'].isin(targetList)) & (data['to'].str[-1:].str.contains('0|a'))]

如果是多个条件并列在一起，每个条件都需要用括号括起来。
数据筛选进阶
这里主要介绍一些，跟数据库操作相似的数据筛选，假设数据格式如下：
columns = ['from', 'to', 'weight']

这里，假设一个需求是，统计from中的值，出现的次数，我们很容易想到可以通过value_counts() 方法直接获取：
pd.DataFrame(data['from'].value_counts())

这里value_counts()得到的是一个 pandas.Series
那么更进一步，如果想知道"from"中的每个取值，对应的"to"取值跟"weight"取值分别是多少，可以使用：
pd.DataFrame(data.groupby('from'))

如果要统计的是 from 中的值，每个值对应的 weight 总和是多少，这时候需要使用到 groupby跟 agg
pd.DataFrame(data.groupby('from').agg('sum'))

假设现在的需求是，将from跟to的数据，每一行按照 from > to 的顺序交换（注意不是整列交换）。这时可以使用 np.where实现。
    data['from'], data['to']= np.where(
                    data['from'] > data['to'],
                    [data['to'], data['from']],
                    [data['from'], data['to']])

np.where使用格式是：
np.where(condition, Yes, No)

condition 为 True时，取值为 Yes，为 False时，取值是 No

Original: https://blog.csdn.net/m0_37990055/article/details/115517841
Author: OnlyCaptain
Title: DataFrame 数据筛选

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674280/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记论文简单介绍…

人工智能 2023年5月28日
00113
YOLOv7（目标检测）入门教程详解—环境安装

目录一.前言二.yolov7环境搭建直接进入正题，环境搭建开始： Anaconda: Pycharm: cuda： cuda安装： cudnn：三.虚拟环境安装创建虚拟p…

人工智能 2023年7月29日
00215
抽丝剥茧——让多元化集团数字化管控变得简单

近日，小米进军汽车行业引来一片热议，这也突显出一个趋势：越来越多的企业通过多元化扩张谋求发展。然而，多元化给企业带来的不仅仅是规模增长，还有大量管理难题，一旦处理不好，将成为企业的…

人工智能 2023年7月17日
0047
卷积层对输入数据的尺寸有什么限制

问题背景在深度学习中，卷积神经网络（Convolutional Neural Networks，简称CNN）是一种常用的结构。CNN的核心就是卷积层（Convolutional …

人工智能 2024年1月1日
0033
SPSS单因素方差分析教程

文章目录 * – 写在前面 – 什么是单因素方差分析 – 单因素方差分析的原理 – + 单因素方差分析的零假设 + 单因素方差分析的…

人工智能 2023年7月14日
0072
机器学习实操的7个步骤

文章目录到底怎么使用机器学习？机器学习的7个步骤 * 步骤1：收集数据步骤2：数据准备步骤3：选择一个模型步骤4：训练步骤5：评估步骤6：参数调整步骤7：预测实验…

人工智能 2023年6月15日
00109
轨迹预测分享

一、宋浩然博士Prime分享分享链接：自动驾驶中的车辆轨迹预测 1、预测在自动驾驶中的作用预测模块在自动驾驶中起到一个承上启下的作用，上游感知模块一般采用数据驱动的方法来进行单…

人工智能 2023年7月28日
0093
【动手教你学故障诊断:Python实现Tensorflow+CNN深度学习的轴承故障诊断（西储大学数据集）（含完整代码）】

项目名称动手教你学故障诊断:Python实现基于Tensorflow+CNN深度学习的轴承故障诊断（西储大学数据集）（含完整代码）项目介绍该项目使用tensorflow和ke…

人工智能 2023年5月26日
0082
深度图像转点云数据（激光雷达数据）

文章目录一、简介二、代码实现三、实现效果参考文献一、简介深度图像的获取有很多方式，如激光雷达、结构光以及深度相机等，网上很多教程都是在讲解通过深度相机所获取的深度图像转…

人工智能 2023年5月28日
0085
预测控制（一）：MPC轨迹跟踪

本文先讲解MPC如何应用于差速机器人，然后使用MATLAB进行仿真测试。 MPC原理 MPC轨迹跟踪的思路不难理解，在目前位姿，预测后面N个时刻机器人所处的位置，与目标轨迹进行比较…

人工智能 2023年7月26日
0064
MMDetection 系列之（自定义数据管道处理增强管道）

数据管道设计遵循典型约定，我们使用Dataset和DataLoader对多个worker进行数据加载。数据集返回与模型的forward方法的参数相对应的数据项字典。由于目标检测中…

人工智能 2023年6月16日
0088
panda是删除行_如何从Pandas数据帧中删除行列表？

如何从Pandas数据帧中删除行列表？我有一个数据帧df： df sales discount net_sales cogs STK_ID RPT_Date 600141 200…

人工智能 2023年7月9日
0065
Matplotlib二维箭头图

箭头图将速度矢量显示为箭头，其中分量(u，v)位于点(x，y)。quiver(x,y,u,v)Python上述命令将矢量绘制为在x和y中每个对应元素对中指定的坐标处的箭头。参数下表…

人工智能 2023年6月27日
0086
Git常用命令

Git命令一、创建版本库初始化一个Git仓库，使用 git init命令。添加文件到Git仓库，分两步：使用命令 git add <file></file…

人工智能 2023年6月4日
0089
【数据分析能力是指什么？】

【数据分析能力是指什么？】数据分析能力是指能用适当的统计分析方法对收集来的大量数据进行分析，从中提取有用信息并形成结论，对数据加以详细研究和概括总结的能力。如果说数据分析只懂整…

人工智能 2023年7月16日
0066
双目相机基本原理

双目相机基本原理 * – + * 双目图像 * 视差 * 深度 * 深度与视差之间的关系 * 极平面 * 极线 * 极线约束 * 单应性矩阵双目图像如图所示，双目图…

人工智能 2023年6月17日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DataFrame 数据筛选

数据筛选基本格式

数据筛选进阶

大家都在看