【pandas】dataframe高级用法三

2023年8月7日下午1:16 • Python • 阅读 57

DataFrame数据筛选（二）
DataFrame数据处理（一）
文章目录
一、筛选数据
–
二、数据分组统计
–
三、数据的合并
–
+
- 上下拼接

一、筛选数据

1. 布尔值筛选法


dfmonday=bok[bok['j_w']=='Monday']

df_mots[(df_mots['time'] < 25320)&(df_mots['time'] >= 25270)]

2.删除满足条件的行

df.drop(df[df["start_grid"]== -1].index,inplace=True)

df:DataFrame
drop(index, inplace=True) 在原表格上删除某些索引
df["start_grid"]== -1 :返回布尔列表
df[df["start_grid"]== -1].index :返回索引列表

3. dataframe中读取某个数值

df2.loc[df2["还车站点"]==node,"借车站点"].values[0]

注意到：

df2.loc[df2["还车站点"]==node,"借车站点"]返回的series
df2.loc[df2["还车站点"]==node,"借车站点"].values表示的是array数组

二、数据分组统计

1. apply的伟大应用

1.1 对应于多列的运算

具有并行操作

文件如上图所示，我需要对最后两列的经纬度作为一个函数的输入元素，获得一个新结果。

df1["property_grid"]=df1[["wgs84_lon","wgs84_lat"]].apply(lambda x: get_pos_lola( x["wgs84_lon"], x["wgs84_lat"]),axis=1)

x 对应的是一个dataframe=df1[[“wgs84_lon”,”wgs84_lat”]]
get_pos_lola(a,b)是我写的自定义函数，a,b分为经纬度字符串。
因为是横向取值，所以写axis=1

1.2 对应于单列的运算

ifo=pd.read_csv("../result/info.csv",header=None,names=["station","jing","wei","name","distict","types","size"])
ifo.head(3)

ifo["size"] =ifo[["size"]].apply(lambda x: x["size"]//10 ,axis=1)

修改后：

2.groupby的应用

    dfi=data.groupby(column)[["inner"]].sum()
    dft=data.groupby(column).count()

三、数据的合并

df1=pd.DataFrame({"name":["ray","jcack","lucy","bob","candy"],
                  "city":["hangzhou","beijing","hangzhou","chengdu","suzhou"],
                  "score":[10,30,20,15,50]},columns=["name","city","score"])
df2=pd.DataFrame({"name":["faker","fizz"],"city":["wenzhou","shanghai"],"score":[55,80]},
                 columns=["name","city","score"])
df3=pd.DataFrame({"name":["faker","fizz"],"city":["wenzhou","shanghai"],"gender":["male","female"]},
                 columns={"name","city","gender"} )

df1:

name    city    score

0 ray hangzhou 10
1 jcack beijing 30
2 lucy hangzhou 20
3 bob chengdu 15
4 candy suzhou 50
上下拼接

两份数据列名完全相同的情况,在上下方向拼接,ignore_index忽略掉原来的索引

pd.concat([df1,df2],ignore_index=True)

两份数据的列名不完全相同的时候,进行上下方向拼接,.

默认按照相同字段进行拼接,会得到两份数据的并集,没有的值返回NaN

pd.concat([df1,df3],ignore_index=True)

在连接轴上创建一个索引层(本质上是一个双重索引)

df_concat=pd.concat([df1,df3],keys=["df1","df3"])
df_concat

合并重叠数据


data1=pd.DataFrame({"score":[60,np.nan,75,80],"level":[np.nan,"a",np.nan,"f"],"coat":[1000,1500,np.nan,1200]})
data2=pd.DataFrame({"score":[34,58,np.nan],"level":[np.nan,"c","s"]})

data1.combine_first(data2)

Original: https://blog.csdn.net/panbaoran913/article/details/120706553
Author: panbaoran913
Title: 【pandas】dataframe高级用法三

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740069/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【信号与系统-可视化】基本信号的产生（ Python Numpy和Matplotlib实现）

信号与系统—基本信号的产生 Python Numpy和Matplotlib实现前言通过Python的Numpy库和Scipy库可以用于产生基本的信号，如阶跃信号，指数信号，脉冲…

Python 2023年8月24日
0047
python中的join函数连接dataframe_python pandas处理CSV文件并使用join()方法拼接两个dataframe…

本问主要讲解如何拼接两个dataframe import pandas as pd import numpy as np import matplotlib.pyplot as p…

Python 2023年8月21日
0046
Python模块之Matplotlib模块学习笔记

目录一、绘图基础知识二、相关函数简介三、绘图步骤 1、Figure 2、Axes 3、绘图属性设置 4、添加图表标题和坐标轴标题 5、图例说明 6、绘图的注释 7、区间上下限…

Python 2023年9月2日
0061
【小程序项目开发– 京东商城】uni-app之分类导航区域

Python 2023年5月24日
0047
变量的引用，new，delete

1.引用 int a =10; int& b =a; 引用 int * p = &a; 指针引用不是独立的数据类型，必须先定义一个变量，再对其建立引用（像寄生虫一样）当…

Python 2023年6月12日
0076
双三次Bezier曲面算法

双三次Bezier曲面双三次Bezier曲面由u，v方向的两组三次Bezier曲线交织而成，控制网格由16和控制点构成。 [p(u,v)= \left[\begin{matrix…

Python 2023年6月6日
0052
基于Java的图书管理系统（附源码和课件）

项目介绍图书管理系统作为图书馆数字化、智能化平台,是提升书籍管理能力的重要举措,为更好地发挥管理系统的技术优势,针对管理系统使用需求,本文尝试以Java技术为框架,通过必要的编码…

Python 2023年10月10日
0034
Python函数：sort_values（）

用法： DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=’quicksort…

Python 2023年8月3日
00116
pytest三种运行方式

pytest支持命令行直接运行的方式，也可以在IDE里的 main() 函数里运行，用的最多的方式是配置 pytest.ini 文件运行命令行运行 pytest测试框架可以直接在…

Python 2023年9月10日
0039
三、Go环境安装

三、Go环境安装 3.1、Go编译器的下载 官网：https://golang.google.cn/ go&amp…

Python 2023年10月17日
0036
记录在conda创建虚拟环境遇到的问题

为什么要创建虚拟环境? 我们知道很多框架所需要不同的版本库，不可能今天用这个版本，明天把这个库换成另外一个版本按照正常流程，首先如果没有添加国内的源，下载过程中会非常慢。所以先添…

Python 2023年9月7日
0032
matplotlib 设置手动设置图例的位置大小

如果你的英语好，可以看官网，官网写的很详细 matplotlib.legend — Matplotlib 3.6.2 documentation 图例背景\位置\大小 plt.le…

Python 2023年9月3日
0066
【知识图谱】(task1)知识图谱概论

note 知识图谱技术要素文章目录 note 一、语言与知识二、知识图谱的起源三、知识图谱的价值四、知识图谱的技术内涵 * 4.1 知识图谱是交叉领域 4.2 技术内涵 &…

Python 2023年10月27日
0054
python教程：函数的return语句运用

return语句用于退出函数，向调用方返回一个表达式。 return在不带参数的情况下（或者没有写return语句），默认返回None。 None是一个特殊的值，它的数据类型是No…

Python 2023年11月3日
0082
Python数据分析数据的导入和导出（Excel、CSV、TXT）建议收藏

文章目录数据的导入 * 语法及参数 – 导入excel数据导入csv数据导入txt 格式数据导出为excel格式数据导出为txt、csv数据注意以鸢尾花i…

Python 2023年8月7日
0060
数据分析一、 pandas库基础知识

pandas库基础知识一、jupyter 代码编辑器概述：Python 数据分析库介绍二、pandas 库基础知识 * （1）常用的Series属性与方法：（2） Data…

Python 2023年8月6日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31