pandas之表连接与高级查询

2023年8月8日下午3:03 • Python • 阅读 43

上期内容：python最最最重要的数据分析工具之pandas

其实上一篇我们已经学习了数据筛选与查询，这里会介绍不一样的高级查询方式；还有一个重要的内容就是表连接。学过数据库的都知道SQL中表连接方式有左连接，右连接，内连接(交集)和全外连接(并集)，pandas也可以实现这些表格的连接。

✒️个人主页➡️：进来看看吧

🔎系列专栏🔫：保你不亏的

文章目录

一、高级查询
*
1.1、query(条件)
1.2、文本筛选 str.contains()
1.3、截断函数 truncate()
二、表连接
*
2.1、pandas.concat([表1,表2],axis,join,sort,ignore_index,keys)
2.2、df.merge(right, how, on, left_on, right_on,left_index, right_index, sort, suffixes)
2.3、df.join([df],on)

; 一、高级查询

1.1、query(条件)

a、单条件筛选

df = pd.DataFrame({'name':['王一','李二','赵四'],'class':['一班','二班','一班'],'sex':['男','女','女'],'score':[88,98,78]})

df.query('score >80')


df.query('sex=="女" and score==78')

1.2、文本筛选 str.contains()

"""
&#x7528;&#x6CD5;&#xFF1A;str.contains(pat, case=True, flags=0, na=nan, regex=True)&#x662F;&#x5426;&#x5305;&#x542B;&#x67E5;&#x627E;&#x7684;&#x5B57;&#x7B26;&#x4E32;
&#x53C2;&#x6570;:
        pat : &#x5B57;&#x7B26;&#x4E32;/&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;
        case : &#x5E03;&#x5C14;&#x503C;, &#x9ED8;&#x8BA4;&#x4E3A;True.&#x5982;&#x679C;&#x4E3A;True&#x5219;&#x5339;&#x914D;&#x654F;&#x611F;
        flags :  &#x6574;&#x578B;,&#x9ED8;&#x8BA4;&#x4E3A;0(&#x6CA1;&#x6709;flags)
        na : &#x9ED8;&#x8BA4;&#x4E3A;NaN,&#x66FF;&#x6362;&#x7F3A;&#x5931;&#x503C;.
        regex : &#x5E03;&#x5C14;&#x503C;, &#x9ED8;&#x8BA4;&#x4E3A;True.&#x5982;&#x679C;&#x4E3A;&#x771F;&#x5219;&#x4F7F;&#x7528;re.research,&#x5426;&#x5219;&#x4F7F;&#x7528;Python
        &#x8FD4;&#x56DE;&#x503C;: &#x5E03;&#x5C14;&#x503C;&#x7684;&#x5E8F;&#x5217;(series)&#x6216;&#x6570;&#x7EC4;(array)
"""

df = pd.DataFrame({'name':['王一小','李二池','赵四'],'class':['一班','二班','一班'],'sex':['男','女','女'],'score':[88,98,78]})

a = df['name'].str.contains('\w{3}')
df[a]

df[df['class'].str.contains('一班')]

1.3、截断函数 truncate()

&#x5728;&#x4F7F;&#x7528;.truncate()&#x51FD;&#x6570;&#x5BF9;df&#x7684;&#x67D0;&#x5217;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x7B5B;&#x9009;&#x4E4B;&#x524D;&#xFF0C;&#x9700;&#x8981;&#x5148;&#x4F7F;&#x7528;df = df.set_index('&#x5217;&#x540D;')&#xFF0C;
&#x5C06;&#x8BE5;&#x5217;&#x8BBE;&#x7F6E;&#x4E3A;&#x7D22;&#x5F15;&#xFF0C;&#x518D;&#x4F7F;&#x7528;df.sort_index()&#x7D22;&#x5F15;&#x5347;&#x5E8F;&#x3002;.

&#x7528;&#x6CD5;&#xFF1A;DataFrame.truncate(before=None, after=None, axis=None, copy=True)
&#x53C2;&#x6570;  before&#xFF1A;date&#xFF0C;string&#xFF0C;int&#xFF0C;&#x662F;&#x6307;&#x622A;&#x65AD;&#x6B64;&#x7D22;&#x5F15;&#x503C;&#x4E4B;&#x540E;&#x7684;&#x6240;&#x6709;&#x884C;
      after&#xFF1A;date&#xFF0C;string&#xFF0C;int&#xFF0C;&#x662F;&#x6307;&#x622A;&#x65AD;&#x6B64;&#x7D22;&#x5F15;&#x503C;&#x524D;&#x7684;&#x6240;&#x6709;&#x884C;
      axis&#xFF1A;{0&#x6216;&#x2019;index&#x2019;&#xFF0C;1&#x6216;&#x2019;columns&#x2019;}&#xFF08;&#x53EF;&#x9009;&#xFF09;&#xFF0C;&#x662F;&#x6307;&#x8F74;&#x622A;&#x65AD;&#x3002; &#x9ED8;&#x8BA4;&#x60C5;&#x51B5;&#x622A;&#x65AD;&#x7D22;&#x5F15;&#xFF08;&#x884C;&#xFF09;&#x3002;
      copy&#xFF1A;boolean&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;True&#xFF0C;&#x8FD4;&#x56DE;&#x622A;&#x65AD;&#x90E8;&#x5206;&#x7684;&#x526F;&#x672C;

df = pd.DataFrame({
    'date':['1','2','5','4','3'],
    'sale_money':[34,56,78,45,35]
})
df = df.set_index('date') .sort_index()

df.truncate(before='2',after='4')

df = pd.DataFrame({
    'date':['2022-04-16','2022-04-19','2022-04-18','2022-04-17','2022-04-20'],
    'sale_money':[34,56,78,45,35]
})

df = df.set_index('date') .sort_index()

df.index.astype('datetime64[ns]')

df.truncate(before='2022-04-17')

二、表连接

2.1、pandas.concat([表1,表2],axis,join,sort,ignore_index,keys)

参数说明[表1,表2]需要连接的表以元组\列表格式输入axis连接方向：0纵向连接,1横向连接join连接方式：inner内连接(交集) outer全外连接(并集)sort数据排序： True默认索引排序,False不排序默认按照索引排序ignore_index是否忽略原索引重置索引一般纵向连接且索引无意义时用keys[‘df1′,’df2’] 分别数据到底属于哪个表格的

dic1 = {
    '姓名':['王一','李二','赵四'],
    '成绩':[78,56,98]
}
dic2 = {
    '姓名':['王一','孙三','周六'],
    '成绩':[98,88,67]
}

df1 = pd.DataFrame(dic1,index=['a','b','c'])
df2 = pd.DataFrame(dic2,index=['a','d','e'])

pd.concat([df1,df2],axis=1,join='inner')

pd.concat([df1,df2],axis=0,ignore_index=True).T

pd.concat([df1,df2],axis=1,keys=['df1','df2'])

2.2、df.merge(right, how, on, left_on, right_on,left_index, right_index, sort, suffixes)

参数说明right需要连接的表how连接方式：inner\outer\left\righton有相同列名时，根据哪列连接left_on\right_on若列名不同，根据左\右表的哪个键left_index\right_index左\右表的索引作为连接键sort是否排序suffixes若有相同的列名,给它加后缀,如suffixes=(‘_df1′,’_df2’)输出：列名_df1,列名_df2 默认_x,_y


df1 = pd.DataFrame({'name':['王一','李二','赵四'],'score':[88,98,78]})
df2 = pd.DataFrame({'name':['李二','王一','赵四'],'class':['class1','class2','class1'],'score':[86,99,48]})


df1.merge(df2,left_index=True,right_index=True)


df1.merge(df2,on='name',suffixes=('_chinese','_math'))

2.3、df.join([df],on)

参数说明[df]需要连接的表以列表格式输入on根据哪列连接

df1=pd.DataFrame({"A":["A0","A1","A2","A3"],
                 "B":["B0","B1","B2","B3"],
                 "key":["K0","K1","K0","K1"]})
df2=pd.DataFrame({"C":["C0","C1"],
                 "D":["D0","D1"]},
                index=["K0","K1"])
df3=pd.DataFrame({"E":["E1","E2"]})

df1.join(df2,on="key")

df1.join([df2,df3])

下期预告：pandas数据处理三板斧之apply、map与applymap 喜欢的话就一键三连吧！！！

Original: https://blog.csdn.net/m0_69435474/article/details/124299729
Author: 小磊要努力哟
Title: pandas之表连接与高级查询

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742523/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

四、部署nginx与对接acapp

实现之后的效果： acwing端：对接acapp web端： 1.由于之前写项目时，默认画布在屏幕的左上角，但实际上可能会在屏幕的别位置，会导致玩家移动出现问题，于是我们需要去修…

Python 2023年8月6日
0046
python可视化模块pandas,python数据可视化软件

Python中数据可视化经典库有哪些？ Python有很多经典的数据可视化库，比较经典的数据可视化库有下面几个。matplotlib是Python编程语言及其数值数学扩展包 Num…

Python 2023年8月31日
0041
1.3 InSAR数据处理之软件安装

– ENVI SARscape软件安装 ENVI SARscape软件运行于windows操作系统安装程序和激活工具下载链接：https://pan.baidu.co…

Python 2023年6月10日
0084
Python matplotlib.pyplot 五种常见图形参数

plt.scatter(x, y, s, c, marker, cmap, norm, alpha, linewidths, edgecolorsl) x: x数据 y: y轴数据…

Python 2023年9月1日
0066
程序员都看不懂的代码

if os.path.exists(os.path.join(BASE_DIR, ‘logs’)) is False:os.mkdir(os.path.jo…

Python 2023年8月4日
0045
模型层与ORM介绍

django与数据库通信依赖mysqlclient模型：由django.db.models.Model派生的子类。一个模型类代表数据库中的一张数据表模型类每一个类属性都代表数据…

Python 2023年8月4日
0031
python pandas.pivot_table透视表函数

文章目录一、官方文档二、参数解析三、案例解析 * 3.1 新建数据集 3.2 两种写法 3.3 columns参数 3.4 fill_value 缺失值填充 3.5 marg…

Python 2023年8月19日
0050
如何使用PyCharm快速创建一个Flask项目

创建一个新的Flask项目 File – New Project选择Flask 之后在创建的文件夹里有自动包含以下三个文件：其中app.py的默认格式如下： from…

Python 2023年8月9日
0049
**Python贪吃蛇游戏实验**

**Python贪吃蛇游戏实&#x9A8…

Python 2023年9月23日
0050
matplotlib实现散点图，数据可视化

***附：matplotlib内函数参数超详解 ***附：matplotlib:颜色、标记和线类型，刻度、标签和图例，注释与子图加工一、分析1996~2015年人口数据特征间的关…

Python 2023年9月6日
0050
poi数据的co-location空间数据挖掘分析

这是本人在论文中使用的代码，大体上拆成两部分进行：获取同为模式关系、输出同位模式结果。仅供各位参考附件 co_location_minner . py importos imp…

Python 2023年8月8日
0032
mysql随机分层抽样_数据抽样及样本不均衡处理

一、数据抽样抽样的组织形式有： (1)简单随机抽样：按等概率原则直接从总体中抽取样本。该方法适用于个体分布均匀的场景。 (2)分层抽样：先对总体分组，再从每组中随机抽样。该方法适…

Python 2023年8月7日
0064
matplotlib之pyplot模块——交互式绘图模式管理（ion()、ioff()、isinteractive()）

当前有效 matplotlib版本为： 3.4.1。交互模式当 matplotlib使用交互式后端时，可实现交互式绘图。如果处于交互模式，新创建的图形将会立刻显示，修改图形（…

Python 2023年9月4日
0061
人工智能与智能系统1->机器人学1 | 位置与姿态描述

寒假有几项学习计划，其中有一些是为了一些任务而学，最主要的任务是我要在2021_v4的基础上编写2022_v1的大援代码，为此顺便学习一下机器人学的知识（下学期也有这方面的老黄的课…

Python 2023年10月29日
0042
windows创建虚拟环境

windows创建虚拟环境一,为什么要使用虚拟环境虚拟环境是Python解释器的一个私有副本，在这个环境你可以安装私有包，而且不会影响系统中安装的全局Python解释器。在这…

Python 2023年8月9日
0046
Django写一个登录注册—001创建项目以及设计数据库

Djanog开发小项目实践，众所周知，一个产品往往需要登录注册这些功能，所以我这里实现一下登录注册的开发。使用pycharm（专业版）创建一个django项目，不是专业版看不到创建…

Python 2023年8月6日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31