Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

2023年8月7日下午7:20 • Python • 阅读 76

Excel的vlookup功能在数据量太大的前提下就挺难用的，所以还是需要pandas搞定
下面是用pandas实现匹配的方法

如下图，假如我有一个表全是印尼文 A

Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

有另一张在google sheet上翻译出来的表 B

现在我想匹配第一张表 category1_name 的英文版本

1. dict + apply 我觉得最好的方法

首先将翻译的那张表转成字典形式

import pandas as pd
dict1 = dict(zip(trans['Indonesian'],trans['English']))

然后直接用apply函数映射过去

c0801_f['category1_name_en'] = c0801_f['category1_name'].apply(lambda x: dict1[x])

如果你的表因为找不到对应的值而报错，可以用get调用方法，则找不到的值默认None

c0801_f['category1_name_en'] = c0801_f['category1_name'].apply(lambda x: dict1.get(x))

完成
而且这样还可以随意apply到任何列上,很方便~

2. merge

还是刚刚那两张表

但是我得把翻译表第一列换成和表A一样的名字，不然不能merge
然后按照表A left merge

trans = trans.rename(columns={'Indonesian':'category1_name'})

c0801_f = c0801_f.merge(trans,on='category1_name',how='left')

最后也是一样的结果

3. join

还是这两张表

pandas 的 join 官方文档上有一个例子，写了这两句话

If we want to join using the key columns, we need to set key to be the index in both df and other. The joined DataFrame will have key as its index.

Another option to join using the key columns is to use the on parameter. DataFrame.join always uses other’s index but we can use any column in df. This method preserves the original DataFrame’s index in the result.

也就是说我们可以指定表里的一列为index, 然后根据这列index去join

c0801_f.join(trans.set_index('Indonesian'),on='category1_name')

这样就不用给表A改名了hhhhhh

Original: https://blog.csdn.net/EvaHoo/article/details/119537027
Author: 德德德真的是我
Title: Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740724/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LDA主题模型简介及Python实现

一、LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布，可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。 LDA主题模型不关心文档中单词的…

Python 2023年7月31日
0053
接口自动化框架搭建 pytest

接口自动化框架搭建，持续更新中。。。接口自动化框架架构简介：一个excel文件代表一个项目，一个项目中的每个sheet就是一个模块，一个模块中写正常用例和异常用例，extrac…

Python 2023年9月10日
0048
超实用！整理了34个Python自动化办公库

Original: https://www.cnblogs.com/hero-yang/p/16011972.htmlAuthor: Python空间Title: 超实用！整理了3…

Python 2023年5月24日
0063
01背包和完全背包

01背包最大约数和题目链接点击这里题目描述选取和不超过 S S S 的若干个不同的正整数，使得所有数的约数（不含它本身）之和最大。输入格式输入一个正整数 S S S。 …

Python 2023年9月29日
0054
【Java集合】Collection 体系集合详解（ArrayList，LinkedList，HashSet，TreeSet…）

1. ArrayList: – ArrayList_是基于数组实现的动态数组，可以自动扩容，可以存储任何对象类型。 – 数组的优点是可以随机访问元素，缺点是…

Python 2023年11月6日
0044
PySpark数据分析基础：PySpark Pandas创建、转换、查询、转置、排序操作详解

目录前言一、Pandas数据结构 1.Series 2.DataFrame 3.Time-Series 4.Panel 5.Panel4D 6.PanelND 二、Pyspar…

Python 2023年8月7日
00202
利用python进行数据分析——数据过滤、清洗、转换等

一、移除重复数据 DataFrame.duplicated() DataFrame.drop_duplicates() 1. duplicated() 返回bool序列，标识是否重…

Python 2023年8月6日
0048
办公室大神级骚操作：Python控制Excel实现自动化办公

很多做文员的小姐姐一直在说做报表好麻烦呀，但一直找不到一个合适的报表工具，这不… 思来想去，感觉 Excel 就一定程度上能做可视化的, 除了不能动态交互外, 其他都挺…

Python 2023年8月7日
0061
保姆级飞机大战教程（一）

ps：素材内容在文末，有需要的请自取 1.安装pygame模块 1）在终端输入安装的命令语句 pip install pygame 2）确认是否安装pygame命令 python …

Python 2023年9月25日
0048
网页数据的提取（多层静态网页）（extract()与extract_first()两种方法的区别）爬虫框架之–scrapy篇

一: 框架创建三步曲（前题：提前安装了scrapy框架）：scrapy startproject scrapy_name -> (框架名称)cd scrapy_name -&…

Python 2023年10月2日
0057
Redis详解

1.Redis 是一个基于内存的高性能 key-value 数据库。是完全开源免费的，用C语言编写的，遵守BSD协议 2.Redis 特点： 1）Redis 是基于内存操作的，吞吐…

Python 2023年10月20日
0045
python not函数_Python pandas.DataFrame.notna函数方法的使用

检测现有(非缺失)值。返回一个布尔值相同大小的对象，指示值是否不是NA。非缺失值将映射为True。诸如空字符串之类的字符”或numpy.inf不视为NA值的字符(除非…

Python 2023年8月7日
0067
如何用Python让你的电脑说话

如何用Python让你的电脑说话你成为亿万花花公子的第一步如果你是像《钢铁侠》这样的电影的粉丝，你可能已经幻想过得到你自己的贾维斯。那么，在这篇文章中，我将告诉你如何开始制作你…

Python 2023年7月31日
0046
R语言进行模型交叉验证比较

我们建立模型后，需要对模型变量调整比较，得出最优模型，交叉验证为目前评价模型质量的一个比较流行的方法。我们今天使用BOOT包的cv.glm函数来交叉验证，得出最优模型，并和其他指标…

Python 2023年10月9日
0049
通过netty把百度地图API获取的地理位置从Android端发送到Java服务器端

本篇记录我在实现时的思考过程，写给之后可能遇到困难的我自己也给到需要帮助的人。写的比较浅显，见谅。在写项目代码的时候，需要把Android端的位置信息传输到服务器端，通过Nett…

Python 2023年10月18日
0045
利用conda创建虚拟环境、pip导出环境与项目依赖包

首先查看已经存在的虚拟环境 conda env list或者conda info -e conda创建虚拟环境 conda create –环境名 python=版本号…

Python 2023年9月8日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

大家都在看