Pandas 根据一张DataFrame的两列数据对另一张DataFrame的多列值进行批量替换

2023年7月7日上午1:16 • 人工智能 • 阅读 47

背景

掌柜最近在做王者荣耀2022KPL春季赛的赛事数据分析，下表kpl是从官方数据平台获取到的 2022KPL春季赛常规赛近500场的赛事数据：

Pandas 根据一张DataFrame的两列数据对另一张DataFrame的多列值进行批量替换

这里大家可以很明显的看到team_bh和team_ph两列下面都是一堆数字，其实它们分别代表的是王者荣耀里面的各个英雄。下表code就是掌柜整理的2022KPL春季赛常规赛登场的所有英雄和对应的数字编码：

; 问题

将kpl表中的team_bh和team_ph两列数据进行拆分，分别得出每个战队ban（禁用）的四位英雄和pick（选用）的五位英雄；
对拆分后的禁用英雄和选用英雄根据code表进行批量替换。

思路

第一个问题其实 考的是pandas对DataFrame的一列里面多个数据拆分为多列，但每列只有一个数据的方法。 在pandas里面对于这样的文本数据，可以使用.str.split()方法按竖线（|）进行拆分， 生成新的DataFrame；然后再用join对两表进行合并，最后删除多余列。
第二个问题则是 对pandas的多列进行多值替换的考察。 通常可以采用map()函数、replace()函数或apply()函数来进行替换。

具体方法

这里掌柜就先给出 参考代码 再做解说：

import pandas as pd

ban_name = ['ban' + str(x+1) for x in range(4)]
ban = kpl['team_bh'].str.split('|', expand=True)
ban.columns = ban_name
kpl = kpl.join(ban)
kpl

拆分后的效果图：

可以看到最后四列就是拆分后的每队禁用英雄，这里取名为ban加上数字1-4，表示禁用英雄的顺序， ban1就是最先禁用的英雄。同理可以对team_ph列进行如上操作，然后删除team_bh和team_ph两列，得到拆分后的新kpl表：

这样就解决了第一个问题，下面来看 第二个问题的具体方法：

依然先给出 关键的参考代码（其实主要就这两句）：

hero_code = code.set_index(['code'])['hero'].to_dict()
kpl['ban1'] = kpl['ban1'].map(hero_code)

替换后新的kpl表：

首先掌柜 对code表进行了一个转换，将里面的数字编码和对应英雄转换为字典格式，这样方便后面进行批量的多值替换。
接着掌柜 用map()函数进行一个映射操作（也就是每一列的数字都根据字典中的key进行一个匹配，如果适配，就替换为对应的英雄名字）；当然这里也可以使用 replace()函数或apply()函数来替换，但是速度没有map()函数的快。

结果

现在这张经过处理后的kpl赛事数据表就干净很多了，我们可以一眼就看出来每个战队禁用英雄的顺序（ 公孙离和鲁班大师几乎都在第一ban位🤣）和选用英雄的优先级（ 夏侯惇和澜一选的概率较大），后面将会根据各个战队进行一系列的数据分析和挖掘工作，敬请期待！🤝😁

PS：完整的代码会在整个项目做完后放上Github，谢谢耐心等待和理解。

参考资料：
按照字典dict替换Pandas DataFrame的值：三种方法性能比较

Original: https://blog.csdn.net/weixin_41013322/article/details/124408217
Author: 小白掌柜
Title: Pandas 根据一张DataFrame的两列数据对另一张DataFrame的多列值进行批量替换

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675177/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据结构5 ：DataFrame（Pandas库）

Pandas 的数据结构主要是：Series（一维数组），DataFrame（二维数组）。DataFrame是由索引和内容组成，索引既有行索引index又有列索引columns，如…

人工智能 2023年7月9日
0055
数据科学【五】：聚类（一）

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0064
RuntimeError: Error(s) in loading state_dict for BASE_Transformer

最近跑一个深度学习变化检测的项目BIT_CD，严格按照作者的说明页进行训练和测试，但是跑出来的模型就是无法正常工作，而用作者的预训练模型就正常工作，百思不得其解，根据错误，逐步调试…

人工智能 2023年7月28日
00103
pandas的一些用法

pandas的一些常用方法和遇到的小问题 1. pandas读取json文件 2.pandas日期转换 3.pandas写入csv格式文件出现中文乱码问题解决方法 4. pd.Da…

人工智能 2023年7月8日
0063
BeautifulSoup的基本使用

✅作者简介：大家好我是hacker707,大家可以叫我hacker📃个人主页：hacker707的csdn博客🔥系列专栏：python爬虫💬推荐一款模拟面试、刷题神器👉点击跳转进入…

人工智能 2023年7月4日
0071
对kaggle数据集animal-10进行vgg_net图像十分类

数据集使用的是在kggle上下载的animal-10数据集，有十个种类的动物图片，总量约为26000张 vgg网络使用了3个3×3卷积核来代替7×7卷积核，使用…

人工智能 2023年7月14日
0096
用技术为内容注入生命力，华为视频持续升级影音体验

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0075
机器学习实战（聚类）

聚类简介在”无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任…

人工智能 2023年6月2日
0066
单片机实验——水塔自动抽水系统设计（基于Proteus仿真）

*实验内容及要求自来水供水是现代生活的一大特点，水塔作为储水装置是自来水系统必不可少的重要设施，让水塔保持一定的水量是自来水不断供的必要条件，本设计模拟自来水系统中水塔的自动抽水…

人工智能 2023年6月27日
0057
Transformer Attention is all you need 部分解析

这里记录的是我本人对Transformer 也就是 Attention is all you need 这篇文章的部分解析，这里仅为个人的看法和意见，欢迎纠正和改错。首先为什么要…

人工智能 2023年5月31日
0062
Bert实现多标签文本分类

多标签文本分类 Bert简介两个任务 Bert是按照两个任务进行预训练的，分别是遮蔽语言任务(Masked Language Model)和句子预测任务(NextSentence…

人工智能 2023年6月16日
0056
理解yolov7网络结构

以下是yolov7网络结构配置的yaml，对每一层的输出加了注释。 parameters nc: 80 # number of classes depth_multiple: 1….

人工智能 2023年6月17日
0065
OpenCV函数用法之calibrateCamera

参考链接：opencv中标定函数calibrateCamera_ychl87的专栏-CSDN博客 OpenCV相机标定calibrateCamera坐标系详解_shenxiaolu…

人工智能 2023年6月18日
0089
ResNet50 网络结构搭建(PyTorch)

ResNet50是一个经典的特征提取网络结构，虽然Pytorch已有官方实现，但为了加深对网络结构的理解，还是自己动手敲敲代码搭建一下。需要特别说明的是，笔者是以熟悉网络各层输出维…

人工智能 2023年6月16日
0073
1 PyTorch（GPU版本）环境搭建

PyTorch（GPU版本）环境搭建 Anaconda的安装，安装一路 Next即可，不再赘述； Anaconda换源，打开 Anaconda Prompt，在 base环境中输…

人工智能 2023年7月21日
0046
【机器学习】SVM实例——对glass数据集进行分类处理实验详解

【机器学习】SVM实例——对glass数据集进行分类处理一、SVM是什么？ * 1.线性可分 2.最大间隔超平面 3.支持向量 4.SVM最优化问题 5.具体求解步骤 &#821…

人工智能 2023年7月1日
0097

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas 根据一张DataFrame的两列数据对另一张DataFrame的多列值进行批量替换

背景

; 问题

思路

具体方法

结果

大家都在看