Pandas基础|生成对应编码的N种方法

2023年7月8日下午10:51 • 人工智能 • 阅读 80

作者：小小明

已知列表
[’50万以上’, ’10万以下’, ’10万以下’, ’50万以上’, ’10万以下’, ’10万以下’, ’30-50万’, ’10-30万’]

按照以下关系生成编码：

’10万以下’ 1
’10-30万’ 2
’30-50万’ 3
’50万以上’ 4

对于这个基础问题，使用pandas至少有10种以上的方法去实现它，你能使用多少个API去实现，往往能体现你对Pandas方法的熟练程度，以后任何类似或更复杂的需求都不怕。下面我将演示较为常规的几种供大家复习pandas的语法。

注意：本文已经预设你掌握了pandas的全部语法，不会对基础详解。若发现对对某个API不熟悉，可查询官方文档复习。

数据构造

import pandas as pd

data = ['50万以上', '10万以下', '10万以下', '50万以上',
        '10万以下', '10万以下', '30-50万', '10-30万']
cats = ['10万以下', '10-30万', '30-50万', '50万以上']
df = pd.DataFrame({"data": data})
df

data050万以上110万以下210万以下350万以上410万以下510万以下630-50万710-30万

解决方法

方法1：使用pandas自带的分类数据内部编码

df.data = df.data.astype('category').cat.set_categories(cats)
df["code1"] = df.data.cat.codes+1

为了避免对后续代码的影响，我们将原数据还原回字符串类型：

df.data = df.data.astype('str')

方法2：使用python字典查询匹配

先构造一个查询字典：

query_table = dict(zip(cats, range(1, len(cats)+1)))
query_table

{'10&#x4E07;&#x4EE5;&#x4E0B;': 1, '10-30&#x4E07;': 2, '30-50&#x4E07;': 3, '50&#x4E07;&#x4EE5;&#x4E0A;': 4}

然后开始循环查询：

df["code2"] = [query_table[x] for x in df.data]

方法3-4：使用Series的apply方法

df["code3"] = df.data.apply(lambda x: query_table[x])

字典内部方法可以传入切片：

df["code4"] = df.data.apply(query_table.__getitem__)

方法5：使用Series的map方法传入函数

map方法也可以传入函数的：

df["code5"] = df.data.map(query_table.__getitem__)

方法6：使用Series的map方法传入字典

map方法除了可以传入函数外，还支持直接传入替换字典：

df["code6"] = df.data.map(query_table)

方法7：使用Series的replace方法

replace方法也支持直接传入替换字典：

df["code7"] = df.data.replace(query_table)

replace方法还支持传入正则表达式，指定参数regex=True即可，但是被替换值不能像re模块一样可以传入函数并被调用。

方法8：使用Series的str处理器的replace方法传入正则替换方法

这个方法非常智障，正则替换函数只能返回字符串，最终还需要还原成数字类型。

展示这个方法只能为了让大家清楚Series的replace方法与str处理器的replace方法的区别：

df["code8"] = df.data.str.replace('.+', lambda m: str(query_table[m.group(0)]), regex=True).astype('int')

方法9：使用Index的get_indexer方法获取角标位置

query_index = pd.Index(cats)
df["code9"] = query_index.get_indexer(df.data)+1

方法10：使用Series进行批量查询

query_series = pd.Series(index=cats, data=range(1, len(cats)+1))
df["code10"] = query_series[df.data].values

才哥又补充了类似下面的两种的写法：

方法11：使用merge表连接

query_frame = query_series.to_frame()
df['code11'] = df[["data"]].merge(query_frame, how='left', left_on='data', right_index=True)[0]

方法12：使用join表连接

df['code12'] = df[["data"]].join(query_frame, on='data')[0]

完整代码测试：

df.data = df.data.astype('category').cat.set_categories(cats)
df["code1"] = df.data.cat.codes+1
df.data = df.data.astype('str')

query_table = dict(zip(cats, range(1, len(cats)+1)))
df["code2"] = [query_table[x] for x in df.data]
df["code3"] = df.data.apply(lambda x: query_table[x])
df["code4"] = df.data.apply(query_table.__getitem__)

df["code5"] = df.data.map(query_table.__getitem__)
df["code6"] = df.data.map(query_table)

df["code7"] = df.data.replace(query_table)
df["code8"] = df.data.str.replace('.+', lambda m: str(query_table[m.group(0)]), regex=True).astype('int')

query_index = pd.Index(cats)
df["code9"] = query_index.get_indexer(df.data)+1

query_series = pd.Series(index=cats, data=range(1, len(cats)+1))
df["code10"] = query_series[df.data].values

query_frame = query_series.to_frame()
df['code11'] = df[["data"]].merge(query_frame, how='left', left_on='data', right_index=True)[0]
df['code12'] = df[["data"]].join(query_frame, on='data')[0]
df

datacode1code2code3code4code5code6code7code8code9code10code11code12050万以上444444444444110万以下111111111111210万以下111111111111350万以上444444444444410万以下111111111111510万以下111111111111630-50万333333333333710-30万222222222222

可以看到上述所有方法均顺利生成了对应的编码。

本文展示的方法，仅仅只是抛砖引玉，相信读者们还可能能想出更多的处理办法，欢迎留言评论进行交流。

Original: https://blog.csdn.net/as604049322/article/details/117923826
Author: 小小明-代码实体
Title: Pandas基础|生成对应编码的N种方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679467/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow中的Feed和Fetch是什么

问题概述在TensorFlow中，Feed和Fetch是两个重要的概念，用于提供和获取数据。Feed用于将数据传入计算图中的占位符，而Fetch允许我们获取计算图中的任何操作或变…

人工智能 2023年12月31日
0041
Disco Diffusion 快速入门

Disco Diffusion 快速入门简介快速开始进阶使用 * 修改prompt 给定指导图像修改基础参数运行参数设置运行建议模型设置参数详情简介 Disco …

人工智能 2023年7月26日
0067
PyTorch学习笔记（4）–DataLoader的使用

PyTorch学习笔记（4）–DataLoader的使用本博文是PyTorch的学习笔记，第4次内容记录，主要介绍DataLoader的基本使用。目录 PyTorch学习笔记（…

人工智能 2023年7月6日
0074
《820事件：钻哥对AI人工智能下重手！！！》（Yanlz+AI+人工智能+元宇宙+Python+神经网络+深度学习+语言识别+NFT+VR+AR+MR+XR+虚拟现实+AI2026立钻哥哥++==）

版本作者参与者完成日期备注 AI_Start_V01_1.0 严立钻 2022.08.20 #《 820事件：钻哥对 AI 人工智能下重手！！！》发布说明： ++++…

人工智能 2023年7月13日
0077
CVPR2022 | 弱监督多标签分类中的损失问题

前言本文提出了一种新的弱监督多标签分类（WSML）方法，该方法拒绝或纠正大损失样本，以防止模型记忆有噪声的标签。由于没有繁重和复杂的组件，提出的方法在几个部分标签设置（包括Pasc…

人工智能 2023年7月2日
0085
解决：ImportError: cannot import name ‘mean_absolute_percentage_error‘ from ‘sklearn.metrics‘

Python问题： ImportError: cannot import name ‘mean_absolute_percentage_error’ fro…

人工智能 2023年6月16日
00119
R构建加权最小二乘回归模型（Weighted Least Squares Regression）

R构建加权最小二乘回归模型（Weighted Least Squares Regression）目录 R构建加权最小二乘回归模型（Weighted Least Squares R…

人工智能 2023年6月18日
00116
使用opencv批量裁剪保存图片

使用opencv批量裁剪保存图片代码很简短，如下:import cv2import 0rootdir = ‘pic/’list = os.listdir (…

人工智能 2023年5月28日
0077
CRF模型——条件随机场模型

文章目录 * – + CRF + * 含义 * 作用 * 使用过程 + 维特比算法 + 与HMM的差异 CRF 含义 CRF(Conditional Random Fi…

人工智能 2023年5月31日
0086
AI实现语音文字处理，PaddleSpeech项目安装使用 | 机器学习

目录前言环境安装 1、conda安装Python3.9虚拟环境 2、安装Visual Studio 2019 3、安装requirements.txt 4、安装paddlepa…

人工智能 2023年6月25日
0068
学习实践案例：YOLOv3实现目标检测

YOLO 网络介绍 YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。 YOLOV1是典型的目标检测on…

人工智能 2023年7月11日
0061
Pandas中常见的20多种数据筛选方法，116张图详解 | 图解Pandas-图文第8篇

01写在前面大家好，我是阳哥，欢迎来到「Python数据之道」。本次是《图解Pandas》系列图文内容的第 08 篇，主要介绍 Pandas 中&amp…

人工智能 2023年6月25日
0080
【mmdetection】使用coco数据集训练后结果可视化

目录一.开始二.可视化代码 * 1. Loss曲线 2. P-R曲线 3.mAP参数 4.fps参数 5.acc曲线 6.计算FLOPs和参数量三.参数意义及总结一.开始 …

人工智能 2023年6月17日
00192
tensorflow-gpu 2.3.0安装及相关对应版本库安装（Anaconda安装）

目录如需转载，请标明出处，谢谢。一、安装tensorflow-gpu2.3.0二、配置其他相关的库很多人以为安装完tensorflow-gpu就是一切都结束了，但是殊不知，pyth…

人工智能 2023年5月23日
00112
吃瓜（西瓜书-南瓜书）1、2章

一.绪论机器学习是一门致力于研究如何通过计算手段，利用经验来改善自身性能的学科。 1.1 基本术语要进行机器学习，首先得有数据；数据集合组成数据集，其是关于一个事件或对象的描述…

人工智能 2023年5月31日
0091
人体关键点检测（Keypoints Detection）

1.综述 Pytorch的 torchvision库中有关键点检测的模型keypointrcnn_resnet50_fpn()网络模型，其可以对17个人体关键点进行检测。17个关键…

人工智能 2023年6月16日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas基础|生成对应编码的N种方法

数据构造

解决方法

大家都在看