离散特征的转码选择【OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies】

2023年7月16日下午4:59 • 人工智能 • 阅读 62

文章目录

前言
一、转码方案的选择
二、如何实现
*
1 进行数值编码
2 OneHot编码
总结

前言

最近在复盘一些机器学习项目时发现，在一些案例中对于离散特征转码方案的选择存在一些问题。故在此记录一些重要的点，以防止遗忘。对于想要了解详细内容的同学，推荐去看这一篇博客离散数据编码方式总结

一、转码方案的选择

在之前的一些数据分析以及数据挖掘案例中，常将离散特征转码分为0-1编码和哑变量两种，在选择方案时忽略了一些细节。
在这里将离散特征进行转码的方案分为以下两种：

进行数值编码
适用准则：离散特征的取值之间存在大小、层级的关系，比如收入:[高、中、低]；机票的仓位等级：[头等舱、经济舱】等。
进行OneHot编码
适用准则：离散特征的取值之间不存在大小、层级等可进行数值比较的关系，比如性别：[男、女]；是否有女朋友：[N,Y]等。

二、如何实现

这里仅对sklearn和Python中的常用实现方案进行记录：

1 进行数值编码

sklearn.preprocessing.LabelEncoder()
sklearn.preprocessing.OrdinalEncoder()
map函数映射

2 OneHot编码

sklearn.preprocessing.OneHotEncoder()
pd.get_dummies()

下面通过pandas创建一些数据来演示一下操作，具体原理就不这里记录了：

import numpy as np
import pandas as pd
demo = pd.DataFrame(data=
                    {'Sex':['male','female','male','female','male'],
                     'Salary':['high','low','median','high','low'],
                   'Target':[1,0,1,0,1] })

离散特征的转码选择【OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies】

这里的Sex代表性别，Salary代表工资，Target代表标签
通过前面转码方案的描述需要对Sex进行Onehot编码，对收入进行数值编码，这里的Target主要是用来说明LabelEncoder的用法

Sex: Onehot编码
pd.get_dummies()的方法：

from sklearn.preprocessing import OrdinalEncoder,OneHotEncoder,LabelEncoder
res1 = pd.get_dummies(demo['Sex'],columns = np.unique(demo['Sex'].values))
res1

转码后的结果：

OneHotEncoder()的方法：

onehot = OneHotEncoder(sparse=False)
res2 = onehot.fit_transform(demo['Sex'].values.reshape(-1,1))
res2 = pd.DataFrame(res2,columns=['female','male'])
res2

转码后的结果：

Salary:数值编码
OrdinalEncoder()：

res3 = OrdinalEncoder().fit_transform(demo['Salary'].values.reshape(-1, 1))
res3 = pd.DataFrame(res3,columns = ['Salary'])
res3

转码后的结果：

Target:标签转码
LabelEncoder()
这个例子中的Target其实无需进行转码,但是需要记住的是如果需要对label（非特征）进行编码，使用LabelEncoder(),编码后的值为0 and n_classes-1

res4 = LabelEncoder().fit_transform(demo['Target'].values.reshape(-1,1))
res4 = pd.DataFrame(res4,columns=['Target'])
res4

转码后的结果：

最后将转码后的特征进行合并就可以了

demo = pd.concat([res1,res3,res4],axis = 1)
demo

结果如下：

总结

以上是对离散特征的转码选择的一些个人总结。

Original: https://blog.csdn.net/weixin_43819931/article/details/124278253
Author: Simon Toxic
Title: 离散特征的转码选择【OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696822/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyTorch中的优化算法有哪些常见的选择

优化算法在PyTorch中的常见选择在PyTorch中，有许多常见的优化算法可供选择。这些算法使用梯度信息更新模型参数，以便训练模型更好地拟合训练数据。本文将详细介绍三种常见的优…

人工智能 2024年1月5日
0032
NCCL通信函数库相关资料整理

NCCL 内部想参考NCCL库开发一套针对性的函数库。通过官方文档、源码、网上博客，整理了一些有关资料。图片都来源于网络，比较直观的介绍了NVIDIA GPU互联互通的底层硬件架构…

人工智能 2023年7月14日
0068
机器学习初探：（十）K均值聚类（K-means）以及KNN算法

K均值聚类（K-means）图片出处本篇将介绍无监督学习家族中的一种经典聚类算法——K均值聚类（K-means）。文章目录 K均值聚类（K-means） * 导论什么是…

人工智能 2023年5月31日
0090
【深蓝学院：语音信号处理笔记】前端语音处理技术综述

【深蓝学院：语音信号处理笔记】前端语音处理技术综述常见设备的语音处理技术 1.手机语音通话降噪至少俩个麦克风，一个在手机底部，一个在手机顶部。语音通话时，到达底部与顶部麦克风的语…

人工智能 2023年5月23日
0091
【Kmeans】k均值聚类案例演示

Kmeans聚类方法原理：1.首先随机定出K个聚类中心；2.计算数据中每一个点到K个聚类中心的距离（欧氏距离），哪个最小就把这个点归到哪一个簇中；3.计算每一个簇中所有点的中心点（…

人工智能 2023年5月31日
0065
解决在win10环境下使用python 3 来搭建mumble 的client (没有启动界面,可以实现按键PPT,或者语音激活) 过程中出现的问题

1.关于如何使用python 3 来搭建mumble 的client,已经有大佬在github做好了,只需要down下源码自己调试即可 pymumble的github地址:Issu…

人工智能 2023年5月25日
0081
人工智能初学笔记系列（1）：基础概念与进化流程

自学人工智能时记下的笔记系列（1）先了解了人工智能思想的发展流程。在平时提及人工智能总是伴随着很多新概念和新名词，比如机器学习、深度学习、卷积、RNN、CNN、强化学习等等，很容…

人工智能 2023年5月31日
0075
Pytorch：目标检测网络-非极大值抑制(NMS)

Pytorch: 目标检测-非极大值抑制(NMS)及其变种 Copyright: Jingmin Wei, Pattern Recognition and Intelligent …

人工智能 2023年7月12日
0073
echarts+vue——散点图+折线图——技能提升

echarts 实现散点图+折线图功能最近在写后台管理系统时，遇到一个需求，就是散点图+折线图做一个图表，由于之前没有接触过散点图，因此下面记录一下：在 echarts官网上可以…

人工智能 2023年6月28日
0084
数字图像处理——最大类间方差法（OTSU）图像阈值分割实例

数字图像处理——最大类间方差法（OTSU）图像阈值分割实例数字图像处理——最大类间方差法（OTSU）图像阈值分割实例图像阈值分割是指通过以某个确定的图像灰度值（灰度级）将图像分…

人工智能 2023年6月17日
0091
AI智能写作系统文章生成器，写原创文章更快更简单

如果你在为快速写原创文章而烦恼，那么推荐使用AI智能写作系统文章生成器。这款工具可以帮助你更快速、更简单地写出原创文章。大家好我是夕颜，这里我给大家讲一下AI智能写作平台，如何通…

人工智能 2023年5月27日
0065
爆火Chatgpt注册完全指南

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0039
【数据科学项目02】：NLP应用之垃圾短信/邮件检测（端到端的项目）

垃圾短信检测（端到端的项目）我们都听说过一个流行词—— “数据科学”。我们大多数人都对”它是什么？我可以成为数据分析师或数据科学家吗？我需要什…

人工智能 2023年7月25日
0063
利用pycaret:低代码,自动化机器学习框架解决分类问题

之前我介绍了利用pycaret来解决回归问题的博客，有兴趣的朋友可以查看我之前的博客,今天我再来介绍一下关于使用pycaret来解决分类问题，首先我们还是来简单介绍一下pycare…

人工智能 2023年7月1日
00139
anacanda和tensorflow的下载与安装以及在anacanda下的jupyter中应用tensorflow

1.首先安装anaconda官网 https://www.anaconda.com/①点击**”产品-个人版” **因为我是2021年重新下载的，就直接是最…

人工智能 2023年5月24日
0065
生信初学者必知的镜像设置

文章目录 * – Ubuntu镜像 – conda镜像 – R语言镜像 – Python镜像 – Julia镜像国内网…

人工智能 2023年6月27日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

离散特征的转码选择【OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies】

文章目录

1 进行数值编码

2 OneHot编码

大家都在看