【python数据分析】：数据预处理之连续数据离散化

2023年7月6日下午8:17 • 人工智能 • 阅读 180

连续属性变换成分类属性，即连续数据离散化。

在数值的取值范围内设定若干个离散划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表每个子区间中的数据值。

连续数据离散化：

等宽法 / 等频法

等宽法：cut方法

→ 将数据均匀划分成n等份，每份的间距相等

举例：

有一组人员年龄数据，希望将这些数据划分为”18到25″,”26到35″,”36到60″,”60以上”几个面元。

ages=[20,22,25,27,21,23,37,31,61,45,41,32]

&#x8FD4;&#x56DE;&#x7684;&#x662F;&#x4E00;&#x4E2A;&#x7279;&#x6B8A;&#x7684;Categorical&#x5BF9;&#x8C61; &#x2192; &#x4E00;&#x7EC4;&#x8868;&#x793A;&#x9762;&#x5143;&#x540D;&#x79F0;&#x7684;&#x5B57;&#x7B26;&#x4E32;

bins = [18,25,35,60,100]

cats = pd.cut(ages,bins)

print(cats)

print(type(cats))

print('-------')

cut&#x7ED3;&#x679C;&#x542B;&#x6709;&#x4E00;&#x4E2A;&#x8868;&#x793A;&#x4E0D;&#x540C;&#x5206;&#x7C7B;&#x540D;&#x79F0;&#x7684;&#x5C42;&#x7EA7;&#x6570;&#x7EC4;&#x4EE5;&#x53CA;&#x4E00;&#x4E2A;&#x5E74;&#x9F84;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x6807;&#x53F7;&#x7684;&#x4EE3;&#x53F7;&#x5C5E;&#x6027;

print(cats.codes, type(cats.codes))  # 0-3&#x5BF9;&#x5E94;&#x5206;&#x7EC4;&#x540E;&#x7684;&#x56DB;&#x4E2A;&#x533A;&#x95F4;&#xFF0C;&#x7528;&#x4EE3;&#x53F7;&#x6765;&#x6CE8;&#x91CA;&#x6570;&#x636E;&#x5BF9;&#x5E94;&#x533A;&#x95F4;&#xFF0C;&#x7ED3;&#x679C;&#x4E3A;ndarray

print(cats.categories, type(cats.categories))  # &#x56DB;&#x4E2A;&#x533A;&#x95F4;&#xFF0C;&#x7ED3;&#x679C;&#x4E3A;index

print(pd.value_counts(cats))  # &#x6309;&#x7167;&#x533A;&#x95F4;&#x8BA1;&#x6570;

print('-------')

&#x901A;&#x8FC7;right&#x51FD;&#x6570;&#x4FEE;&#x6539;&#x95ED;&#x7AEF;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;True

print(pd.cut(ages,[18,26,36,61,100],right=False))

print('-------')

&#x53EF;&#x4EE5;&#x8BBE;&#x7F6E;&#x81EA;&#x5DF1;&#x7684;&#x533A;&#x95F4;&#x540D;&#x79F0;&#xFF0C;&#x7528;labels&#x53C2;&#x6570;

group_names=['Youth','YoungAdult','MiddleAged','Senior']

print(pd.cut(ages,bins,labels=group_names))

print('-------')

&#x5BF9;&#x4E00;&#x4E2A;Dataframe&#x6570;&#x636E;&#x8FDB;&#x884C;&#x79BB;&#x6563;&#x5316;&#xFF0C;&#x5E76;&#x8BA1;&#x7B97;&#x5404;&#x4E2A;&#x533A;&#x95F4;&#x7684;&#x6570;&#x636E;&#x8BA1;&#x6570;

df = pd.DataFrame({'ages':ages})

group_names=['Youth','YoungAdult','MiddleAged','Senior']

s = pd.cut(df['ages'],bins)  # &#x4E5F;&#x53EF;&#x4EE5; pd.cut(df['ages'],5),&#x5C06;&#x6570;&#x636E;&#x7B49;&#x5206;&#x4E3A;5&#x4EFD;

df['label'] = s

cut_counts = s.value_counts(sort=False)

print(df)

print(cut_counts)

&#x7528;&#x6563;&#x70B9;&#x56FE;&#x8868;&#x793A;&#xFF0C;&#x5176;&#x4E2D;&#x989C;&#x8272;&#x6309;&#x7167;codes&#x5206;&#x7C7B;

&#x6CE8;&#x610F;codes&#x662F;&#x6765;&#x81EA;&#x4E8E;Categorical&#x5BF9;&#x8C61;

plt.scatter(df.index,df['ages'],cmap = 'Reds',c = cats.codes)

plt.grid()

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]
    ages      label
0     20   (18, 25]
1     22   (18, 25]
2     25   (18, 25]
3     27   (25, 35]
4     21   (18, 25]
5     23   (18, 25]
6     37   (35, 60]
7     31   (25, 35]
8     61  (60, 100]
9     45   (35, 60]
10    41   (35, 60]
11    32   (25, 35]
(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
Name: ages, dtype: int64

undefined

等频法： qcut方法

→ 以相同数量的记录放进每个区间

qcut → 根据样本分位数对数据进行面元划分，得到大小基本相等的面元，但并不能保证每个面元含有相同数据个数

可以设置自定义的分位数（0到1之间的数值，包含端点） → pd.qcut(data1,[0,0.1,0.5,0.9,1])

data = np.random.randn(1000)

s = pd.Series(data)

cats = pd.qcut(s,4)  # &#x6309;&#x56DB;&#x5206;&#x4F4D;&#x6570;&#x8FDB;&#x884C;&#x5207;&#x5272;&#xFF0C;&#x53EF;&#x4EE5;&#x8BD5;&#x8BD5; pd.qcut(data,10)

print(cats.head())

print(pd.value_counts(cats))

print('------')

&#x7528;&#x6563;&#x70B9;&#x56FE;&#x8868;&#x793A;&#xFF0C;&#x5176;&#x4E2D;&#x989C;&#x8272;&#x6309;&#x7167;codes&#x5206;&#x7C7B;

&#x6CE8;&#x610F;codes&#x662F;&#x6765;&#x81EA;&#x4E8E;Categorical&#x5BF9;&#x8C61;

plt.scatter(s.index,s,cmap = 'Greens',c = pd.qcut(data,4).codes)

plt.xlim([0,1000])

plt.grid()

`
0 (-0.739, 0.00137]
1 (0.751, 3.414]
2 (-0.739, 0.00137]
3 (0.00137, 0.751]
4 (0.751, 3.414]
dtype: category
Categories (4, interval[float64]): [(-4.656000000000001, -0.739] < (-0.739, 0.00137] < (0.00137, 0.751] < (0.751, 3.414]]
(-4.656000000000001, -0.739] 250
(-0.739, 0.00137] 250
(0.00137, 0.751] 250
(0.751, 3.414] 250
dtype: int64

Original: https://blog.csdn.net/weixin_40637477/article/details/124571338
Author: 斑点鱼 SpotFish
Title: 【python数据分析】：数据预处理之连续数据离散化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674699/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【ML】使用未标记数据 – 聚类分析

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年6月2日
0090
GPU版pytorch安装方法(基于Pycharm)

目录一.前期准备(Pycharm和Python环境的安装）二.安装CUDA加速架构组件三.CUDNN的安装四.Pytorch的安装五.最后验证torch GPU版本安装成…

人工智能 2023年7月22日
0070
MAE详解

目录一、介绍二、网络结构 1. encoder 2. decoder 3. LOSS 三、实验全文参考：论文阅读笔记：Masked Autoencoders Are Scal…

人工智能 2023年5月26日
0070
基于机器学习与深度学习的金融风控贷款违约预测

基于机器学习与深度学习的金融风控贷款违约预测目录一、赛题分析 1. 任务分析 2. 数据属性 3. 评价指标 4. 问题归类 5. 整体思路二、数据可视化分析 1. 总体数据…

人工智能 2023年6月15日
0082
Pytorch深度学习——用全连接神经网络实现MNIST数据集分类

目录 1 准备数据集 2 建立模型 3 构建损失函数和优化器 4 训练+测试 5 完整代码+运行结果 6 遇到问题我们之前学习的案例中，输入x都是一个向量；在MNIST数据集中，…

人工智能 2023年7月2日
00128
功能案例—-java实现语音播报功能

根据自己最近的写的项目，总结整理了关于java语音播报功能的方法，可分为两种形式一种是通过自己写出一个语音播报方法的工具类，然后从前端获取文本数据，最后跳到控制层进行语音播报方法…

人工智能 2023年5月27日
0076
算法

问题背景介绍 PyTorch是一个广泛应用于深度学习的开源框架，其中一个重要的功能是它能够自动计算和优化张量的导数。这种自动求导技术使得深度学习的模型训练过程更加简化。本文将详细介…

人工智能 2024年1月3日
0030
Layer Normalization解析

原论文名称：Layer Normalization原论文地址： https://arxiv.org/abs/1607.06450 之前有讲过Batch Normalization的…

人工智能 2023年6月15日
0092
关于账本数据库：你想知道的这里都有

💕前言：十二月份出个openGuass集合专栏，带领大家浅浅的认识一下国产数据库吧💕 1. 什么是账本数据库区块链大家想必都耳熟能详，比特币、以太坊甚至狗狗币等代币，作为区块链的…

人工智能 2023年7月31日
0047
Python手撸机器学习系列（六）：决策树（附Python实现西瓜书决策树构建及剪枝代码）

目录决策树 * 一、ID3决策树 – 1.1 信息熵 1.2 信息增益 1.3 数据集 1.3 ID3决策树基础代码实现二、C4.5决策树 – 2.1 …

人工智能 2023年6月15日
0062
GRU

在神经网络发展的过程中，几乎所有关于LSTM的文章中对于LSTM的结构都会做出一些变动，也称为LSTM的变体。其中变动较大的是门控循环单元（Gated Recurrent Unit…

人工智能 2023年6月4日
0080
边界Fisher分析（MFA）及其非线性改进核边界Fisher分析（KMFA）的验证对比

0、前言前期博文讲述了MFA相关理论及其可以改进的点，本期文章对MFA进行非线性改进，提出核边界Fisher分析（KMFA）方法，并将MFA与KMFA在相同数据集上进行验证对比分…

人工智能 2023年6月2日
00119
机器学习笔记 – 使用 GAN 进行数据增强以进行缺陷检测

一、用于数据增强的 GAN 在机器学习中，训练数据量不足往往会阻碍分类算法的性能。经验表明，训练数据不足是常态，而不是例外，这就是为什么人们提出了数据增强方法。我们可以使用数据…

人工智能 2023年7月27日
0054
SlowFast训练自己的数据集

数据集视频准备本次训练以实验为目的，了解该框架的训练步骤，选取了1段30秒以上的关于打电话的视频。视频抽帧目的：（1）1秒抽1帧图片，目的是用来标注，ava数据集就是1秒1…

人工智能 2023年7月22日
0061
扩散模型原理和pytorch代码实现初学资料汇总

1.扩散模型和分数匹配模型的资源和论文的汇总 https://github.com/heejkoo/Awesome-Diffusion-Models 是一个github网站 2. …

人工智能 2023年7月20日
0069
100天精通Python（数据分析篇）——第64天：Pandas分组groupby函数案例

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月29日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【python数据分析】：数据预处理之连续数据离散化

大家都在看