pandas.cut()函数的使用

2023年7月4日下午7:57 • 人工智能 • 阅读 60

函数可以将数据进行分类成不同的区间值。在数据分析中，例如有一组年龄数据，现在需要对不同的年龄层次的用户进行分析，那么我们可以根据不同年龄层次所对应的年龄段来作为划分区间，例如 bins = [1,28,50,150]，对应 labels = [“青少年”,”中年”,”老年”]，划分完后我们就可以很容易取出不同年龄段的用户数据。不仅是年龄数据，对于需要划分区间的数据都是十分有用的。

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

参数解释：

x&#xFF1A;&#x5206;&#x7BB1;&#x65F6;&#x8F93;&#x5165;&#x7684;&#x6570;&#x7EC4;&#xFF0C;&#x5FC5;&#x987B;&#x4E3A;&#x4E00;&#x4F4D;&#x6570;&#x7EC4;
bins&#xFF1A;&#x5206;&#x7C7B;&#x4F9D;&#x636E;&#x7684;&#x6807;&#x51C6;&#xFF0C;&#x53EF;&#x4EE5;&#x662F;int&#x3001;&#x6807;&#x91CF;&#x5E8F;&#x5217;&#x6216;&#x95F4;&#x9694;&#x7D22;&#x5F15;(IntervalIndex)
right&#xFF1A;&#x662F;&#x5426;&#x5305;&#x542B;bins&#x533A;&#x95F4;&#x7684;&#x6700;&#x53F3;&#x8FB9;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;True&#xFF0C;&#x6700;&#x53F3;&#x8FB9;&#x4E3A;&#x95ED;&#x533A;&#x95F4;&#xFF0C;False&#x5219;&#x4E0D;&#x5305;&#x542B;
labels&#xFF1A;&#x8981;&#x8FD4;&#x56DE;&#x7684;&#x6807;&#x7B7E;&#xFF0C;&#x548C;bins&#x7684;&#x533A;&#x95F4;&#x5BF9;&#x5E94;
retbins&#xFF1A;&#x662F;&#x5426;&#x8FD4;&#x56DE;bins,&#x5F53;bins&#x4F5C;&#x4E3A;&#x6807;&#x91CF;&#x65F6;&#x4F7F;&#x7528;&#x975E;&#x5E38;&#x6709;&#x7528;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;False
precision&#xFF1A;&#x7CBE;&#x5EA6;&#xFF0C;int&#x7C7B;&#x578B;
include_lowest&#xFF1A;&#x7B2C;&#x4E00;&#x4E2A;&#x533A;&#x95F4;&#x662F;&#x5426;&#x4E3A;&#x5DE6;&#x5305;&#x542B;(&#x5DE6;&#x8FB9;&#x4E3A;&#x95ED;&#x533A;&#x95F4;)&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;False,&#x8868;&#x793A;&#x4E0D;&#x5305;&#x542B;&#xFF0C;True&#x5219;&#x5305;&#x542B;
duplicates&#xFF1A;&#x53EF;&#x9009;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;{default 'raise', 'drop'}&#xFF0C;&#x5982;&#x679C; bin &#x8FB9;&#x7F18;&#x4E0D;&#x662F;&#x552F;&#x4E00;&#x7684;&#xFF0C;&#x5219;&#x5F15;&#x53D1; ValueError &#x6216;&#x5220;&#x9664;&#x975E;&#x552F;&#x4E00;&#x7684;&#x3002;
ordered&#xFF1A;&#x9ED8;&#x8BA4;&#x4E3A;True&#xFF0C;&#x8868;&#x793A;&#x6807;&#x7B7E;&#x662F;&#x5426;&#x6709;&#x5E8F;&#x3002;&#x5982;&#x679C;&#x4E3A; True&#xFF0C;&#x5219;&#x5C06;&#x5BF9;&#x751F;&#x6210;&#x7684;&#x5206;&#x7C7B;&#x8FDB;&#x884C;&#x6392;&#x5E8F;&#x3002;&#x5982;&#x679C;&#x4E3A; False&#xFF0C;&#x5219;&#x751F;&#x6210;&#x7684;&#x5206;&#x7C7B;&#x5C06;&#x662F;&#x65E0;&#x5E8F;&#x7684;&#xFF08;&#x5FC5;&#x987B;&#x63D0;&#x4F9B;&#x6807;&#x7B7E;&#xFF09;

import numpy as np
import pandas as pd

分类依据的标准，可以是 int、 标量序列或 IntervalIndex

当bins为整数时，表示几等分


pd.cut(np.array([2,6,4,8,1,5,9]),bins=3)

[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]

可以看到根据输入的一位数组自动划分为三个等分区间 (0.992, 3.667] 、(3.667, 6.333] 、(6.333, 9.0]，根据一维数组中的值对应哪个区间，则返回对应的那个区间，比如 2 属于 (0.992, 3.667]，则返回区间 (0.992, 3.667]

bins 为标量序列，以列表为例,用于指定划分区间，当x中的数据都不在指定划分区间内，返回 NaN

pd.cut(np.array([2,6,4,8,1,5,9]),bins=[1,4,7,10])

[(1.0, 4.0], (4.0, 7.0], (1.0, 4.0], (7.0, 10.0], NaN, (4.0, 7.0], (7.0, 10.0]]
Categories (3, interval[int64]): [(1, 4] < (4, 7] < (7, 10]]

当bins为间隔索引(IntervalIndex)， IntervalIndex 未涵盖的值设置为 NaN

bins = pd.IntervalIndex.from_tuples([(0, 2), (3, 6), (7, 8)])
pd.cut(np.array([2,6,4,8,1,5,9]),bins)

[(0.0, 2.0], (3.0, 6.0], (3.0, 6.0], (7.0, 8.0], (0.0, 2.0], (3.0, 6.0], NaN]
Categories (3, interval[int64]): [(0, 2] < (3, 6] < (7, 8]]

是否返回bins，当bins作为标量时使用非常有用，默认为 False


pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,retbins=True)

([(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
 Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]],
 array([0.992     , 3.66666667, 6.33333333, 9.        ]))

可以看到返回了一个一维数组 array([0.992 , 3.66666667, 6.33333333, 9. ]))，这个数组就是划分区间的依据bins，bins=[0.992 , 3.66666667, 6.33333333, 9. ]

精度，int类型，表示区间值的小数位数，0和1是一样的

print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,precision=0))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,precision=1))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,precision=2))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,precision=3))

[(1.0, 4.0], (4.0, 6.0], (4.0, 6.0], (6.0, 9.0], (1.0, 4.0], (4.0, 6.0], (6.0, 9.0]]
Categories (3, interval[float64]): [(1.0, 4.0] < (4.0, 6.0] < (6.0, 9.0]]
==============================================================================================================
[(1.0, 3.7], (3.7, 6.3], (3.7, 6.3], (6.3, 9.0], (1.0, 3.7], (3.7, 6.3], (6.3, 9.0]]
Categories (3, interval[float64]): [(1.0, 3.7] < (3.7, 6.3] < (6.3, 9.0]]
==============================================================================================================
[(0.99, 3.67], (3.67, 6.33], (3.67, 6.33], (6.33, 9.0], (0.99, 3.67], (3.67, 6.33], (6.33, 9.0]]
Categories (3, interval[float64]): [(0.99, 3.67] < (3.67, 6.33] < (6.33, 9.0]]
==============================================================================================================
[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]

指定返回的 bins 的标签。必须与生成的 bins 长度相同。如果为 False，则仅返回 bin 的整数指示符。当bin是 IntervalIndex时，忽略此参数。如果为 True，则引发错误。

将等分的区间用标签labels替代，标签个数要和等分区间个数一致，几等分就几个标签

print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,labels=["L","M","H"]))

[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]
==============================================================================================================
['L', 'M', 'M', 'H', 'L', 'M', 'H']
Categories (3, object): ['L' < 'M' < 'H']

pd.cut(np.array([2,6,4,8,1,5,9]),bins=[1,4,7,10],labels=["L","M","H"])

['L', 'M', 'L', 'H', NaN, 'M', 'H']
Categories (3, object): ['L' < 'M' < 'H']

表示标签是否有序。默认为True，如果为 True，则将对生成的分类进行排序。如果为 False，则生成的分类将是无序的

注意：使用 ordered参数时必须和 labels参数连用，否则会报错

print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,labels=["L","M","H"]))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,labels=["L","M","H"],ordered=False))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,labels=["L","M","H"],ordered=True))

['L', 'M', 'M', 'H', 'L', 'M', 'H']
Categories (3, object): ['L' < 'M' < 'H']
==============================================================================================================
['L', 'M', 'M', 'H', 'L', 'M', 'H']
Categories (3, object): ['L', 'M', 'H']
==============================================================================================================
['L', 'M', 'M', 'H', 'L', 'M', 'H']
Categories (3, object): ['L' < 'M' < 'H']

[‘L’ < ‘M’ < ‘H’] 这个有序的， [‘L’, ‘M’, ‘H’] 这个是无序的

是否包含bins区间的最右边，默认为True，最右边为闭区间，False则不包含


print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,right=True))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,right=False))

[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]
==============================================================================================================
[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]
==============================================================================================================
[[1.0, 3.667), [3.667, 6.333), [3.667, 6.333), [6.333, 9.008), [1.0, 3.667), [3.667, 6.333), [6.333, 9.008)]
Categories (3, interval[float64]): [[1.0, 3.667) < [3.667, 6.333) < [6.333, 9.008)]

第一个区间是否为左包含,默认为 False，表示不包含， True则表示包含

print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,include_lowest=False))
print("="*110)
print(pd.cut(np.array([2,6,4,8,1,5,9]),bins=3,include_lowest=True))

[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]
==============================================================================================================
[(0.992, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.992, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.992, 3.667] < (3.667, 6.333] < (6.333, 9.0]]
==============================================================================================================
[(0.991, 3.667], (3.667, 6.333], (3.667, 6.333], (6.333, 9.0], (0.991, 3.667], (3.667, 6.333], (6.333, 9.0]]
Categories (3, interval[float64]): [(0.991, 3.667] < (3.667, 6.333] < (6.333, 9.0]]

可以看到当 include_lowest=True，第一个区间由(0.992, 3.667]变为了(0.991, 3.667]，包含了0.992

{默认值 ‘raise’, ‘drop’}，如果 bin 边缘不是唯一的，则引发 ValueError ，例如以下语句

pd.cut(np.array([2,6,4,8,1,9,9]),bins=[0,3,6,9,9])

报错信息如下：


F:\Anaconda_all\Anaconda\lib\site-packages\pandas\core\reshape\tile.py in cut(x, bins, right, labels, retbins, precision, include_lowest, duplicates, ordered)
    271             raise ValueError("bins must increase monotonically.")
    272
--> 273     fac, bins = _bins_to_cuts(
    274         x,
    275         bins,

F:\Anaconda_all\Anaconda\lib\site-packages\pandas\core\reshape\tile.py in _bins_to_cuts(x, bins, right, labels, precision, include_lowest, dtype, duplicates, ordered)
    397     if len(unique_bins) < len(bins) and len(bins) != 2:
    398         if duplicates == "raise":
--> 399             raise ValueError(
    400                 f"Bin edges must be unique: {repr(bins)}.\n"
    401                 f"You can drop duplicate edges by setting the 'duplicates' kwarg"

ValueError: Bin edges must be unique: array([0, 3, 6, 9, 9]).

You can drop duplicate edges by setting the 'duplicates' kwarg
</module></ipython-input-81-e463bd85b4bf>

解决办法： 使用 duplicates="drop"去除重复

print(pd.cut(np.array([2,6,4,8,1,9,9]),bins=[0,3,6,9,9],duplicates="drop"))

[(0, 3], (3, 6], (3, 6], (6, 9], (0, 3], (6, 9], (6, 9]]
Categories (3, interval[int64]): [(0, 3] < (3, 6] < (6, 9]]

有多个重复值也是可以去除的

pd.cut(np.array([2,6,4,8,1,9,9]),bins=[0,3,6,6,9,9],duplicates="drop")

[(0, 3], (3, 6], (3, 6], (6, 9], (0, 3], (6, 9], (6, 9]]
Categories (3, interval[int64]): [(0, 3] < (3, 6] < (6, 9]]

Original: https://blog.csdn.net/weixin_45499440/article/details/123675123
Author: 芒果去核
Title: pandas.cut()函数的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/670345/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言把dataframe中的字符类型数据列转化为数值类型数据列、使用as.numeric函数

R语言把dataframe中的字符类型数据列转化为数值类型数据列、使用as.numeric函数目录 R语言把dataframe中的字符类型数据列转化为数值类型数据列、使用as.n…

人工智能 2023年6月19日
0074
Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读

Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读论文：Two-Stream C…

人工智能 2023年7月12日
0049
【无标题】

title: [ACTF新生赛2020]fungamecategories: CTF题解——reverse [ACTF新生赛2020]fungame 这个题虽然不难，但出题思路清奇…

人工智能 2023年6月26日
0049
R语言迹检验协整关系式_使用R语言进行协整关系检验

协整检验是为了检验非平稳序列的因果关系，协整检验是解决伪回归为问题的重要方法。首先回归伪回归例子：伪回归Spurious regression伪回归方程的拟合优度、显著性水平等指…

人工智能 2023年6月18日
0082
在windows下pytorch(GPU版)的安装

一.CUDA的安装 pytorch官网建议最好使用的是英伟达(NVIDIA)的显卡，说一下我自己的配置：显卡NVIDIA GTX1050ti 1.查看当前显卡所需的CUDA版本首…

人工智能 2023年7月21日
0053
贝叶斯网络是神经网络吗,贝叶斯网络和神经网络

深度信念网络与深度贝叶斯网络有什么区别 1、贝叶斯网络是：一种概率网络，它是基于概率推理的图形化网络，而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型,所谓…

人工智能 2023年7月14日
0075
【OpenCV图像处理14】图像分割与修复

文章目录十四、图像分割与修复 * 1、图像分割 – 1.1 分水岭法 1.2 GrabCut法 1.3 MeanShift法 2、视频前后景分离(视频背景抠图) &#…

人工智能 2023年7月20日
0063
数据结构-(4)简单二叉树插入及输出

一、概念二叉树（Binary tree）是树形结构的一个重要类型。许多实际问题抽象出来的数据结构往往是二叉树形式，即使是一般的树也能简单地转换为二叉树，而且二叉树的存储结构及其算…

人工智能 2023年6月4日
00144
阿里资深架构师熬夜纯手写的238页微服务容器化开发实战笔记

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0041
python数据处理总结

1.numpy 2.pandas Series： s=pd.Series(np.arange(3)) 输出： 0 0 1 1 2 2 dtype: int32 替换索引列： s=p…

人工智能 2023年7月8日
0043
从 python 编程角度了解 SVM 对线性与非线性数据分类原理

目录一、支持向量机（SVM）二、线性分类 * 1.1 制作原始数据 1.2 训练模型 1.3 绘制决策边界结：本部分完整代码三、非线性数据分类 * 2.1 多项式核函数 &…

人工智能 2023年7月3日
0065
单变量线性回归模型（上）

单变量线性回归即简单线性回归，是一种回归分析方法。回归分析在统计学上用来分析两个或者多个变量之间的相关关系及其程度。比如预测股票，预测产品销量等等。单变量即使用单一…

人工智能 2023年6月17日
0061
2019泰迪杯数据分析技能赛B题-学生校园消费行为分析

任务1.1 1、数据导入 import seaborn as sns import matplotlib.pyplot as plt import numpy as np impo…

人工智能 2023年7月7日
0058
自然语言处理中的Character Embedding技术

在2013年的时候，Tomas Mikolov提出了word embedding技术来更好的表示一个单词的向量，也就是word2vec，在当时也获得了语法和语义相似度上最好的结果。…

人工智能 2023年5月31日
0073
谷歌页面排名算法 – 未完

一、 PageRank 算法原理一个合格的收索引擎，它所具备的最基础的功能便是网页搜索，根据用户给出的关键字查询出最匹配，最能满足用户需求的页面。那么搜索引擎到底应该如何排序才好…

人工智能 2023年5月30日
00103
一元线性回归

目录一、线性回归概念二、一元线性回归拟合 1、最小二乘法 1、基本思想 2、手工推导 3、代码实现 4、运行结果 2、梯度下降法 1、损失函数的构建 2、梯度下降三兄弟 3、梯…

人工智能 2023年6月18日
0096

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas.cut()函数的使用

大家都在看