Pandas之十数据分类

2023年7月8日上午2:11 • 人工智能 • 阅读 58

关注微信公众号：数据研发技术，点击菜单：PY宝典，查看往期精彩内容

Pandas中为数据分类的需求提供专门的类型 category，可以由多种方式创建，并结合dataframe或Series进行使用。

首先生成样本数据：

df = pd.DataFrame(
    {"id": [1, 2, 3, 4, 5, 6]})
df

1. 创建

category可以从不同方式创建，本文以给样本添加分类列，列名为 grade逐一进行说明。

1.1 Series创建

创建一个类型为 category的Series，再将其作为样本数据的 grade列

g = pd.Series(["a", "b", "c", "a","e"], dtype="category")

df["grade"]=g

1.2DataFrame创建

创建一个dataframe，其中 grade类型为 category，然后将两个dataframe进行拼接

df1 = pd.DataFrame(
    {"grade":["a", "b", "c", "a","e",np.nan]},
    dtype="category")
df = pd.concat([df,df1],axis=1)
df

1.3 Categorical创建

使用 pd.Categorical创建分类，再作为 Series放到Dataframe里面。

g = pd.Categorical(
    ["a", "b", "c", "a","e",np.nan],
    categories=["a", "b", "c","e"],
    ordered=False)
df["grade"]=pd.Series(g)

1.4 CategoricalDtype创建

CategoricalDtype是pandas的数据类型对象，指定 dtype='category'时，就等同于 dtype = CategoricalDtype()。包含以下参数：

categories：所有不重复分类值
ordered：设定分类排序，默认值为 False。

创建 CategoricalDtype类型 c，并将 df.grade转为该类型

from pandas.api.types import CategoricalDtype
c = CategoricalDtype(["a", "b", "c","e"])
df["grade"]=pd.Series(["a", "b", "c", "a","e",np.nan])
df.grade = df.grade.astype(c)

2. 使用

2.1 分类的描述性统计

describe可以统计分类数据做描述性统计，返回以下值：

count：统计数量
unique：统计分类值个数
top：出现最多次的值。此处是a。
freq：出现最多次值出现的次数。此处是a出现了2次。

; 2.2 分类CRUD

可以对分类数据进行相应的CRUD操作，逐一进行说明。

2.2.1 增加分类

使用 add_categories增加新的分类

df.grade.cat.add_categories(["d"])

2.2.2 设置分类

使用 set_categories重新设置分类

df.grade = df.grade.cat.set_categories(["a","b","c","d"])
df.grade

2.2.3 删除分类

使用 remove_categories删除分类，删除的值将替换为 np.nan

df.grade = df.grade.cat.remove_categories(["b"])
df.grade

点个关注再走呗👉👉👉

Original: https://blog.csdn.net/idiotion/article/details/120731461
Author: 阿坚87
Title: Pandas之十数据分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677553/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

半监督学习算法在图像识别任务中的应用是什么

问题：半监督学习算法在图像识别任务中的应用是什么？详细介绍半监督学习是一种机器学习方法，能够在标记样本有限的情况下，利用大量的未标记样本进行模型训练。在图像识别任务中，半监督学…

人工智能 2024年1月1日
0037
【老生谈算法】基于matlab时域频域处理的语音信号变声处理系统设计与算法原理（论文+程序源码+GUI图形用户界面）——变声算法

【老生谈算法】基于matlab时域频域处理的语音信号变声处理系统设计与算法原理（论文+程序源码+GUI图形用户界面）大家好，今天给大家介绍基于matlab的语音信号变声处理系统设…

人工智能 2023年5月25日
00154
Python数据分析8——Matplotlib基本绘图

目录一.Matplotlib介绍安装 Matplotlib介绍作用 Matplotlib安装二.使用Matplotlib绘制基本图形 1.折线图折线图绘制折线图特点 2….

人工智能 2023年6月11日
0063
几种不同的CNN网络实现病理性近视眼底视网膜图片的分类与比较

本文为学习PaddlePaddle官方教程后的笔记与总结，数据集及代码参考自PaddlePaddle官方教程。 PaddlePaddle官方教程链接：飞桨PaddlePaddle…

人工智能 2023年7月2日
0049
目标检测 Chapter1 传统目标检测方法

文章目录目标检测问题定义 * 介绍目标检测和图像分类、图像分割的区别目标检测问题方法 * 传统目标检测深度学习目标检测传统 Vs 深度学习传统目标检测综述 * Viol…

人工智能 2023年6月26日
0086
darknet_ros部署yolov3

darknet_ros部署yolov3 简单记录一下基于ros运行yolov3做交通标志(LISA数据集)识别的历程 1.创建工作空间 $ mkdir –p catkin_work…

人工智能 2023年7月20日
0058
RL note

强化学习四元组E = < X , A , P , R > E=E =，x ∈ X x\in X x ∈X是状态，a ∈ A a\in A a ∈A是动作，P : X ×…

人工智能 2023年6月28日
0092
【强力推荐】基于Nvidia-Docker-Linux(Ubuntu18.04)平台：新版OpenCV5.x(C++)联合CUDA11.1(GPU)完美配置视觉算法开发环境

本文主要参考之前配置OpenCV4的方法《AI模型C++部署:【配置OpenCV4++环境】与【三种在 C++ 中部署 TensorFlow 模型的方式】【准备阶段】》，这里只是在…

人工智能 2023年7月19日
0070
tensorflow:Not creating XLA devices, tf_xla_enable_xla_devices not set

人工智能 2023年5月26日
00139
MATLAB/OpenCV–基于棋盘格/对称圆点/非对称圆点–相机标定教程

目录前言标定图像获取一、棋盘格图像二、对称圆点图像三、非对称圆点图像使用MATLAB进行相机标定一、单目相机标定一、基于棋盘格进行标定二、基于对称圆点进行标定三…

人工智能 2023年7月18日
0065
电信保温杯笔记——《统计学习方法（第二版）——李航》第3章 k近邻法

电信保温杯笔记——《统计学习方法（第二版）——李航》第3章 k近邻法论文介绍特点模型结构 * 模型三要素 – 距离度量 + 实例 k值的选择分类决策规则 k近…

人工智能 2023年7月3日
00122
解决Loaded cuDNN version 8400 Could not load library cudnn_cnn_infer64_8.dll. 问题

目录问题描述：可能性1：cuda和cudnn版本不对，但我的cuda11.6,cudnn8.4.0,tensorflow2.8.0版本是匹配的，排除这个可能性可能性2：cud…

人工智能 2023年5月23日
0080
微信支付——微信退款实战教程（Java版）

微信支付之微信申请退款实战（Java版）微信支付业务场景一、注意事项二、微信支付退款案例 * 1.微信退款案例二、微信支付官方说明总结微信支付业务场景当交易发生之后一…

人工智能 2023年6月26日
0073
多级小波分解网络：可解释的时间序列分析

文章信息本周阅读的论文是题目为《Multilevel Wavelet Decomposition Network for Interpretable Time Series An…

人工智能 2023年7月13日
0069
婴儿哭声分类识别实现（准确率99.3%）（深度学习、迁移学习、音频分类、tensorflow）

一、项目概述本文是婴儿哭声分类识别系统化的主体部分，主要解决智能音频分类的问题。基于此目标，本文查找了大量资料，并做了大量实验，最后获得了一个婴儿哭声分类识别准确率相对较高的深度…

人工智能 2023年6月17日
0085
人工晶状体计算——人工智能算法（R语言）

人工晶状体计算——人工智能算法（R语言） 1. 准备数据 2. 建立模型 2.1 方法1 2.2 方法2 准备数据准备数据Data.xlsx，示例如图 Age AL ACD K1…

人工智能 2023年7月14日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31