python astype category_利用Python进行数据分析(11)-高阶应用category

2023年8月7日下午9:43 • Python • 阅读 48

本文中介绍的是pandas的高阶应用-分类数据category

image

分裂数据Categorical

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

使用背景和目标

一个列中经常会包含重复值，这些重复值是一个小型的不同值的集合。

unique()和value_counts()能够从数组中提取到不同的值并分别计算它们的频率

values = pd.Series([“apple”,”orange”,”apple”,”apple”] * 2)

values

0 apple

1 orange

2 apple

3 apple

4 apple

5 orange

6 apple

7 apple

dtype: object

pd.unique(values) # 查看不同的取值情况

array([‘apple’, ‘orange’], dtype=object)

pd.value_counts(values) # 查看每个值的个数

apple 6

orange 2

dtype: int64

维度表

维度表包含了不同的值，将主要观测值存储为引用维度表的整数键

values = pd.Series([0,1,0,0] * 2)

dim = pd.Series([“apple”,”orange”])

values

0 0

1 1

2 0

3 0

4 0

5 1

6 0

7 0

dtype: int64

dim

0 apple

1 orange

dtype: object

take方法-分类(字典编码展现)

不同值的数组被称之为数据的类别、字典或者层级

dim.take(values)

0 apple

1 orange

0 apple

1 orange

0 apple

dtype: object

使用Categorical类型

fruits = [“apple”,”orange”,”apple”,”apple”] * 2

N = len(fruits)

df = pd.DataFrame({“fruit”:fruits, # 指定每列的取值内容

“basket_id”:np.arange(N),

“count”:np.random.randint(3,15,size=N),

“weight”:np.random.uniform(0,4,size=N)},

columns=[“basket_id”,”fruit”,”count”,”weight”]) # 4个属性值

image.png

df[“fruit”]

0 apple

1 orange

2 apple

3 apple

4 apple

5 orange

6 apple

7 apple

Name: fruit, dtype: object

如何生成Categorical实例

fruit_cat = df[“fruit”].astype(“category”) # 调用函数改变

fruit_cat # 变成pd.Categorical的实例

0 apple

1 orange

2 apple

3 apple

4 apple

5 orange

6 apple

7 apple

Name: fruit, dtype: category

Categories (2, object): [apple, orange]

c = fruit_cat.values

[apple, orange, apple, apple, apple, orange, apple, apple]

Categories (2, object): [apple, orange]

两个属性：categories + codes

print(c.categories)

print(“—–“)

print(c.codes)

Index([‘apple’, ‘orange’], dtype=’object’)

Original: https://blog.csdn.net/weixin_35899510/article/details/112905821
Author: BLACK枪骑兵
Title: python astype category_利用Python进行数据分析(11)-高阶应用category

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740959/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用 Docker 部署 MySql

前言虽然不建议将需要持久化的数据保存在容器中，但是自己平时做个小项目玩玩还是没什么问题的。拉取镜像 docker pull mysql 不加 tag 的话默认从 DockerH…

Python 2023年6月12日
0079
Python控制台输出俄罗斯方块移动和旋转

今天填一个坑，俄罗斯方块！！俄罗斯方块的移动不难实现，但是老师给定了字典数据结构，旋转就不太容易实现，当然也可以用list嵌套list来做。今天把旋转做出来了，刚好整理一下，把之…

Python 2023年9月21日
0064
学了Python之后，都能干点啥？

Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任,这样说应该比较好理解吧。当下Python有多火我不再赘述，Py…

Python 2023年8月9日
0047
使用conda，无法在一个环境下同时安装最新pytorch和最新opencv，因为torchvision=0.10.0和opencv＞=4.2冲突

本人 python=3.8，今天装环境弄了很久，发现使用 conda install 无法同时安装 pytorch和opencv conda install pytorch tor…

Python 2023年9月9日
0047
使用supervisor实现后台管理进程

[unix_http_server]file=/tmp/supervisor.sock ; socket文件的路径，supervisorctl用XML_RPC和supervisor…

Python 2023年5月24日
0069
个人学期总结及Python+Flask+MysqL的web建设技术过程

Python+Flask+MysqL的web建设技术过程 1 建立flask框架项目首先是flask安装（这里默认已经安装好python了），这里我们学习的项目只是简单的用pip…

Python 2023年8月15日
0064
scrapy爬虫案例—–赶集网

文章目录 * – 1.蜘蛛侠思路： – 2.构造爬虫及代码解读 – + (1)settings.py + (2)ganji.py + (3)ru…

Python 2023年10月1日
0039
53_Pandas中的条件替换值（where, mask）

我会解释如何在pandas中根据条件赋值。虽然它不使用 if 语句，但它可以处理条件分支，如 if then … 或 if then … else &#82…

Python 2023年8月16日
0046
拯救pandas计划（24）——数据框形状的转换：列转行，行转列

拯救pandas计划（24）——数据框形状的转换：列转行，行转列 * – / 数据需求 – / 需求拆解 – / 总结最近发现周围的很多小伙…

Python 2023年8月17日
0054
使用python中的pygame实现飞机大战（二）

使用python中的pygame实现飞机大战（二）前言接上篇文章目录使用python中的pygame实现飞机大战（二）前言 3、指示器面板 * （1）最高分加载、得分算法…

Python 2023年9月23日
0044
零基础用Android Studio实现简单的本地视频播放器

用Android Studio的VideoView组件实现简单的本地视频播放器 * – 一、创建Android Studio项目 – 二、在界面布局文件ac…

Python 2023年10月9日
0096
Pytest接口自动化测试框架搭建模板

项目目录结构 api – 模仿PO模式, 抽象出页面类, 页面类内包含页面所包含所有接口, 并封装成方法可供其他模块直接调用 config – 配置文件目录 data – 测试数据…

Python 2023年9月11日
0036
Tensor的基本用法示例，零基础适用

1.tensor数据类型是整个pytorch的基础，有点像numpy中的array import torch import numpy as np list_1 = [1,2,3,…

Python 2023年8月29日
0038
无监督学习-kmeans聚类算法及手动实现

聚类 K-means的应用场景 sklearn实现K-means * 使用鸢尾花数据进行聚类聚类结果查看三个中心点使用K-means进行图片分割 * 显示原图像 RGB分布 …

Python 2023年9月1日
0035
RecursionError: maximum recursion depth exceeded

python 版本3.6.4 gevent 1.5.0 gunicorn 20.1.0 RecursionError: maximum recursion depth exceed…

Python 2023年5月24日
0060
Python抓取会员电影，会员自由不是梦

Original: https://www.cnblogs.com/123456feng/p/16173934.htmlAuthor: 蚂蚁ailingTitle: Python抓…

Python 2023年5月24日
0054

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python astype category_利用Python进行数据分析(11)-高阶应用category

大家都在看