40_Pandas中crosstab进行交叉制表（计算每个类别的出现次数和频率）

2023年8月7日下午3:49 • Python • 阅读 76

可以使用pandas.crosstab（）函数完成交叉表分析。可以为每个类别的分类数据（分类数据，定性数据）计算样本数（出现次数/频率）。

如果要计算每个类别的平均值而不是出现次数，请使用数据透视表pandas.pivot_table（）。
这里，

pandas.crosstab（）函数的基本用法
计算每个类别的小计/总计：参数margins
标准化整个/行/列：参数normalize
将予以描述。将以泰坦尼克号的生存信息数据为例。

import pandas as pd

df = pd.read_csv('./data/40/train.csv', index_col=0).drop(['Name', 'Ticket', 'SibSp', 'Parch'], axis=1)

print(df.head())

在第一个参数索引中指定pandas.DataFrame列（= pandas.Series）作为结果行标题，在第二个参数列中指定pandas.DataFrame列（= pandas.Series）作为结果列标题。

注意,与pandas.pivot_table（）不同，它不是由pandas.DataFrame对象及其列名指定的。

print(pd.crosstab(df['Sex'], df['Pclass']))

pandas.crosstab（）函数返回pandas.DataFrame。

print(type(pd.crosstab(df['Sex'], df['Pclass'])))

还可以在参数索引和列中指定pandas.Series的列表。结果以多索引（分层索引）pandas.DataFrame的形式返回。

print(pd.crosstab([df['Sex'], df['Survived']], [df['Pclass'], df['Embarked']]))

请参阅以下文章，了解如何选择多索引pandas.DataFrame的行和列。

如果参数margin为True，则可以计算每个类别的小计和总计。

print(pd.crosstab([df['Sex'], df['Survived']], [df['Pclass'], df['Embarked']],
                  margins=True))

可以通过参数margins_name指定小计/总行标签/列标签。默认为”all”。

print(pd.crosstab([df['Sex'], df['Survived']], [df['Pclass'], df['Embarked']],
                  margins=True, margins_name='Total'))

指定参数normalize时，可以对整个，行和列的结果进行1归一化（归一化）。如果normalize = True或normalize =’all’，则将其标准化以使总数为1。

print(pd.crosstab(df['Sex'], df['Pclass'], margins=True, normalize=True))

如果normalize =’index’，则将其标准化，以使每行的总数为1。

print(pd.crosstab(df['Sex'], df['Pclass'], margins=True, normalize='index'))

如果normalize =’columns’，则将其标准化，以使每列的总数为1。

print(pd.crosstab(df['Sex'], df['Pclass'], margins=True, normalize='columns'))

请注意，如果在列表中为参数margins = True和参数索引和列指定了多列，则如果在指定方向上对多索引进行标准化，则会发生错误。


print(pd.crosstab(df['Sex'], [df['Pclass'], df['Embarked']],
                  margins=True, normalize='index'))

如果margins = False（默认值），则没有问题。

print(pd.crosstab(df['Sex'], [df['Pclass'], df['Embarked']], normalize=True))

print(pd.crosstab(df['Sex'], [df['Pclass'], df['Embarked']], normalize='index'))

print(pd.crosstab(df['Sex'], [df['Pclass'], df['Embarked']], normalize='columns'))

Original: https://blog.csdn.net/qq_18351157/article/details/115627992
Author: 饺子大人
Title: 40_Pandas中crosstab进行交叉制表（计算每个类别的出现次数和频率）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740341/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第三章 Jinja2模板

在前面的实例中,视图函数的主要作用是生成请求的响应,这是最简单请求.实际上,视图函数有两个作用: 处理业务逻辑返回响应内容在大型应用中,把业务逻辑和表现内容放在一起,会增加代码…

Python 2023年8月6日
0048
NumPy⾼级

导⼊numpy模块 import numpy as np 定&…

Python 2023年8月27日
0044
【Vue+flask+mysqls+ubantu（nginx）测试工具平台搭建】（简单版，测试开发入门）

一、整体内容介绍1、测试工具平台功能介绍使用前后端分离的形式，前端使用vue2.0框架，后端使用python flask框架，数据库使用mysql（使用SQLAlchmy框架操作数…

Python 2023年8月13日
0064
python 提取dataframe中某一列为list_Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index…

我是一个python新手，问题比较初级，希望大家不要嘲笑我我用pandas读取某个CSV文件(包含两部分，一列时间，五列数据)，我想试图将DataFrame变为以时间为index…

Python 2023年8月16日
0067
数据可视化之美-动态图绘制【补充】（以Python为工具）

前面的作品可见：数据可视化之美-动态图绘制（以Python为工具）最近中了绘制动态图的毒，根本停不下来。该篇博文是对上篇博文补充一些案例，并阐述一些绘图的优化。 ; 绘动图之前…

Python 2023年9月6日
0076
Unity3D（2021版）打包成webgl和前端vue交互

1.unity部分在assets目录的Plugins文件夹新建一个文档文字随便命名，后缀名改为xxxx.jslib 在里面写入这样一段代码 mergeInto(LibraryMa…

Python 2023年9月30日
0028
数据处理任务——知识点总结

前言如何使用pandas处理Excel表格数据呢？在生活和科研任务中，我们经常需要处理大量的Excel数据。面对几W条数据，甚至几十万条数据，在Excel中操作是远远不够的。这…

Python 2023年8月7日
0046
conda

介绍 Conda是一个第三方包和环境管理的工具。目前是Ananconda默认的 Python包和 环境&a…

Python 2023年9月8日
0053
pygame之draw模块

图形绘制——pygame.draw模块 1.直线的绘制 pygame.draw.line(Surface,color,start_pos,end_pos,width=1) pyga…

Python 2023年9月23日
0040
小徐科研日记——深度学习视频分类方法

一、主要方法视频分类指将一段视频分类到预先制定类别集合中的某一个或多个。视频由空间维度和时间维度组成。包括静态图像特征，运动特征，音频特征，外部特征等。目前主要的方法有：双流网络…

Python 2023年9月16日
0047
python中的matplot用法_Python实操：手把手教你用Matplotlib把数据画出来

作者：迈克尔·贝耶勒(Michael Beyeler) 如需转载请联系大数据(ID：hzdashuju) 01 引入 Matplotlib 如果已安装Anaconda Python…

Python 2023年9月5日
0054
djiango连接本地mysql的避坑1

DATABASES = {‘default’: {‘ENGINE’: ‘django.db.backends.mysql…

Python 2023年8月5日
0047
python-容器序列类型

点击标题进行跳转容器序列类型列表是有序集合，无定长，能存储任意数量和类型的数据，语法为： [元素1, 元&am…

Python 2023年11月3日
0042
If using all scalar values, you must pass an index

Data[5].choice是对从excel表读出的dataframe某一列的切片，目标是用它们组成新的dataframe并按某一列排序，构建新dataframe的过程中遇到如下报…

Python 2023年8月18日
0056
Google earth engine 中的投影、重采样、尺度

本文主要翻译自下述GEE官方帮助https://developers.google.com/earth-engine/guides/scalehttps://developers….

Python 2023年6月3日
00100
fixture

fixture的基本使用前置后置条件 @pytest.fixture # setup,teardown def init(): print(" 作用域为测试函数的 **…

Python 2023年9月14日
0039

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

40_Pandas中crosstab进行交叉制表（计算每个类别的出现次数和频率）

大家都在看