Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】

2023年7月7日上午8:11 • 人工智能 • 阅读 96

交叉表与透视表的作用

交叉表：计算一列数据对于另外一列数据的分组个数
透视表：指定某一列对另一列的关系

一、透视表

透视表是一种可以对数据动态排布并且分类汇总的表格格式。

透视表： 透视表是将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数

data.pivot_table(）
DataFrame.pivot_table([], index=[])

比如： pd.pivot_table(data=df, index='date', values='values', aggfunc=np.sum) 以 date 列作为行索引对values列进行分组聚合（sum）操作。

import numpy as np
import pandas as pd

date = ['2017-5-1', '2017-5-2', '2017-5-3'] * 3
rng = pd.to_datetime(date)
df = pd.DataFrame({'date': rng,
                   'key': list('abcdabcda'),
                   'values': np.random.rand(9) * 10})
print("df = \n", df)
print('-' * 200)

x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum)
print("x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum) = \n", x1)
print('-' * 200)

x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum)
print("x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum) = \n", x2)
print('-' * 200)

x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len)
print("x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len) = \n", x3)
print('-' * 200)

打印结果：

df =
         date key    values
0 2017-05-01   a  6.331764
1 2017-05-02   b  0.139295
2 2017-05-03   c  7.775829
3 2017-05-01   d  0.366474
4 2017-05-02   a  9.533083
5 2017-05-03   b  0.671094
6 2017-05-01   c  5.951416
7 2017-05-02   d  5.920482
8 2017-05-03   a  6.119202
x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum) =
                   values
date       key
2017-05-01 a    6.331764
           c    5.951416
           d    0.366474
2017-05-02 a    9.533083
           b    0.139295
           d    5.920482
2017-05-03 a    6.119202
           b    0.671094
           c    7.775829

Process finished with exit code 0

二、交叉表

交叉表： 交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表)

pd.crosstab(value1, value2)

import numpy as np
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 2, 2],
                   'B': [3, 3, 4, 4, 4],
                   'C': [1, 1, np.nan, 1, 1]})
print("df = \n", df)
print('-' * 200)

x1 = pd.crosstab(df['A'], df['B'])
print("pd.crosstab(df['A'], df['B']) = \n", x1)
print('-' * 200)

x2 = pd.crosstab(df['A'], df['B'], normalize=True)
print("x2 = pd.crosstab(df['A'], df['B'], normalize=True) = \n", x2)
print('-' * 200)

x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum)
print("x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum) = \n", x3)
print('-' * 200)

x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True)
print("x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True) = \n", x4)
print('-' * 200)

打印结果：

`python
df =
A B C
0 1 3 1.0
1 2 3 1.0
2 2 4 NaN
3 2 4 1.0
4 2 4 1.0
x2 = pd.crosstab(df[‘A’], df[‘B’], normalize=True) =
B 3 4
A
1 0.2 0.0
2 0.2 0.6
x4 = pd.crosstab(df[‘A’], df[‘B’], values=df[‘C’], aggfunc=np.sum, margins=True) =
B 3 4 All
A
1 1.0 NaN 1.0
2 1.0 2.0 3.0
All 2.0 2.0 4.0

Original: https://blog.csdn.net/u013250861/article/details/124088930
Author: u013250861
Title: Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675824/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

腾讯云ubuntu20服务器安装tensorflow以及使用docker运行tensorflow

ubuntu安装tensorflow 腾讯云的ubuntu服务器在使用 pip下载时默认使用腾讯云自己的镜像源进行下载，在默认python3的情况下直接使用命令 sudo pip …

人工智能 2023年5月24日
0085
logistic回归——PYTHON实现

logistic回归——PYTHON实现概述： logistic回归又称logistic回归分析，是一种线性回归模型。logistic回归应用最广泛的是处理二分类问题。比如…

人工智能 2023年6月16日
00129
机器学习应用——监督学习（上）（实例:人体运动状态预测&人体运动状态预测&房价与房屋尺寸关系的线性拟合与非线性拟合&交通流量预测）

前言机器学习应用博客中，将核心介绍三大类学习，即：无监督学习、监督学习、强化学习。本篇将简要介绍：1.监督学习概念（最常应用场景：分类和回归）2.分类——k近邻分类器、决策树、…

人工智能 2023年7月1日
0087
ML实战：手写K-means算法

写在前面：写了也有几十篇博客了，这次是第一次使用 markdown编辑器编写文档，虽然 markdown编辑器的使用不是那么容易。尤其是html标签和文本画图片的插入有些麻烦。不过…

人工智能 2023年5月31日
00137
Windows下使用Darknet训练自己的数据集（模型：yolov4-tiny、数据集：垃圾分类）

本文章主要介绍如何使用Darknet在windows下训练自己的数据集，其中模型使用的是yolov4-tiny，数据集使用的是自己垃圾分类数据集（需要的自取：在我上传的资源中有）P…

人工智能 2023年7月1日
0093
项目:招聘网站信息(获取数据+数据分析+数据可视化)

在本次项目中，使用到的第三方库如下: import requests import time import random import json import pandas imp…

人工智能 2023年6月11日
0075
目标检测算法——YOLOv5/YOLOv7改进之结合CBAM

>>>深度学习Tricks，第一时间送达<<< 目录（一）前沿介绍（二）YOLOv5/YOLOv7改进之结合CBAM 1.配置common….

人工智能 2023年6月29日
0061
深度学习开源数据集——自动驾驶、目标检测、人脸识别、文本检测、图像分类

前言在深度学习中，如果没有数据集，就无法训练模型，所以数据是根本，下面列出几个常用数据集。想要更多数据集，可以去这个地址：https://www.cvmart.net/dataS…

人工智能 2023年6月10日
0074
R语言对dataframe行数据进行筛选（row selection）、筛选数据行、基于条件筛选数据行

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0070
半监督学习之伪标签(pseudo label,entropy minimization,self-training)

1.什么是伪标签伪标签方法是一种同时从未标记数据和标记数据中学习的监督范式。将具有最大预测概率的类作为伪标签。形式化后等价于熵正则化（Entropy Regularization…

人工智能 2023年6月17日
0090
【矩阵论】3. 矩阵运算与函数——矩阵函数的计算

矩阵论1. 准备知识——复数域上矩阵,Hermite变换)1.准备知识——复数域上的内积域正交阵1.准备知识——Hermite阵，二次型，矩阵合同，正定阵，幂0阵，幂等阵，矩阵的秩…

人工智能 2023年6月29日
0084
史上最全面聊天机器人总结（图灵、思知、小i、小微）

背景翻了下自己在2020年发的文章（https://blog.csdn.net/xmcy001122/article/details/103921991），主要是对聊天机器人进行…

人工智能 2023年5月27日
00385
SpringMVC

MVC简介 MVC分别是 模型（Model）、 视&#x56F…

人工智能 2023年6月29日
0051
紧凑的深度特征表示

紧凑的深度表示：在计算机视觉中，来自深度神经网络的视觉嵌入得到了广泛的应用。为了实现紧凑表示和判别表示，现有的方法可以分为两类。第一个分类是在训练前设计小嵌入层的深度模型，其他分类…

人工智能 2023年6月2日
00130
指纹图谱相似度评价软件_知识图谱总结

引自HTLiu：推荐系统结合知识图谱简单总结推荐系统简介一句话来介绍的话，就是通过分析历史数据，来给用户推荐可能会喜欢/购买的商品，这里面的核心就是用户 (User) 和…

人工智能 2023年6月1日
0069
NeurIPS 2021 ｜ Twins：重新思考高效的视觉注意力模型设计

Twins 是美团和阿德莱德大学合作提出的视觉注意力模型，相关论文已被 NeurIPS 2021 会议接收。本文主要讲述 Twins 解决的难点、设计和实现思路，以及在美团场景的探…

人工智能 2023年7月14日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】

大家都在看