小白学 Python 数据分析（8）：Pandas 数据透视表（pivot_table）

2023年8月20日下午12:28 • Python • 阅读 74

引言

前文我们介绍了数据分组，今天我们接着介绍一个和数据分组很相似的内容，是数据透视表，从名字上来看是不是感觉没半毛钱关系，实际不然，数据分组是从一维（行）的角度上对数据进行了拆分，如果我们想从二维的角度上（行和列）同时对数据进行拆分呢？

这就需要用到我们今天的主角，数据透视表了。

数据透视表

什么是数据透视表？小编的灵魂画手上线：

图画的不好，各位同学凑合理解。

在 Excel 中，其实也有数据透视表这个东西，在插入中全选数据后点击数据透视表，就会出来这么个东西：

点击确定后会有这么个画面：

具体在 Excel 中如何使用各位同学可以百度查一下，毕竟这里是讲 Python 的地方，关于 Excel 的操作就不多说了，Pandas 的操作和 Excel 的使用还是比较相似的。

在 Pandas 中，实现数据透视表是使用的 pivot_table() 这个方法，首先还是放个官方文档，防止有同学找不到。

官方文档地址： https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html 。

再看下 pivot_table 的语法：
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False) → 'DataFrame'

data: 需要做数据透视的整个表
values: 要汇总的数据项
index: 在数据透视表索引上进行分组的键
columns: 在数据透视表列上进行分组的键
aggfunc: 对 values 的计算类型
fill_value: 空值的填充值
margins: 是否显示合计
dropna: 是否删除缺失，如果未是，则删除缺失数据的那一行
margins_name: 合计类的列名

下面我们来看示例，数据集还是使用上篇文章使用的疫情数据集，先看个简单的示例，我们按照七大洲，看下当前的确诊情况：

import pandas as pd

&#x6570;&#x636E;&#x5BFC;&#x5165;
epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")

df = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index='continents', aggfunc='sum')

print(df)

&#x8F93;&#x51FA;&#x5185;&#x5BB9;
            currentConfirmedCount
continents
&#x4E9A;&#x6D32;                           5458
&#x5176;&#x4ED6;                            699
&#x5317;&#x7F8E;&#x6D32;                            99
&#x5357;&#x7F8E;&#x6D32;                             8
&#x5927;&#x6D0B;&#x6D32;                            14
&#x6B27;&#x6D32;                           2040
&#x975E;&#x6D32;                              3

可以看到，和我们前面的文章中，按照七大洲直接分组的结果是一致的。

这个示例中的 currentConfirmedCount 是我们要统计的值， continents 是我们要拆分的索引， aggfunc 中的 sum 是我们对需要统计的值的统计方式。

这里只是按照一维的方式进行拆分，和分组并没有实际上的区别，接下来我们看从二维的方向上对数据进行拆分：

import pandas as pd

&#x6570;&#x636E;&#x5BFC;&#x5165;
epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")

df1 = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index='continents', columns='provinceName', aggfunc='sum')

print(df1)

&#x8F93;&#x51FA;&#x5185;&#x5BB9;
provinceName   &#x4E39;&#x9EA6;  &#x4E9A;&#x7F8E;&#x5C3C;&#x4E9A;  &#x4EE5;&#x8272;&#x5217;   &#x4F0A;&#x62C9;&#x514B;     &#x4F0A;&#x6717;  ...   &#x963F;&#x66FC;   &#x963F;&#x8054;&#x914B;      &#x97E9;&#x56FD;  &#x9A6C;&#x6765;&#x897F;&#x4E9A;  &#x9ECE;&#x5DF4;&#x5AE9;
continents                                 ...

&#x4E9A;&#x6D32;            NaN   1.0  9.0  19.0  749.0  ...  5.0  16.0  4283.0  11.0  3.0
&#x5176;&#x4ED6;            NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN
&#x5317;&#x7F8E;&#x6D32;           NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN
&#x5357;&#x7F8E;&#x6D32;           NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN
&#x5927;&#x6D0B;&#x6D32;           NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN
&#x6B27;&#x6D32;            3.0   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN
&#x975E;&#x6D32;            NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

[7 rows x 65 columns]

因为内容比较多，大部分的内容被折叠掉了。

在上面这个示例中，我们按照七大洲和国家对整个数据表进行了横纵向的拆分，可以看到，整个表中会有很多空值，拿亚洲那一行举例子，因为在我们的原始数据中只有亚洲只有 26 个国家，所以，理论上亚洲那一行应该只有那 26 个国家有数据，实际上也确实如此。

那么，现在有一个简单的小问题，如果我想要知道每条数据的创建时间（ createTime 字段），这个也能行么？

当然可以， pivot_table 支持在横纵向拆分的时候传入一个数组的，如下，我们在 index 上再加一个新的参数 createTime ：

import pandas as pd

&#x6570;&#x636E;&#x5BFC;&#x5165;
epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")

df2 = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index=['continents', 'createTime'], columns='provinceName', aggfunc='sum')

print(df2)

&#x8F93;&#x51FA;&#x5185;&#x5BB9;
provinceName               &#x4E39;&#x9EA6;  &#x4E9A;&#x7F8E;&#x5C3C;&#x4E9A;  &#x4EE5;&#x8272;&#x5217;   &#x4F0A;&#x62C9;&#x514B;  ...   &#x963F;&#x8054;&#x914B;      &#x97E9;&#x56FD;  &#x9A6C;&#x6765;&#x897F;&#x4E9A;  &#x9ECE;&#x5DF4;&#x5AE9;
continents createTime                           ...

&#x4E9A;&#x6D32;         1583138990000  NaN   NaN  9.0  19.0  ...  16.0  4283.0  11.0  3.0
           1583138991000  NaN   1.0  NaN   NaN  ...   NaN     NaN   NaN  NaN
&#x5176;&#x4ED6;         1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
&#x5317;&#x7F8E;&#x6D32;        1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
           1583138991000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
&#x5357;&#x7F8E;&#x6D32;        1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
           1583138991000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
&#x5927;&#x6D0B;&#x6D32;        1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
&#x6B27;&#x6D32;         1583138990000  3.0   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
           1583138991000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN
&#x975E;&#x6D32;         1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

[11 rows x 65 columns]

这样，我们就得到了一个新的按照三个规则分别进行横纵向拆分的 DataFrame ，当然，这个 DataFrame 目前并不是一个标准的 DataFrame ，只需要最后一步，使用 reset_index() 重置一下索引就可以了，这里小编就不演示了。

今天的内容比较短，但是对于第一次接触的同学来讲并不是很好理解，建议多动手找个数据集试试看，或者先在 Excel 中进行尝试后再使用 Python 进行理解。

在数据透视表中，获得数据透视表并不难，难点是在于我们想要构建怎么样的新的数据表，我们要真正要获取什么样的数据。

Original: https://blog.csdn.net/weixin_44020984/article/details/125534182
Author: 程序员Caelan
Title: 小白学 Python 数据分析（8）：Pandas 数据透视表（pivot_table）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754811/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

有没有想一场甜甜的恋爱？python带你采集相亲网站数据~

Original: https://www.cnblogs.com/Qqun261823976/p/16562373.htmlAuthor: python倩Title: 有没有想一…

Python 2023年11月1日
0040
pandas筛选与替换

需求：在表格中，按照相应的条件，把数据筛选出来，然后把筛选出来的数据进行赋值后，再放回原来的表格。一、excel表格筛选要实现这样的功能，在excel2016之前是不容易的，…

Python 2023年8月17日
0050
前端开发基础（HTML基础）

前端开发基础 目的：开发一&#x4E2A…

Python 2023年8月11日
0026
Python 爬取 42 年高考数据，告诉你高考为什么这么难

Original: https://www.cnblogs.com/123456feng/p/16092390.htmlAuthor: 蚂蚁ailingTitle: Python …

Python 2023年5月24日
0053
浅谈scrapy去重机制

前言最近出现了两个问题 url的参数或者post的数据中有随机值和签名，比如 https://www.baidu.com?id=1&nonce=xxxxxxxx&…

Python 2023年10月1日
0060
详解Native Memory Tracking之追踪区域分析

摘要：本篇图文将介绍追踪区域的内存类型以及 NMT 无法追踪的内存。 Compiler Compiler 就是 JIT 编译器线程在编译 code 时本身所使用的内存。查看 NMT…

Python 2023年10月15日
0062
Pytorch 自定义激活函数前向与反向传播 sigmoid

文章目录 * – Sigmoid – + 公式 + 求导过程 + 优点： + 缺点： + 自定义Sigmoid + 与Torch定义的比较 + 可视化 im…

Python 2023年8月31日
0044
windows10配备vscode爬虫环境，选用bs4和conda

参考的是这位用linux的大神https://www.youtube.com/watch?v=RrQQEhlFt5E&t=665s；首先是第一步创建你自己的文件夹，这里…

Python 2023年9月8日
0066
Pandas第三部分Day5练习题

第五次课作业（1）读取数据。读取之前作业保存的”酒店数据1.xlsx” （2）将”类型”和”名字”设置为层…

Python 2023年8月18日
0053
多语言通信基础 01 rpc

什么是rpc RPC(Remote Procedure Call) 远程过程调用，简单理解就是一个节点请求另一个节点提供服务。对应rpc的是本地过程调用，函数调用是最常见测本地过…

Python 2023年8月4日
0048
cookie中各参数含义

XName：该Cookie的名称。一旦创建，该名称便不可更改。 Value：该Cookie的值。如果值为Unicode字符，需要为字符编码。如果值为二进制数据，则需要使用BASE6…

Python 2023年5月24日
0056
太空射击python

import random import pygame from os import path img_dir = path.join(path.dirname(__file__)…

Python 2023年11月1日
0023
MySQL高可用之MHA架构企业实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月28日
0027
【前端必会】webpack loader 到底是什么

概述 webpack的使用中我们会遇到各种各样的插件、loader。 webpack的功力主要体现在能理解各个插件、loader的数量上。理解的越多功力越深 loader是什么呢？…

Python 2023年10月20日
0042
Python人员信息管理系统（简直期末人福音）

1. 涉及模块 datetime os random sys PyQt5 运行效果支持功能：添加信息修改信息删除信息查询信息文件存储数据，每次运行都会加载显示之前的…

Python 2023年6月12日
0092
python pandas获取行号_pandas dataframe获取行号并添加到lis

假设我们有一个panda数据帧，它有三个特性，如下所示。在每一行代表一个客户，每一列代表这个客户的一些特性。在我想得到行号并将它们添加到列表中，或者根据它们的特征值不将它们添加…

Python 2023年8月8日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

小白学 Python 数据分析（8）：Pandas 数据透视表（pivot_table）

数据透视表

大家都在看