Pandas-高级处理(七):透视表(pivot_table)【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表(crosstab)【统计频率】

交叉表与透视表的作用

  • 交叉表:计算一列数据对于另外一列数据的分组个数
  • 透视表:指定某一列对另一列的关系

一、透视表

透视表是一种可以对数据动态排布并且分类汇总的表格格式。

透视表: 透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数

  • data.pivot_table()
  • DataFrame.pivot_table([], index=[])

比如: pd.pivot_table(data=df, index='date', values='values', aggfunc=np.sum) 以 date 列作为行索引对values列进行分组聚合(sum)操作。

import numpy as np
import pandas as pd

date = ['2017-5-1', '2017-5-2', '2017-5-3'] * 3
rng = pd.to_datetime(date)
df = pd.DataFrame({'date': rng,
                   'key': list('abcdabcda'),
                   'values': np.random.rand(9) * 10})
print("df = \n", df)
print('-' * 200)

x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum)
print("x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum) = \n", x1)
print('-' * 200)

x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum)
print("x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum) = \n", x2)
print('-' * 200)

x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len)
print("x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len) = \n", x3)
print('-' * 200)

打印结果:

df =
         date key    values
0 2017-05-01   a  6.331764
1 2017-05-02   b  0.139295
2 2017-05-03   c  7.775829
3 2017-05-01   d  0.366474
4 2017-05-02   a  9.533083
5 2017-05-03   b  0.671094
6 2017-05-01   c  5.951416
7 2017-05-02   d  5.920482
8 2017-05-03   a  6.119202
x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum) =
                   values
date       key
2017-05-01 a    6.331764
           c    5.951416
           d    0.366474
2017-05-02 a    9.533083
           b    0.139295
           d    5.920482
2017-05-03 a    6.119202
           b    0.671094
           c    7.775829

Process finished with exit code 0

二、交叉表

交叉表: 交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表)

  • pd.crosstab(value1, value2)
import numpy as np
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 2, 2],
                   'B': [3, 3, 4, 4, 4],
                   'C': [1, 1, np.nan, 1, 1]})
print("df = \n", df)
print('-' * 200)

x1 = pd.crosstab(df['A'], df['B'])
print("pd.crosstab(df['A'], df['B']) = \n", x1)
print('-' * 200)

x2 = pd.crosstab(df['A'], df['B'], normalize=True)
print("x2 = pd.crosstab(df['A'], df['B'], normalize=True) = \n", x2)
print('-' * 200)

x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum)
print("x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum) = \n", x3)
print('-' * 200)

x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True)
print("x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True) = \n", x4)
print('-' * 200)

打印结果:

`python
df =
A B C
0 1 3 1.0
1 2 3 1.0
2 2 4 NaN
3 2 4 1.0
4 2 4 1.0
x2 = pd.crosstab(df[‘A’], df[‘B’], normalize=True) =
B 3 4
A
1 0.2 0.0
2 0.2 0.6
x4 = pd.crosstab(df[‘A’], df[‘B’], values=df[‘C’], aggfunc=np.sum, margins=True) =
B 3 4 All
A
1 1.0 NaN 1.0
2 1.0 2.0 3.0
All 2.0 2.0 4.0

Original: https://blog.csdn.net/u013250861/article/details/124088930
Author: u013250861
Title: Pandas-高级处理(七):透视表(pivot_table)【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表(crosstab)【统计频率】

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/675824/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球