必知必会，这4种 Python 数据透视函数一定要掌握

2023年7月6日下午2:29 • 人工智能 • 阅读 62

大家好，今天和大家分享 Pandas中四种有关数据透视的通用函数，在数据处理中遇到这类需求时，能够很好地应对。 喜欢记得收藏、关注、点赞。

注：完整资料、技术交流文末获取

pandas.melt()

melt函数的主要作用是将 DataFrame从宽格式转换成长格式。

pandas.melt(frame,id_vars=None, value_vars=None, var_name=None, value_name=’value’, col_level=None, ignore_index=True)

参数含义

id_vars：tuple, list, or ndarray，可选，作为标识符变量的列
value_vars：tuple, list, or ndarray, 可选，透视列，如果未指定，则使用未设置为id_vars的所有列。
var_name：scalar，默认为None，使用variable作为列名
value_name：标量, default ‘value’，value列的名称
col_level：int or str, 可选，如果列是多层索引，melt将应用于指定级别
ignore_index：bool, 默认为True，相当于从0开始重新排序。如果为False，则保留原来的索引，索引标签将出现重复。

看个例子先：

import pandas as pd

df = pd.DataFrame(
    {'地区': ['A', 'B', 'C'],
     '2020': [80, 60, 40],
     '2021': [800, 600, 400],
     '2022': [8000, 6000, 4000]})

pd.melt(df,
        id_vars=['地区'],
        value_vars=['2020', '2021', '2022'])

df = pd.melt(df,
             id_vars=['地区'],
             value_vars=['2020', '2021', '2022'],
             var_name='年份',
             value_name='销售额')

pandas.pivot()

pivot函数主要用于通过索引及列值对 DataFrame重构。

pandas.pivot(data, index=None, columns=None, values=None)

参数含义

data：DataFrame对象
index：可选，用于新DataFrame的索引
columns：用于创建新DataFrame的列
values：可选，用于填充新DataFrame的值

用上面的结果举个例子：

df.pivot(index='年份',
         columns='地区',
         values='销售额')

df.pivot(index='年份', columns='地区')['销售额']

添加一个销量列，同时统计两个 values，这样会使 columns变成多层索引。

df['销量'] = df['销售额']/10
df.pivot(index='年份',
         columns='地区',
         values=['销售额', '销量'])

添加一个月份列，指定两个 index。

df['月份'] = [f'{m}月' for m in range(1, 4)]*3
df.pivot(index=['年份', '月份'],
         columns='地区',
         values='销售额')

使用 pivot时需要注意，当 index， columns出现重复时，会导致 ValueError。

df = pd.DataFrame(
        {'地区': ['A', 'A', 'B', 'C'],
         '年份': ['2020', '2020', '2021', '2022'],
         '销售额': [800, 600, 400, 200]})

df.pivot(index='地区',
         columns='年份',
         values='销售额')

pandas.pivot_table()

这个函数之前已经单独讲过了，相比于 pivot， pivot_table的灵活性更强。

pandas.crosstab()

crosstab函数计算两个(或多个)数组的简单交叉表。默认情况下计算元素的频率表。

pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name=’All’, dropna=True, normalize=False)

看下例子：
这里默认计算频率。

import numpy as np
array_A = np.array(["one", "two", "two", "three", "three", "three"], dtype=object)
array_B = np.array(["Python", "Python", "Python", "C", "C", "C"], dtype=object)
array_C = np.array(["Y", "Y", "Y", "N", "N", "N"])
pd.crosstab(array_A,
           [array_B, array_C],
           rownames=['array_A'],
           colnames=['array_B', 'array_C'])

新建一个 values列，计算总和。

array_D = np.array([1, 4, 9, 16, 25, 36])
pd.crosstab(index=array_A,
            columns=[array_B, array_C],
            rownames=['array_A'],
            colnames=['array_B', 'array_C'],
            values=array_D,
            aggfunc='sum')

技术交流

目前开通了技术交流群，群友已超过 3000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号： dkl88191，备注：来自CSDN
方式③、微信搜索公众号： Python学习与数据挖掘，后台回复：加群

Original: https://blog.csdn.net/qq_34160248/article/details/125229508
Author: Python数据挖掘
Title: 必知必会，这4种 Python 数据透视函数一定要掌握

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674135/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

win10上安装opencv详细教程（超详细！！！小白专用！！！）

关于opencv： OpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。 …

人工智能 2023年5月28日
0082
人工智能分类算法评价标准

真正例TP(true positive) 假正例FP(false positive) 真反例TN(true negative) 假反例FN(false negative) 二分类 …

人工智能 2023年7月2日
0062
【论文阅读】【3d目标检测】Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0071
【OpenCV】双目相机测距及其深度恢复原理及其算法流程

1. 数学模型 ; 2.整体流程获取标定与图像数据==>stereoRectify==>initUndistortRectifyMap==>remap==&gt…

人工智能 2023年6月19日
0082
【情感识别】基于matlab PNN概率神经网络语音情感识别【含Matlab源码 544期】

⛄一、PNN概率神经网络语音情感识别简介１语音情感识别系统在语音情感识别系统中，记录的语料库包含了五个角色的五种不同的情感，即快乐、恐惧、悲伤、愤怒和中立。同时，将语料库分为训…

人工智能 2023年5月27日
0083
cv2的简单使用（持续更新）

1 cv2读取图片 2 cv2显示图片 2.1 基本显示 2.2 让窗口可以拖动、放大缩小 99 一些cv2的报错解决 99.1 在pycharm中导入cv2后没有代码提示（但是可…

人工智能 2023年7月19日
0092
三分钟：极速体验JAVA版目标检测(YOLO4)

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos 本篇概览检测照片中的物体，用Ja…

人工智能 2023年7月11日
00239
Node.JS中调用JShaman，加密JS代码

在Node.JS环境中，调用JShaman的WebAPI接口，对JS代码进行混淆加密。效果如下：代码： //js代码 var js_…

人工智能 2023年6月26日
0083
C++文件操作

1.创建文件流创建文件流需要包含头文件 #include 创建文件输入流对象 ofstream file; 创建文件输出流对象 ifstream file; 2.写入文本文件 1…

人工智能 2023年7月30日
0055
Java的自动装箱与拆箱详细分析

Java的自动装箱与拆箱详细分析 1. 既然说是装箱与拆箱，那么到底是装的什么，拆的什么？装箱：将基本数据类型封装起来，用他对应的引用类（包装类）来处理拆箱：就是把引用类里面的…

人工智能 2023年6月26日
0074
新的优化器 Adan

论文题目：Adan: Adaptive Nesterov Momentum Algorithm forFaster Optimizing Deep Models作者单位：Sea A…

人工智能 2023年7月28日
0066
数据科学学习之统计实验的设计、检验与分析

专栏/前文链接本文为《数据分析与数据科学》专栏中的第三篇，专栏的链接在这里. 第一篇博文的链接在这里. 第二篇博文的链接在这里. 希望本文与此专栏能够对接触，学习和研究数据科学的…

人工智能 2023年7月16日
0072
OpenCV卡尺工具2

1. 卡尺区域的生成及绘制，基于GDI+完成图形绘制实现代码： else if(regionEx?.Region is SectorF){SectorF sectorF=(Sec…

人工智能 2023年7月19日
0043
跨时横截面的混合：简单面板数据方法

1. 独立混合横截面数据在不同时点从一个大总体中随机抽样得到的随机样本。当其他条件都保持不变时，由于该数据都是由独立抽取的观测所构成，不同观测误差项的相关性被排除。但在不…

人工智能 2023年6月11日
0081
【TL第二期】动手学数据分析-第一章数据基本操作

文章目录 * – + * 第一章 * – 第一节数据载入与初步观察 – + 0 导库 + 1 载入数据 + 2 查看数据基本信息 &#8211…

人工智能 2023年7月7日
0077
中文NER的那些事儿6. NER新范式！你问我答之MRC详解&代码实现

就像Transformer带火了”XX is all you need”的论文起名大法，最近也看到了好多”Unified XX Framewor…

人工智能 2023年6月4日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31