[pandas]数据重塑与透视

2023年8月8日上午6:00 • Python • 阅读 54

一.数据透视.

1.1整理透视

df.pivot(index = ' ', columns = ' ',values = ' ')

这些参数传入的是原数据的列名。index如果不传入，会使用现有索引。columns作为新DataFrame的列，取去重的值，当列和索引的组合有多个值时会报错，需要用pd.pivot_table()进行操作。values作为新DataFrame的值，若指定多个，会形成多层索引，若不指定，会默认为所有剩余的列。

1.2聚合透视

df.pivot()只是对原数据的结构、显示形式做了变换。若要在数据透视过程中对值进行计算，可以使用pd.pivot_table()

margins：是否增加汇总行列

aggfunc可以为不同的列指定不同的计算方法，用字典的形式给出就可

2.数据堆叠 stack

2.1堆叠与解堆

堆叠示意：

解堆示意：

堆叠的操作：df.stack()

解堆操作：df.unstack()

2.2交叉表

交叉表是用于统计分组频率的特殊透视表。简单来说，就是将两列或多列中不重复的元素组成一个新的DataFrame，新数据的行和列交叉部分的值为其组合在原数据中的数量

pd.crosstab(index,columns,
           values = None,rownames = None,
           colnames = None,
           aggfunc = None,margins = False,
           margins_name:str = 'ALL',dropna:bool = True,
           normalize = False)

index:传入列，作为新数据的索引

columns：传入列，作为新数据的列，新数据的列为此列的去重值

rownames：新数据和列名，默认为None，colnames为新数据和行名

margins：默认False，作用是是否添加行列边距

normalize：布尔值，{‘all’,’index’,’columns’}或{0,1}，默认False，通过将所有值除以值得总和进行 归一化

2.3轴交换df.swapaxes()

df.swapaxes(axis1,axis2,copy = True)方法用来进行轴交换

df.swapaxes('index','cloumns') #&#x884C;&#x5217;&#x4EA4;&#x6362;&#xFF0C;&#x7B49;&#x4EF7;&#x4E8E;df.T
df.swapaxes('columns','index',copy = True) #&#x4F7F;&#x751F;&#x6548;

2.4数据融合

数据融合df.melt()是df.pivot()的逆操作函数，简单来说，是将指定的列铺开，放到行上名为variable(可指定)、值为value（可指定）列

该过程代码如下：

pd.melt(id_vars = None,  #tuple,list&#x6216;ndarray&#xFF0C;&#x7528;&#x4F5C;&#x6807;&#x8BC6;&#x53D8;&#x91CF;&#x7684;&#x5217;
       value_vars = None,  #tuple,list,ndarray&#xFF0C;&#x8981;&#x53D6;&#x6D88;&#x900F;&#x89C6;&#x7684;&#x5217;&#xFF0C;&#x5982;&#x679C;&#x672A;&#x6307;&#x5B9A;&#xFF0C;&#x5219;&#x4F7F;&#x7528;&#x672A;&#x8BBE;&#x7F6E;&#x4E3A;id_vars&#x7684;&#x6240;&#x6709;&#x5217;
       var_name = 'variable',  #scalar,&#x7528;&#x4E8E;&#x53D8;&#x91CF;&#x5217;&#x7684;&#x540D;&#x79F0;&#xFF0C;&#x82E5;&#x4E3A;None&#xFF0C;&#x5219;&#x4F7F;&#x7528;frame.columns.name&#x6216;variable
       value_name = 'value',  #scalar&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;&#x2018;value&#x2019;&#xFF0C;&#x7528;&#x4E8E;'value'&#x5217;&#x7684;&#x540D;&#x79F0;
       col_level = None  #int&#x6216;str&#xFF0C;&#x5982;&#x679C;&#x5217;&#x662F;&#x591A;&#x5C42;&#x7D22;&#x5F15;&#xFF0C;&#x5219;&#x4F7F;&#x7528;&#x6B64;&#x7EA7;&#x522B;&#x6765;&#x878D;&#x5408;)

3.虚拟变量

虚拟变量(dummy variable)又称虚设变量、名义变量或哑变量，通常取值为0或1，常被用于one-hot特征提取

生成虚拟变量的方法pd.get_dummies()是将一列或者多列的去重值作为新表的列，每列的值由0或1组成，如果原来位置的值与列名相同，则在新表中该位置的值为1，否则为0.这样就形成了一个由0或1组成的特征矩阵。

语法为：

pd.get_dummies(data,
               prefix = None, #&#x65B0;&#x5217;&#x7684;&#x524D;&#x7F00;
              prefix_sep = '_',  #&#x65B0;&#x5217;&#x524D;&#x7F00;&#x7684;&#x8FDE;&#x63A5;&#x7B26;
              dummy_na = False,
              columns = None,
              sparse = False,
              drop_first = False,
              dtype = None)

4.因子化

因子化是指将一个存在大量重复值的一维数据解析成枚举值的过程，这样可以方便我们分辨，factorize既可以用作顶层函数pd.factorize()，也可以用作Series.factorize()和Index.factorize()方法

对数据进行因子化后返回两个值，一个是因子化后的编码列表，另一个是原数据的去重值列表

in:
data = ['b','b','a','c','b']

#&#x56E0;&#x5B50;&#x5316;
codes,uniques = pd.factorize(data)

#&#x7F16;&#x7801;
codes

out:
array([0, 0, 1, 2, 0], dtype=int64)

in:
#&#x53BB;&#x91CD;&#x503C;
uniques

out:
array(['b', 'a', 'c'], dtype=object)

上例中，将数据data进行因子化，返回一个由两个元素组成的元组。分别用codes和uniques来承接这个元组的元素

codes:数字编码表，将第一个元素编为0，其后依次为1，2，….。相同元素编码相同

uniques:去重值，也就是因子

以上数据是可迭代的array类型

对Series操作后唯一值将生成一个index对象

缺失值不会出现在唯一值列表中，在编码中将为-1

也可以引参数 sort = True。来对唯一值进行排序

Pandas的枚举类型数据categorical也可以使用此方法

in:
cat = pd.Categorical(['a','a','c'],categories = ['a','b','c'])
codes,uniques = pd.factorize(cat, sort = True)
codes
uniques

out:
array([0, 0, 1], dtype=int64)

['a', 'c']
Categories (3, object): ['a', 'b', 'c']

5.爆炸列表

将类似列表的每个元素转换为一行，索引值是相同的。

in:
s = pd.Series([[1,2,3],'foo',[],[3,4]])
s

out:
0    [1, 2, 3]
1          foo
2           []
3       [3, 4]
dtype: object

in:
s.explode()

out:
0      1
0      2
0      3
1    foo
2    NaN
3      3
3      4
dtype: object

每行列表中的元素都独自占用了一行，而索引保持不变，空值变成了NaN，非列表的元素没有变化

在DataFrame中爆炸指定列后，其他列的值会保持不变

Original: https://blog.csdn.net/m0_73598509/article/details/127577610
Author: 起风了xxx
Title: [pandas]数据重塑与透视

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741690/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于 JavaScript 中 null 的一切

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。入…

Python 2023年8月9日
0069
Pytest测试框架（二）

目录 6、用例执行失败重试 6.1、安装插件 pytest-rerunfailures 6.2、设置重试次数 7、标记机制 7.1、对测试用例进行分级 7.1.1、使用背景或场景 …

Python 2023年9月14日
0061
Python、OpenCV实现的电脑远程拍照控制系统，照片并以web形式发布

一、题目：利用OpenCV等，自行Python编程实现一个远程拍照控制系统，该系统包括摄像头端（Server）和用户端(Client）。Server端运行.py程序，接受Clie…

Python 2023年8月10日
0054
Python自动化办公：让程序自动分析数据制作报表，并发送邮箱

序言作为数据分析师，我们需要经常制作统计分析图表。但是报表太多的时候往往需要花费我们大部分时间去制作报表。这耽误了我们利用大量的时间去进行数据分析。但是作为数据分析师我们应该尽可…

Python 2023年10月31日
0064
爬虫学习笔记-scrapy框架介绍

优势批量爬取数据高效率架构图 ; 各模块的功能 1，Scrapy Engine（引擎）：Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloa…

Python 2023年10月5日
0051
【C语言程序设计】实验 11

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月26日
0032
pandas入门-层次化索引

本文是对pandas的层次化索引的一个回顾性总结。层次化索引（hierarchical indexing）它使你能在一个轴上拥有多个（两个以上）索引级别。抽象点说，它使你能以低维…

Python 2023年8月9日
0059
superset安装和简单入门

目录 * – 1、概述 – 2、安装MiniConda – 3、创建python3.6环境 – 4、部署superset &#821…

Python 2023年8月13日
0062
jupyter notebook导入numpy 失败报错：Original error was: DLL load failed while importing _multiarray_umath:

jupyter notebook导入numpy 失败报错：Original error was: DLL load failed while importing _multiar…

Python 2023年8月29日
0067
sensor_msgs::Image消息及其参数

很多的博客直接将原网址复制粘贴过来，这里做一个整理，另外原网址是：https://docs.ros.org/en/melodic/api/sensor_msgs/html/msg/…

Python 2023年9月28日
0046
flask—》Marshmallow介绍及基础使用

Marshmallow，中文译作：棉花糖。是一个轻量级的数据格式转换的模块，也叫序列化和反序列化模块，常用于将复杂的orm模型对象与python原生数据类型之间相互转换。一般用…

Python 2023年8月10日
0063
python如何给某列数据打标签_Pandas/Matplotlib在一列上注释，在另一列上添加标签…

我想把我的情节一年一年地注释在一个分散的情节里。此外，我还想在pandas数据帧中的另一列上标记(添加图例)，在本例中是列：ds[‘label’]。我已经设…

Python 2023年8月8日
0058
30张炫酷的动态交互式图表，Python 一键即可生成

今天我来讲一下如何用 Python 一行代码在 DataFrame数据集当中生成炫酷的动态交互式的图表，本文中我们需要用到的模块 cufflinks ，就像是 seaborn封装了…

Python 2023年8月22日
0052
Java 快速开发几 MB 独立 EXE，写图形界面很方便

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月9日
0070
Optimize（程序优化）

更快（本课程重点！）更省（存储空间、运行空间）更美（UI 交互）更正确（本课程重点！各种条件下）更可靠可移植更强大（功能）更方便（使用）更范（格式符合编程规范、接口…

Python 2023年10月17日
0037
Numpy 库的学习记录

目录 1、array what is array narray 2、create a basic array 水平和垂直操作 3、Adding, removing, and sor…

Python 2023年8月27日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31