pandas 数据整理（转置）

2023年7月8日上午11:39 • 人工智能 • 阅读 79

学习目标

掌握melt函数整理数据的方法
掌握stack、unstack的用法
掌握wide_to_long函数的用法

1 melt整理数据

加载美国收入与宗教信仰数据

import pandas as pd
pew = pd.read_csv('data/pew.csv')
pew

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M9AL0Mxo-1630413533985)(./img/整理数据-01.png)]

先执行下面的代码，将输出的结果和上面的输出结果进行对比

pew_long = pd.melt(pew, id_vars='religion')
print(pew_long)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k8k6k7Xy-1630413533988)(./img/整理数据-02.png)]

我们发现，基于religion列，把原来的df拉长了，我们称原来的df为宽数据集 ，拉长之后的df称之为 长数据集
对于展示数据而言，下图中 pwe返回的这种”宽”数据没有任何问题，如第一行数据，展示了Agnostic（不可知论（者））所有的收入分布情况
从数据分析的角度，有时候我们需要把数据由”宽”数据，转换成”长”数据，就如同下图中 pew_long返回的数据
在pandas中我们就可以使用 df.melt()函数，通过各种参数，来达成宽数据集转换为长数据集的效果

pew
pew_long.sort_values('religion').head(20)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-70xRGPJW-1630413533989)(./img/整理数据-03.png)]

melt 是溶解/分解的意思，即拆分数据；melt即是类函数也是实例函数，也就是说既可以用 pd.melt(), 也可使用 dataframe.melt()

参数类型说明framedataframe必要参数，被 melt 的数据集名称在 pd.melt() 中使用，比如上例中

id_varstuple/list/ndarray可选项，

，在转换后作为标识符列（不是索引列），比如上例

value_varstuple/list/ndarray可选项，

，如果未指明value_vars，除id_vars指定的其他列都将被转换var_namestring自定义设置variable列的列名value_namestring自定义设置value列的列名

比如，可以更改melt之后的数据的列名

pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
pew_long.head()

    religion    income  count
0   Agnostic    <$10k   27
1   Atheist     <$10k   12
2   Buddhist    <$10k   27
3   Catholic    <$10k   418
4   Don't know/refused  <$10k   15

加载数据

bill_board = pd.read_csv('data/billboard.csv')
bill_board.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kxycQyGF-1630413533992)(./img/长宽数据集练习-01.png)]

经观察思考，最终结果如下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yuzqNuA9-1630413533999)(./img/长宽数据集练习-02.png)]

在使用melt函数转换数据的时候，也可以固定多数列，只转换少数列；对上面数据的周评分进行处理，转换成长数据

bill_borad_long = pd.melt(
    bill_board,
    id_vars=['year','artist','track','time','date.entered'],
    var_name='week',
    value_name='rating'
)
bill_borad_long

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JpKKgBNg-1630413534000)(./img/长宽数据集练习-03.png)]

2 stack整理数据

pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠、堆积，unstack即”不要堆叠”
常见的数据的层次化结构有两种，一种是表格，一种是”花括号”，即下面这样的l两种形式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-516bkzlH-1630413534001)(./img/stack函数-1.png)]

stack函数会将数据从”表格结构”变成”花括号结构”（返回的是series类型），即将其行索引变成列索引，反之，unstack函数将数据从”花括号结构”变成”表格结构”，即要将其中一层的列索引变成行索引

接下来我们就来感受一下stack函数的使用，本节无需理会数据集本身的业务

加载state_fruit数据集

state_fruit = pd.read_csv('data/state_fruit.csv', index_col=0)
state_fruit

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uXDLMYdl-1630413534002)(./img/stack函数-2.png)]

使用 df.stack()函数，查看返回结果

state_fruit_series = state_fruit.stack()
print(state_fruit_series)
print(type(state_fruit_series))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fnUH4HuO-1630413534002)(./img/stack函数-3.png)]

此时可以使用 reset_index()，将结果变为DataFrame

state_fruit_tidy = state_fruit.stack().reset_index()
state_fruit_tidy

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zlXt6kTW-1630413534003)(./img/stack函数-4.png)]

给列重新命名

state_fruit_tidy.columns = ['state', 'fruit', 'weight']
state_fruit_tidy

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYnjKLuG-1630413534004)(./img/stack函数-5.png)]

也可以使用rename_axis给不同的行索引层级命名

state_fruit.stack().rename_axis(['state', 'fruit'])

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-12PzjHYt-1630413534004)(./img/stack函数-6.png)]

再次使用reset_index方法


state_fruit.stack().rename_axis(['state', 'fruit']).reset_index()

state_fruit.stack().rename_axis(['state', 'fruit']).reset_index(name='weight')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LKfNjBJR-1630413534005)(./img/stack函数-7.png)]

unstack函数

state_fruit_series.unstack()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wxrU0sim-1630413534006)(./img/stack函数-2.png)]

3 wide_to_long整理数据

我们通过一个数据整理的具体需求来学习 wide_to_long 函数，需求：

加载 data/movie.csv数据，统计每部电影的每个主演的被点赞数，返回新的df
新df的列名为 movie_title、 actor_num、 actor、 actor_facebook_likes；分别代表电影名称、演员编号、演员姓名、该演员被点赞数
加载数据

movie = pd.read_csv('data/movie.csv')
movie.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYToI6dp-1630413534006)(./img/wide2long-1.png)]

去除无关字段

actor = movie[[
    'movie_title', 'actor_1_name', 'actor_2_name', 'actor_3_name',
    'actor_1_facebook_likes', 'actor_2_facebook_likes', 'actor_3_facebook_likes'
]]
actor.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-21Xqba9D-1630413534007)(./img/wide2long-2.png)]

整理列名

actor2 = actor.copy()
actor2.columns = [
    'movie_title', 'actor_1', 'actor_2', 'actor_3',
    'actor_facebook_likes_1', 'actor_facebook_likes_2', 'actor_facebook_likes_3'
]
actor2.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xI2IRQjU-1630413534008)(./img/wide2long-3.png)]

先执行下面的代码，观看输出结果

stubs = ['actor', 'actor_facebook_likes']
actor2_tidy = pd.wide_to_long(
    actor2,
    stubnames=stubs,
    i=['movie_title'],
    j='actor_num',
    sep='_'
).reset_index()
actor2_tidy.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BhduY8Ao-1630413534009)(./img/wide2long-4.png)]

查看名为 Avatar的电影的演员信息

actor2_tidy[actor2_tidy['movie_title']=='Avatar']

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cCiJdtFj-1630413534009)(./img/wide2long-5.png)]

wide_to_long函数的作用是将列名起始部分相同的列进行拆解，使宽数据变换为长数据

new_df = pd.wide_to_long(
    actor2,
    stubnames=['actor', 'actor_facebook_likes'],
    i=['movie_title'],
    j='actor_num',
    sep='_'
)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fOFaxTsj-1630413534010)(./img/wide2long-6.png)]

melt，stack，wide_to_long函数均可以实现讲宽数据整理成长数据
melt：指定数据列，将指定列变成长数据
stack：返回一个具有多层级索引的数据，配合reset_index可以实现宽数据变成长数据
wide_to_long：处理列名带数字后缀的宽数据
stack/unstack, melt/pivot_table 互为逆向操作

Original: https://blog.csdn.net/ljh18885466426/article/details/120026385
Author: 龙技术
Title: pandas 数据整理（转置）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678413/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyTorch环境配置

PyTorch环境配置打开Ananconda Prompt 使用conda指令， conda create -n pytorch3.8 python=3.8,创建环境。指令含义：…

人工智能 2023年7月22日
0051
yolov5模型原理及代码流程讲解（v6.1）

1.前言对于yolov5一直在更新优化，这个自然不用多说，在目标检测领域占有量很大；所以写一下相关原理及代码方面的笔记也是有意义的对于自己和想了解yolov5的小伙伴。 2.模型…

人工智能 2023年7月26日
0071
【if 的高阶用法练习题】if only / I wish

改写训练过去时，表达对现在的遗憾，过去完成时：表达对过去的遗憾 1.If only the radio could work. 2.I wish he didn’t …

人工智能 2023年6月27日
0065
数据分析之pandas基础

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。 提示&…

人工智能 2023年7月7日
0040
使用sklearn-LDA分析微博评论数据并进行主题聚类可视化

最近从微博评论中获取了部分关于俄乌局势的评论，于是尝试根据评论内容进行简单的LDA主题聚类分析。主要涉及评论数据清洗、LDA数据分析、pyLDAvis可视化、困惑度计算。一、数据…

人工智能 2023年6月19日
00105
白话机器学习-Encoder-Decoder框架

一背景大抵是去年底吧，收到了几个公众号读者的信息，希望能写几篇介绍下Attention以及Transformer相关的算法的文章，当时的我也是满口答应了，但是确实最后耽误到了现…

人工智能 2023年7月13日
0078
神经网络的心得体会,神经网络心得体会

简述对深度学习的理解百度文库。现在深度学习在机器学习领域是一个很热的概念，不过经过各种媒体的转载播报，这个概念也逐渐变得有些神话的感觉：例如，人们可能认为，深度学习是一种能够…

人工智能 2023年6月25日
0078
WINDOWS下编译OPENCV4.5.4静态库

记录opencv的编译编译环境：Windows10+Visual Studio2017+opencv4.5.4+opencv_contrib 一、下载opencv4.5.4，地址…

人工智能 2023年7月20日
0059
2021SC@SDUSC基于人工智能的多肽药物分析问题（七）

基于人工智能的多肽药物分析(7) [En] Analysis of Peptide drugs based on artificial Intelligence (7) 2021S…

人工智能 2023年5月25日
0040
02【Verilog实战】异步FIFO设计（附源码RTL/TB）

脚本：makefile工具：vcs 和 verdi文章：1. 同步FIFO的设计和功能验证（附源码）2. Verilog的亚稳态现象和跨时钟域处理方法写在前面这个专栏的内…

人工智能 2023年5月30日
0069
（六十一）线性模型：线性回归、岭回归和套索回归

线性回归（OLS） OLS的原理是，找到当训练集中y的预测值和真实值之差（残差）的平方和最小时，对应的参数（斜率、截距）值。需要使用的模块有： LinearRegression：线…

人工智能 2023年6月18日
0086
【cartogarpher_ros】一： ros系统下的快速安装

Cartographer是一个跨多个平台和传感器配置提供 2D 和 3D实时同步定位和映射 ( SLAM ) 的系统。使用Cartographer有Ros集成环境和无Ros环境，…

人工智能 2023年6月4日
0077
yolov5简要介绍

YOLOV5 有不同的版本，不同版本的网络结构略有差异，但大致都差不多。这里以YOLOV5s 说明。 1、网络结构： Backbone : Focus + CSPX + SPP f…

人工智能 2023年7月26日
0046
多分类模型roc-auc的计算以及precision、recall、accuracy等的计算

TP：True被预测成PositiveTN：True被预测成NegativeFP：False被预测成PositiveFN：False被预测成Negativea c c u r a …

人工智能 2023年7月2日
0051
AI | 第2章机器学习算法 – sklearn 分类算法

AI | 第2章机器学习算法 – sklearn 分类算法前言 1. sklearn 的转换器和估计器 * 1.1 转换器 1.2 估计器 2. K-近邻算法（KN…

人工智能 2023年6月30日
0073
einops库中rearrange，reduce和repeat的介绍

用法介绍 einops是一个简洁优雅操作张量的库，并且支持对numpy，pytorch，tensorflow中的张量进行操作，该库最大的优点是函数的使用逻辑清晰明了，其中中常用的三…

人工智能 2023年5月23日
00118

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas 数据整理（转置）

学习目标

1 melt整理数据

2 stack整理数据

3 wide_to_long整理数据

大家都在看