pandas 数据整理(转置)

学习目标

  • 掌握melt函数整理数据的方法
  • 掌握stack、unstack的用法
  • 掌握wide_to_long函数的用法

1 melt整理数据

  • 加载美国收入与宗教信仰数据
import pandas as pd
pew = pd.read_csv('data/pew.csv')
pew

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M9AL0Mxo-1630413533985)(./img/整理数据-01.png)]

  • 先执行下面的代码,将输出的结果和上面的输出结果进行对比
pew_long = pd.melt(pew, id_vars='religion')
print(pew_long)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k8k6k7Xy-1630413533988)(./img/整理数据-02.png)]

  • 我们发现,基于religion列,把原来的df拉长了,我们称原来的df为宽数据集 ,拉长之后的df称之为 长数据集
  • 对于展示数据而言,下图中 pwe返回的这种”宽”数据没有任何问题,如第一行数据,展示了Agnostic(不可知论(者))所有的收入分布情况
  • 从数据分析的角度,有时候我们需要把数据由”宽”数据,转换成”长”数据,就如同下图中 pew_long返回的数据
  • 在pandas中我们就可以使用 df.melt()函数,通过各种参数,来达成宽数据集转换为长数据集的效果
pew
pew_long.sort_values('religion').head(20)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-70xRGPJW-1630413533989)(./img/整理数据-03.png)]

  • melt 是溶解/分解的意思, 即拆分数据;melt即是类函数也是实例函数,也就是说既可以用 pd.melt(), 也可使用 dataframe.melt()

参数类型说明framedataframe必要参数,被 melt 的数据集名称在 pd.melt() 中使用,比如上例中

id_varstuple/list/ndarray可选项,

,在转换后作为标识符列(不是索引列),比如上例

value_varstuple/list/ndarray可选项,

,如果未指明value_vars,除id_vars指定的其他列都将被转换var_namestring自定义设置variable列的列名value_namestring自定义设置value列的列名

  • 比如,可以更改melt之后的数据的列名
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
pew_long.head()

    religion    income  count
0   Agnostic    <$10k   27
1   Atheist     <$10k   12
2   Buddhist    <$10k   27
3   Catholic    <$10k   418
4   Don't know/refused  <$10k   15
  • 加载数据
bill_board = pd.read_csv('data/billboard.csv')
bill_board.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kxycQyGF-1630413533992)(./img/长宽数据集练习-01.png)]

  • 经观察思考,最终结果如下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yuzqNuA9-1630413533999)(./img/长宽数据集练习-02.png)]

  • 在使用melt函数转换数据的时候,也可以固定多数列,只转换少数列;对上面数据的周评分进行处理,转换成长数据
bill_borad_long = pd.melt(
    bill_board,
    id_vars=['year','artist','track','time','date.entered'],
    var_name='week',
    value_name='rating'
)
bill_borad_long

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JpKKgBNg-1630413534000)(./img/长宽数据集练习-03.png)]

2 stack整理数据

  • pandas进行数据重排时,经常用到stack和unstack两个函数。stack的意思是堆叠、堆积,unstack即”不要堆叠”
  • 常见的数据的层次化结构有两种,一种是表格,一种是”花括号”,即下面这样的l两种形式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-516bkzlH-1630413534001)(./img/stack函数-1.png)]

  • stack函数会将数据从”表格结构”变成”花括号结构”(返回的是series类型),即将其行索引变成列索引,反之,unstack函数将数据从”花括号结构”变成”表格结构”,即要将其中一层的列索引变成行索引

接下来我们就来感受一下stack函数的使用,本节无需理会数据集本身的业务

  • 加载state_fruit数据集
state_fruit = pd.read_csv('data/state_fruit.csv', index_col=0)
state_fruit

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uXDLMYdl-1630413534002)(./img/stack函数-2.png)]

  • 使用 df.stack()函数,查看返回结果
state_fruit_series = state_fruit.stack()
print(state_fruit_series)
print(type(state_fruit_series))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fnUH4HuO-1630413534002)(./img/stack函数-3.png)]

  • 此时可以使用 reset_index(),将结果变为DataFrame
state_fruit_tidy = state_fruit.stack().reset_index()
state_fruit_tidy

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zlXt6kTW-1630413534003)(./img/stack函数-4.png)]

  • 给列重新命名
state_fruit_tidy.columns = ['state', 'fruit', 'weight']
state_fruit_tidy

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYnjKLuG-1630413534004)(./img/stack函数-5.png)]

  • 也可以使用rename_axis给不同的行索引层级命名
state_fruit.stack().rename_axis(['state', 'fruit'])

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-12PzjHYt-1630413534004)(./img/stack函数-6.png)]

  • 再次使用reset_index方法

state_fruit.stack().rename_axis(['state', 'fruit']).reset_index()

state_fruit.stack().rename_axis(['state', 'fruit']).reset_index(name='weight')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LKfNjBJR-1630413534005)(./img/stack函数-7.png)]

  • unstack函数
state_fruit_series.unstack()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wxrU0sim-1630413534006)(./img/stack函数-2.png)]

3 wide_to_long整理数据

我们通过一个数据整理的具体需求来学习 wide_to_long 函数,需求:

  • 加载 data/movie.csv数据,统计每部电影的每个主演的被点赞数,返回新的df
  • 新df的列名为 movie_titleactor_numactoractor_facebook_likes;分别代表电影名称、演员编号、演员姓名、该演员被点赞数

  • 加载数据

movie = pd.read_csv('data/movie.csv')
movie.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYToI6dp-1630413534006)(./img/wide2long-1.png)]

  • 去除无关字段
actor = movie[[
    'movie_title', 'actor_1_name', 'actor_2_name', 'actor_3_name',
    'actor_1_facebook_likes', 'actor_2_facebook_likes', 'actor_3_facebook_likes'
]]
actor.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-21Xqba9D-1630413534007)(./img/wide2long-2.png)]

  • 整理列名
actor2 = actor.copy()
actor2.columns = [
    'movie_title', 'actor_1', 'actor_2', 'actor_3',
    'actor_facebook_likes_1', 'actor_facebook_likes_2', 'actor_facebook_likes_3'
]
actor2.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xI2IRQjU-1630413534008)(./img/wide2long-3.png)]

  • 先执行下面的代码,观看输出结果
stubs = ['actor', 'actor_facebook_likes']
actor2_tidy = pd.wide_to_long(
    actor2,
    stubnames=stubs,
    i=['movie_title'],
    j='actor_num',
    sep='_'
).reset_index()
actor2_tidy.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BhduY8Ao-1630413534009)(./img/wide2long-4.png)]

  • 查看名为 Avatar的电影的演员信息
actor2_tidy[actor2_tidy['movie_title']=='Avatar']

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cCiJdtFj-1630413534009)(./img/wide2long-5.png)]

  • wide_to_long函数的作用是将列名起始部分相同的列进行拆解,使宽数据变换为长数据
new_df = pd.wide_to_long(
    actor2,
    stubnames=['actor', 'actor_facebook_likes'],
    i=['movie_title'],
    j='actor_num',
    sep='_'
)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fOFaxTsj-1630413534010)(./img/wide2long-6.png)]

  • melt,stack,wide_to_long函数均可以实现讲宽数据整理成长数据
  • melt:指定数据列,将指定列变成长数据
  • stack:返回一个具有多层级索引的数据,配合reset_index可以实现宽数据变成长数据
  • wide_to_long:处理列名带数字后缀的宽数据
  • stack/unstack, melt/pivot_table 互为逆向操作

Original: https://blog.csdn.net/ljh18885466426/article/details/120026385
Author: 龙技术
Title: pandas 数据整理(转置)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/678413/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球