Pandas之Series、DataFrame、MultiIndex

  • Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据
  • *主要由一组数据和与之相关的索引两部分构成。

  • pd.Series(data=Node,index=None,dtype=None)

  • data:传入的数据,可以是ndarray,list等
  • index:传入的索引,要与数据长度相等
  • dtype:数据的类型

  • index

  • values

  • series.sort_values(ascending=True)

  • series.add(数字)
  • 需要series里面存的values是数字类型
  • series.sub(数字)
  • 同上
  • 逻辑运算
  • values中的每个元素进行逻辑运算
  • series.isin(values)
  • values:一个集合序列
  • 也是一种逻辑运算
  • series.apply(func)
  • func:自定义函数
  • series.value_counts()
  • 统计series中元素出现的次数
series[2]
  • pd.DataFrame(data=None,index=None,columns=None)
  • index:行索引
  • columns:列索引

  • shape

  • index
  • columns
  • values
  • T :转置

  • data.head(n=5)

  • data.tail(n=5)
  • data.reset_index(drop=False)
  • 重置索引
  • drop:是否丢弃原来的索引。
  • data.set_index(keys,drop=True)
  • keys: 列索引名称(单级索引)列索引名称组成的列表(多级索引)
  • drop:是否将指定作为索引的列删除
  • data.sort_values(by,ascending=True)
  • by:按单个列或多个列进行排序
  • 返回一个新视图
  • data.sort_index(ascending=True)
  • 按索引进行排序
  • 返回一个新视图
  • data.query(查询语句字符串)
  • 查询指定的行记录
  • data.query(“open
  • data.describe()
  • 统计运算:count,mean,std,min,max
  • 只针对数值类型进行统计
  • data.apply(func,axis=0)
  • func:自定义函数
  • axis=0:默认拿到每一列进行自定义运算

  • 普通统计函数:默认axis=0,即按列统计

函数名说明

Arithmetic median of values

Mode

Absolute Value

Product of values

compute the index labels with the maximum

compute the index labels with the minimum

  • 累计统计函数

函数作用

计算前1/2/3/…/n个数的最大值

计算前1/2/3/…/n个数的最小值

计算前1/2/3/…/n个数的积

  • data[‘open’][‘2018-02-27’]
  • 先列后行
  • 不支持切片
  • data.loc[‘2018-02-27′:’2018-02-22′,’open’]
  • 按索引查询
  • 先列后行
  • 支持切片
  • data.iloc[:3,:5]
  • 按索引的下标查询
  • 先列后行
  • 支持切片
  • data.ix[0:4,[‘open’,’close’,’high’]]
  • 不推荐

  • data[‘close’]=1

  • 有则修改
  • 无则新增
  • data.close=1
  • 只能修改某一列的值

  • data[data[‘open’]>23]

  • 返回一个DataFrame视图
  • data[(data[“open”] > 23) & (data[“open”] < 24)]
  • 多个逻辑判断
arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))

结果
MultiIndex(levels=[[1, 2], ['blue', 'red']],
           codes=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])
  • names:levels的名称
  • levels:每个level的元祖值

Original: https://blog.csdn.net/weixin_44390164/article/details/121303148
Author: 每一个不曾起舞的日子,都是对生命的辜负
Title: Pandas之Series、DataFrame、MultiIndex

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/740422/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球