3-10 Pandas的数据规整

2023年8月18日上午3:01 • Python • 阅读 47

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了

，它是使Python成为强大而高效的数据分析环境的重要因素之一

（1）一个强大的分析和操作大型结构化数据集所需的工具集

（2）基础是NumPy，提供了高性能矩阵的运算

（3）提供了大量能够快速便捷地处理数据的函数和方法

（4）应用于数据挖掘，数据分析

（5）提供数据清洗功能

10.1 层次化索引


import numpy as np
import pandas as pd
data = pd.Series(np.random.randn(9),
                index=[['a','a','a','b','b','c','c','d','d'],
                      [1,2,3,3,1,2,2,2,3]])

data['b':'c']
data.loc[['b','d']]
data.loc[:,2]

frame = pd.DataFrame({'a':range(7),'b':range(7,0,-1),
                     'c':['one','one','one','two','two','two','two'],
                     'd':[0,1,2,0,1,2,3]})

frame

frame2 = frame.set_index(['c','d'])

frame2

frame.set_index(['c','d'],drop=False)

frame2.reset_index()

10.2 数据连接

pd.merge(left,right,how=’inner’,on=None,left_on=None,right_on=None)：根据单个或多个键将不同DataFrame的行连接起来，类似数据库的连接操作。

left：合并时左边的DataFrame
right：合并时右边的DataFrame
how：合并的方式默认’inner’,’outer’,’left’,’right’
on：需要合并的列名，必须两边都有的列名，并以left和right中的列名的交集作为连接键
left_on：left DataFrame中用作连接键的列
right_on：right DataFrame中用作连接键的列


left = pd.DataFrame({'key':['K0','K1','K2','K3'],
                    'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3']})
right = pd.DataFrame({'key':['K0','K1','K2','K3'],
                     'C':['C0','C1','C2','C3'],
                     'D':['D0','D1','D2','D3']})

left

right

pd.merge(left,right)

pd.merge(left,right,on='key')

df_obj1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                       'data':np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key':['a','b','d'],
                       'data':np.random.randint(0,10,3)})

print(pd.merge(df_obj1,df_obj2,on='key',suffixes=('_left','_right')))

df_obj1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                       'data1':np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'data2':np.random.randint(0,10,3)},index=['a','b','d'])

print(pd.merge(df_obj1,df_obj2,left_on='key',right_index=True))

left2 = pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],index = ['a','c','e'],columns=['语文','数学'])
right2 = pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13.,14.]],index=['b','c','d','e'],columns=['英语','综合'])

left2.join(right2,how='outer')

沿着轴方向将多个对象合并到一起


arr1 = np.random.randint(0,10,(3,4))
arr2 = np.random.randint(0,10,(3,4))

print(np.concatenate([arr1,arr2]))

print(np.concatenate([arr1,arr2],axis=1))


df1 = pd.DataFrame(np.arange(6).reshape(3,2),index=list('abc'),columns=['one','two'])

df2 = pd.DataFrame(np.arange(4).reshape(2,2),index=list('ac'),columns=['one','two'])

pd.concat([df1,df2])

pd.concat([df1,df2],axis=1)

10.3 重塑

（1）将列索引旋转为行索引，完成层级索引
（2）DataFrame -> Series


data = pd.DataFrame(np.arange(6).reshape((2,3)),
                   index = pd.Index(['老王','小刘'],name='姓名'),
                   columns = pd.Index(['语文','数学','英语'],name='科目'))

data

r = data.stack()

print(r)

print(type(r))

（1）将层级索引展开
（2）Series -> DataFrame
（3）默认操作内层索引（即level=-1），可通过设置level指定操作索引的级别


r.unstack()

r.unstack(level = '姓名')

a1 = pd.Series(np.arange(4),index=list('abcd'))
a2 = pd.Series([4,5,6],index=list('cde'))

s1 = pd.concat([a1,a2],keys=['data1','data2'])

type(s1)

s1.unstack()

s1.unstack().stack()

10.4 轴向旋转


df3 = pd.DataFrame({'date':['2018-11-22','2018-11-22','2018-11-23','2018-11-23','2018-11-24'],
                   'class':['a','b','b','c','c'],
                   'values':[5,3,2,6,1]},columns=['date','class','values'])

df3

df3.pivot('date','class','values')

df3.set_index(['date','class']).unstack('class')

Original: https://blog.csdn.net/zkx990121/article/details/121741194
Author: 刚入门的小仙女
Title: 3-10 Pandas的数据规整

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/752679/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

部署本地Django项目到服务器

前言最近在做Django项目一开始是vue前端加上django后端的前后端整合后来leader说改需求了只需要后端接口并且需要部署到虚拟机上（CentOS7）笔者没什么li…

Python 2023年8月4日
0054
python 中 for使用小技巧

Python 2023年5月24日
0081
线性回归，梯度下降法，拟合一次函数

1、生成5阶单位矩阵 import numpy as np np.identity(5)###任选一&#x…

Python 2023年8月27日
0065
python 常用的8种经典数据结构

python原生数据结构：元组Tuple()，列表List[]，集合Set{}，字典Dictionary{A:B}； NumPy包中的数据结构：数组Ndarray(带多种操作)，矩…

Python 2023年8月1日
0043
python函数进阶

1.函数的作用域全局变量的作用域：一般在函数体外定义的变量成为全局变量，在函数内部定义的变量称为局部变量。全局变量所有作用域都可用，局部变量只能在本函数可用，变量的使用顺序…

Python 2023年10月30日
0037
逻辑漏洞挖掘

逻辑漏洞逻辑漏洞是指由于程序逻辑输入管控不严或者逻辑太复杂，导致程序不能够正常处理或处理错误，逻辑漏洞根据功能需求的不同产生的漏洞方式也不同。一般出现在网站程序的登录注册、密码找…

Python 2023年10月14日
0055
【云原生| Docker】部署 Django & mysql 项目

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。🌐 推荐一款找工作神器网站: 点击跳转牛客网登陆注册 |笔试题库|面试经验|实习招聘内…

Python 2023年8月6日
0061
Flask路由基础

Flask路由 Flask是较为热门的用python编写的Web应用框架，它能够根据路由自动将请求分配给对应的函数，使得程序员能够专注于功能，而不是繁琐的底层协议 Flask示例 …

Python 2023年8月12日
0043
关于Python绘制柱状图等图形，以及数据拆分与合并详细讲解

本文主要讲解这四个大方面问题：一、使用plot()方法绘制柱状图等其它图形二、查看DataFrame的内存占用情况三、concat()函数与append()方法四、merg…

Python 2023年8月16日
0058
一文带你吃透数据库的约束，不做CRUD程序员

文章目录 1. 约束的概念 2. 约束的分类 3. 非空约束 4. 唯一约束 5. 主键约束 6. 默认约束 7. 外键约束 7. 约束的案例练习 ; 1. 约束的概念 &…

Python 2023年9月17日
0028
dataframe的head方法_DataFrame

DataFrame 表示矩阵数据表，有行索引和列索引。构建方式 In [43]: data = {‘state’: [‘Ohio’…

Python 2023年8月7日
0040
Python 3.6 | ValueError: unsupported pickle protocol: 5

此文为我遇到的python error 以及个人的处理方法问题： Python 3.8: pickle.dump 生成的文件用Python 3.6 处理pickle文件，运行显…

Python 2023年8月28日
0052
Python图像处理

一、简介实现计算机视觉任务的过程中，不可避免地需要对图像进行读写操作以及图像预处理操作，下面介绍两个常用的Python图像处理库：OpenCV和Pillow。 OpenCV全称是…

Python 2023年8月1日
0051
Linux 操作系统管理命令（全）

1、Linux常用命令（1）date （2）pwd命令（3）cd命令（4）cal命令（5）who命令（6）wc命令（7）uname命令（8）clear命令（9）lo…

Python 2023年9月26日
0063
从头开始学习python+pytest接口自动化测试（一）pytest的运行方式3.pytest.ini配置文件运行

[pytest] addopts = -vs testpaths = test_cases python_files = test_*.py python_classes = Te…

Python 2023年9月12日
0047
Python写了个疫情信息快速查看工具

用Python写一个疫情查看工具序言你需要准备 * – PyQt5 PyQtWebEngine 预览 * – 启动引擎切换主要代码最后序言自从…

Python 2023年10月7日
0029

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

3-10 Pandas的数据规整

10.1 层次化索引

10.2 数据连接

10.3 重塑

10.4 轴向旋转

大家都在看