数据分析与可视化（四）Pandas学习基础一：统计分析基础

2023年8月20日上午10:25 • Python • 阅读 41

文章目录

*
– 1. pandas的数据结构
–
+
* series：一维数组对象，通过索引来访问
* DataFrame：有一组有序的列，表格型的数据结构
* 索引对象
* 查看DataFrame的常用属性
– 2.Pandas的索引操作
–
+
*
– 重建索引
–
+ 1.重建索引
+ 3.reindex操作
– 更换索引
– 3.DataFrame数据的查询和编辑
–
+
*
– 查询【一般都是通过索引来操作的】
–
+ 1.选取列
+ 2.选取行
+ 3.读取行和列
+ 4.布尔选择
– 编辑【提取需要编辑的数据，重新赋值】
–
+ 1.增加数据
+ 2.删除数据
+ 3.修改数据
– 4.pandas数据运算
–
+
*
–
+ 算术运算
+ 函数的应用和映射
+ 排序
+ 统计汇总
– 5.数据分组与聚合
–
+
*
–
+ 数据分组
+ 数据聚合：对分组后的数据进行计算，产生标量值的数据转换过程。
+ 分组运算：包含聚合运算，聚合运算是数据转换的特例。
– 重要技巧： groupby之后直接.reset_index()可以得到一个没有多级索引的DataFram，之后可以通过df.rename({'old_col1':'new_col1','old_col2':'new_col2',...})重命名
– 6.数据透视表
–
+
*
–
+ 透视表
+ 交叉表:是一种特殊的透视表，主要用于计算分组频率。使用Pandas提供的crosstab函数可以制作。
– 7.Pandas可视化
–
+
*
–
+ 线形图
+ 柱状图
+ 直方图和密度图
+ 散点图

1. pandas的数据结构

Series：类似于数组
DataFrame：类似于表格
Panel：Excel多表单Sheet【不常用】

series：一维数组对象，通过索引来访问

1.创建：可通过列表和字典来创建

import pandas as pd
import numpy as np
s1 = pd.Series([1,4,'ab',0])
s2 = pd.Series({'A':'111', 'B':'你好', 'C':'345'})
print(s1,'\t',s2)

0     1
1     4
2    ab
3     0
dtype: object    A    111
B     你好
C    345
dtype: object

2.索引

（1）列表建立Series对象时，没有指定index，会自己生成整数型索引，可用使用索引切片技术；指定index时，Series会有两种描述某数据的手段，自己生成的整数位置索引和建立Series对象时给定的index索引（标签）;dtype用来给定数据类型。

import pandas as pd
list1 = [1,3,5,7]
s1 = pd.Series(list1, index=['a1', 'b1', 'c1', 'd1'], dtype='object')
print('s1 index索引取值',s1['a1'])
print('s1 位置取值',s1[0])

s1 index索引取值 1
s1 位置取值 1

（2）字典建立Series对象时，不指定index，默认会用字典键有序排列来做索引；指定index时，如果键值与指定的index不匹配，会生成NaN(非数字)；给定的index索引可用通过赋值方式修改

import pandas as pd
dic = {
        'a':'中国',
        'b':'日本',
        'd':'美国'
}
s = pd.Series(dic, index=['a', 'b', 'c', 'd'])
print(s)

s.index = ['A', 'B', 'C','D']

a     中国
b     日本
c    NaN
d     美国
dtype: object
修改index： A     中国
B     日本
C    NaN
D     美国
dtype: object

DataFrame：有一组有序的列，表格型的数据结构

1.创建：最常用的是直接传入一个由等长列表或者NumPy数组组成的字典来形成DataFrame。

2.特性：会自动加上索引，且全部列会被有序排列，如果columns指定列名序列，则按指定列名排列；index给出行标签；如果传入的列在数据中找不到，会产生NaN值。

data = {
    'name':['张飞', '孙尚香', '韩信', '貂蝉', '马超'],
    'location':['游走', '下路', '打野', '中单', '上单'],
    'dynasty':['蜀', '蜀', '战国', '汉', '蜀'],
    'year':[1999, 2000, 2020, 2050, 3030]
}
df = pd.DataFrame(data)
print(df)

  name location dynasty  year
0   张飞       游走       蜀  1999
1  孙尚香       下路       蜀  2000
2   韩信       打野      战国  2020
3   貂蝉       中单       汉  2050
4   马超       上单       蜀  3030

df = pd.DataFrame(data, columns=['name','location','dynasty','address','year'],index=['a','b','c','d','e'])
print(df)

  name location dynasty address  year
a   张飞       游走       蜀     NaN  1999
b  孙尚香       下路       蜀     NaN  2000
c   韩信       打野      战国     NaN  2020
d   貂蝉       中单       汉     NaN  2050
e   马超       上单       蜀     NaN  3030

索引对象

1.pandas的索引对象负责管理轴标签和其它元数据信息（例如轴名称等），构建Series和DataFrame时，所用到的任何数组或其它序列的标签，都会被转换成一个Index。

print(df.index)
print(df.columns)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Index(['name', 'location', 'dynasty', 'address', 'year'], dtype='object')

2.Index长的像数组，功能类似于一个固定大小的集合。不可修改保证Index在多个数据结构间的安全共享。

print('name' in df.columns)
df.index=['1','2','3','4','5']
df.columns=['a','b','c','d','e']
print(df)

True
     a   b   c    d     e
1   张飞  游走   蜀  NaN  1999
2  孙尚香  下路   蜀  NaN  2000
3   韩信  打野  战国  NaN  2020
4   貂蝉  中单   汉  NaN  2050
5   马超  上单   蜀  NaN  3030

3.索引的方法和属性

方法属性append连接另一个Index对象，产生一个新的Index对象diff计算差集并得到一个Indexintersection计算交集union计算并集isin计算一个指示各值是否都包含在参数集合中的布尔型数组delete删除索引i处的元素，并得到新的Indexdrop删除传入的值，并得到新的Indexinsert将元素插入索引i处，并得到新的索引is_monotonic当各元素均大于或等于前一个元素时，返回Trueis.unique当Index没有重复值时，返回Trueunique计算Index中唯一值的数组

df.index.insert(1,'w')

Index(['1', 'w', '2', '3', '4', '5'], dtype='object')

查看DataFrame的常用属性

属性描述values元素，返回二维嵌套列表index索引，返回Indexcolumns列名dtypes类型ndim维度shape形状size元素的个数

`python
print(df)
print(“————–“)
print(df.values())
print(“————–“)
print(df.index())
print(“————–“)
print(df.columns())
print(“————–“)
print(df.dtypes())
print(“————–“)
print(df.ndim())
print(“————–“)
print(df.shape())
print(“————–“)
print(df.size())

a   b   c    d     e

1 张飞游走蜀 NaN 1999
2 孙尚香下路蜀 NaN 2000
3 韩信打野战国 NaN 2020
4 貂蝉中单汉 NaN 2050
5 马超上单蜀 NaN 3030
Index([‘1’, ‘2’, ‘3’, ‘4’, ‘5’], dtype=’object’)
a object
b object
c object
d object
e int64
dtype: object
(5, 5)

Original: https://blog.csdn.net/qq_43636709/article/details/115536906
Author: bigdata7
Title: 数据分析与可视化（四）Pandas学习基础一：统计分析基础

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754730/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python pandas 多进程 apply

今天介绍一个库,叫 pandarallel,用于pandas库多进程执行. 安装库 pip install pandarallel 测试平台: 32位树莓派系统 Pi OS pyt…

Python 2023年8月8日
0039
字节类型

python中使用字节类型(bytes)来表示二进制信息，它是由单个字节构成的不可变序列。字节类型的字面量的语法与字符串大致相同，只是添加了一个前缀 b。字节类型的字面量中只允…

Python 2023年6月11日
00102
python读取xls文件数据tk_python-读取xls文件

import pandas as pd import warnings warnings.filterwarnings(“ignore”) folder_l…

Python 2023年8月9日
0040
网络摄像头python_在python 3和windows中拍摄网络摄像头照片

I want to be able to take a photo from a webcam in python 3 and Windows. Are there any mod…

Python 2023年9月25日
0044
自动化工具：PyAutoGUI的鼠标与键盘控制，解放双手的利器

PyAutoGUI是一个简单易用，跨平台的可以模拟键盘鼠标进行自动操作的python库。【阅读全文】使用pip的方式安装pyautogui模块 pip install pyau…

Python 2023年5月24日
00145
pyplot.plot() 参数

plot函数一般的调用形式 #单条线： plot(x, y, [fmt], data=None, **kwargs) #多条线 plot(x, y, [fmt], x2, y2, …

Python 2023年9月5日
0070
【flask扩展】Flask-Migrate的使用

; 📋 个人简介 💖 作者简介：大家好，我是阿牛，全栈领域新星创作者。😜 🎉 支持我：点赞👍+收藏⭐️+留言📝 📣 系列专栏：flask框架快速入门🍁 💬格言：要成为光，因为有怕黑…

Python 2023年8月13日
0038
【Linux】基础IO——系统文件IO&fd&重定向&理解

文章目录 * – 一、回顾C文件接口 – + 1.打开和关闭 + 2.读写文件 + 3.细节 – 二、系统文件I/O – + 1.o…

Python 2023年11月7日
0038
matlab调用python，解释器没有第三方模块，如numpy等——解决simulink保存历史数据问题

问题如图所示，根据指令,我已经改了解释器，但是还是只能用pyhton原本模块，第三方模块都无法使用，显示 pyenv(‘D:\soft\anaconda\envs\offten\p…

Python 2023年8月24日
0058
numpy基本命令

数据创建 1.常量 numpy.nan：空值 numpy.inf：正无穷大 numpy.pi：圆周率 numpy.e：自然常数 e 2.变量 Python 原生的数据类型相对较少，…

Python 2023年8月29日
0033
34_Pandas对CSV文件内容的导出和添加（to_csv）

如果要将panda.DataFrame或pandas.Series数据导出为csv文件或将其添加到现有的csv文件中，请使用to_csv（）方法。由于分隔符可以更改，因此也可以将其…

Python 2023年8月7日
0066
Python3教程：math 模块的用法

我们知道 Python 有很多运算符可以进行数学运算，如果是简单的问题还好说，但是要处理一些相对复杂的问题也要我们自己一行一行手动的来编写吗？答案当然不是，Python 提供了 m…

Python 2023年5月24日
0083
SSH框架下单元测试的实现

实现的功能实现了部门的增删改查对Action进行了单元测试对Service 进行了单元测试，通过mock的方式实现。实现的步骤一、对Action层的单元测试实现1、首先在…

Python 2023年6月3日
0091
基于旋转高频注入法的永磁同步电机无位置传感器控制

基于旋转高频注入法的永磁同步电机无位置传感器控制一、原理解说 PMSM 无位置传感器控制主要分为两类:一种是在中高速范围内利用反电动势和电角速度的关系，通过计算反电动势获取转子位…

Python 2023年9月16日
0045
（四）Python PyTest 用例执行排序与常用指令-持续更新

可以通过编写自定义插件或使用 html插件来获取用结果。使用 html插件可以将测试结果生成HTML报告，其中包含每个测试用结果、运行时间、失败原因等信息。可以通过以下命令安…

Python 2023年9月14日
0050
pandas 多折线图_干货：使用pandas和seaborn制作炫酷图表（附代码）

原标题：干货：使用pandas和seaborn制作炫酷图表(附代码) 我们介绍过用matplotlib制作图表的一些tips，感兴趣的同学可以戳→纯干货：手把手教你用Python做…

Python 2023年9月5日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30