数据分析三、pandas库分组聚合与数据可视化

2023年7月8日上午12:56 • 人工智能 • 阅读 115

分组聚合与数据可视化

一、分组聚合
*
1.1、单层分组聚合：df.groupby(by)[‘列索引’].mean()。
–
- 1.1.1单层分组：df.groupby(by)
- 1.1.2聚合操作:[‘列索引’].mean()
1.2、多层分组聚合:df.groupby(by)[‘列索引’].mean()。
二、数据可视化
*
2.1绘制单条折线图：s.plot()
–
- 2.1.1为 matplotlib 库添加中文字体
- 2.1.2 绘图
2.2绘制多条折线图：df.plot()
2.3绘制其它类型图
–
- 2.3.1饼图
- 2.3.2条形图

一、分组聚合

1.1分组聚合操作的定义
分组聚合操作指的是按照某项规则对数据进行分组，接着对分完组的数据执行总结性统计的操作（比如求和、求均值）。根据其分组方式的不同可以分为 单层分组聚合操作以及 多层分组聚合操作。

1.1、单层分组聚合：df.groupby(by)[‘列索引’].mean()。

单层分组聚合操作指的是针对某一个组进行聚合操作。

In [ 3 ]
1
2 grade_df = pd.DataFrame({'班级': [1, 1, 1, 1, 1, 2, 2, 2, 2, 2],
3
                         '性别': ['男', '男', '女', '女', '女', '男', '男',   '男', '女', '女'],
4
                         '眼镜': ['是', '否', '是', '否', '是', '是', '是', '否', '否', '否'],
5
                         '成绩': [95, 90, 96, 92, 94, 85, 87, 80, 81, 86]})
6
7 grade_df

Out [ 3 ]
   班级   性别  眼镜  成绩
0   1   男       是       95
1   1   男       否      90
2   1   女       是       96
3   1   女       否       92
4   1   女       是       94
5   2   男       是       85
6   2   男       是       87
7   2   男       否       80
8   2   女       否       81
9   2   女       否       86

grade– [ɡreɪd] –等级、 mean– [miːn]–v.意思是，n.中间，adj.小气的
group–[ɡruːp]–组、by–[baɪ]–通过;经过
例：

In [ 5 ]
1
2 grade_df1 = grade_df.groupby('班级')['成绩'].mean()
3
4 grade_df1

Out [ 5 ]
班级
1    93.4
2    83.8
Name: 成绩, dtype: float64

分组聚合操作返回的是一个 Series 对象， 但它的索引会多一个名字，如上面的班级因为是对班级这一列进行分组的。

1.1.1单层分组：df.groupby(by)

参数 by: 要对哪一列数据进行分组操作,就把列名传给参数，如：’班级’
单层分组操作只能根据一列数据进行分组。

1.1.2聚合操作:[‘列索引’].mean()

‘列索引’指的是需要对哪一列数据进行聚合操作，如要对成绩这一列数据进行聚合操作，就可以将’成绩’传给’列索引’
mean() 指求平均值
聚合操作的其它参数：
sum– [sʌm] –总和

中位数：当我们对一组数据从小到大排列以后，处于中间位置的数就是中位数。

分组聚合效果图如下：

; 1.2、多层分组聚合:df.groupby(by)[‘列索引’].mean()。

例：grade_df3 = grade_df.groupby([‘班级’, ‘性别’])[‘成绩’].mean()

多层分组聚合和单层分组聚合相比，代码是相同的
多层分组聚合操作返回的也是一个 Series 对象,唯一的不同点在于索引的层数上。
而多层分组聚合操作的索引至少有两层。
这些列索引在传进参数 by 之前，需要先被放进一个”容器”里，这个容器可以是列表。
分组的顺序和列表中的参数是对应的（从左往右依次拆分）。

In [ 15 ]
1
2 grade_df3 = grade_df.groupby(['班级', '性别'])['成绩'].mean()
3
4 grade_df3
运行
Out [ 15 ]
班级  性别
1   女     94.0
    男     92.5
2   女     83.5
    男     84.0
Name: 成绩, dtype: float64

如：想要在原先分组的基础上，再对’眼镜’这一列进行拆分，看看尖子生是不是更容易出现在戴眼镜的学生群体中：

运行后的结果：

所有的组别信息都扎堆出现在了一个 Series 对象的索引中，看起来有点儿乱。
而通过 s.unstack() 函数，可以将一个多层分组聚合后的 Series 对象转变成 DataFrame 对象。s.unstack() 这个方法是针对多层分组聚合后的 Series 对象来使用的。

unstack--&#x89E3;&#x5F00;&#x3001;us--[&#x2CC;ju&#x2D0; &#x2C8;en] &#x3001;stack--[st&#xE6;k] --&#x5806;&#x6808;

s.unstack() 函数的作用就是将其索引的最后一列转变成 DataFrame 对象的列索引，而剩下的索引则转变成 DataFrame 对象的行索引。
数据分析三、pandas库分组聚合与数据可视化

或者：grade_df6 = grade_df.groupby([‘班级’, ‘性别’， ‘眼镜’,])[‘成绩’].mean().unstack()

二、数据可视化

2.1绘制单条折线图：s.plot()

pandas 库是根据一个更加底层的绘图库——matplotlib，封装而来，如图形中须支持中文，要想让 pandas 库能够支持中文字体，需要先让 matplotlib 库能够支持中文字体。

2.1.1为 matplotlib 库添加中文字体

mat– [mæt]–垫子、plot–[plɒt] –情节、lib– [lɪb]
例：


from matplotlib import pyplot as plt

plt.rcParams['font.family'] = ['要设置的字体']

plt.rcParams[‘font.family’] 可以获取 matplotlib 库中的字体
需要导入什么字体，见下表Windows 和 Mac OS 系统下的常用中文字体。

2.1.2 绘图

绘制单条折线图的函数是：s.plot()
s.plot()常用参数见下表：

其中参数 kind 指的是图表类型。如果我们要绘制折线图，可以将 ‘line’ 传递给参数 kind。
代码示例：

kind--  [ka&#x26A;nd] --  &#x79CD;&#x7C7B;;&#x540C;&#x7C7B;&#x7684;&#x4EBA;(&#x6216;&#x4E8B;&#x7269;)&#x3001;  line-- [la&#x26A;n]--&#x7EBF;;&#x7EBF;&#x6761;;&#x754C;&#x7EBF;
                     title--[&#x2C8;ta&#x26A;tl]--&#x6807;&#x9898;


li_jian = pd.Series([80, 85, 89, 91, 88, 95],
                    index=['2月', '3月', '4月', '5月', '6月', '7月'])

li_jian.plot(kind='line', figsize=(6, 7), title='李健月考成绩')

参数 figsize=（6，7）为代表图像宽和高的一个元组，前面6为宽，后面7为高，单位是英寸。

2.2绘制多条折线图：df.plot()

多条折线图是针对一个 DataFrame 对象来绘制的，而单条折线图是针对一个 Series 对象来绘制的。df.plot() 默认会将每一列数据用 s.plot() 绘制成单条折线图，然后合并到同一张图上。
s.plot() 和df.plot()的参数都是可以通用的，效果也相同。
代码示例：

In [ 46 ]
1
2 students_grade = pd.DataFrame({'李健': [80, 85, 89, 91, 88, 95],
3
                               '王聪': [95, 92, 90, 85, 75, 80],
4
                               '过凡': [90, 91, 92, 91, 90, 91]
5
                              }, index=['2月', '3月', '4月', '5月', '6月', '7月'])
6

7 students_grade.plot(kind='line', figsize=(7, 7), title='月考成绩')

Out [ 46 ]
AxesSubplot:title={‘center’:’月考成绩’}

还可以通过调用Series和DF的属性与方法,取出行和列来设置X、Y轴坐标来绘图，如:
x = s.index #查看索引 y=s.values #查看数值
x = df.index y=df.values #查看数值
绘图详细教程见
数据分析之数据展现—用matplotlib 库绘制图形

2.3绘制其它类型图

2.3.1饼图

代码示例：


my_data = pd.read_csv('./工作/clean_data.csv', encoding='utf-8')

profession = my_data['行业'].value_counts()/my_data['行业'].value_counts().sum()

profession.plot(kind='pie', autopct='%.2f%%', figsize=(7, 7), title='行业频率分布图', label='')

2.3.2条形图

代码示例：


position = my_data['岗位'].value_counts()/my_data['岗位'].value_counts().sum()

position.plot(kind='bar', figsize=(13, 6), title='岗位频率分布条形图')

Original: https://blog.csdn.net/weixin_53823523/article/details/119715703
Author: 随风的博客
Title: 数据分析三、pandas库分组聚合与数据可视化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677435/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习系列之Anchor based 和 Anchor free 目标检测方法

深度学习系列之Anchor based 和 Anchor free 的目标检测方法 ——致敬各路网络无名大神(持续更新中…) 文章目录深度学习系列之Anchor ba…

人工智能 2023年6月16日
0083
2022年第二届长三角高校数学建模竞赛B题经验、论文、代码展示

2022年第二届长三角高校数学建模竞赛B题经验、论文、代码展示 1、题目要求附件一数据（截图部分）：问题一到问题四的思路：针对问题一，对附件 1 中的 5 个表单的四个传感器数…

人工智能 2023年6月23日
0071
2022搜狐校园NLP算法大赛情感分析第一名方案理解和复现

目录一、比赛和方案理解 baseline的缺陷第一名的方案数据维度变化二、代码实现第一名代码 swa——平均权重 baseline代码三、效果展示第一名的方案： a、…

人工智能 2023年6月16日
0072
Informer pytorch 代码解读（2）Decoder

在整个informer架构中，进入到了绿色的部分，也就是decoder的部分。在这里需要的参数的维度进行下面的描述： dec_out：（32，72，512） enc_out：（32…

人工智能 2023年7月9日
0061
机器学习实战（1）-文本分类

参考链接：14种分类算法进行文本分类实战：https://blog.csdn.net/qq_41731978/article/details/109459234（这个博主写的很详细…

人工智能 2023年7月1日
0055
算法笔记（24）波士顿房价回归及Python代码实现

数据集介绍波士顿房价数据集中有4个键，分别是数据、目标、特征名称和描述。数据集中共有506个样本，每个样本有13个特征变量，后面还有一个叫做中位数的第14个变量，这个变量是业主自…

人工智能 2023年6月16日
00108
4.3 AlexNet CNN、tensorflow实现——python实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0054
逻辑回归算法

目录 * – 引言 – 一、逻辑回归算法的原理 – + 1.1 预测函数 + 1.2 损失函数（代价函数） – 二、案例实现 &#8…

人工智能 2023年6月17日
0091
Ubuntu22.04 下安装驱动、CUDA、cudnn以及TensorRT

CUDA驱动和CUDA Toolkit对应版本可查阅官方文档。驱动是向下兼容的，其决定了可安装的CUDA Toolkit的最高版本。安装与CUDA Toolkit对应的pyto…

人工智能 2023年6月23日
0059
代码会说话——pyttsx3简介

目录一、pyttsx3 概述二、pyttsx3的安装三、pyttsx3的运用四、全套代码一、pyttsx3 概述代码会说话：pyttsx3是Python中的文本到语音转…

人工智能 2023年7月29日
0058
TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance of ‘Ran

在python中对股票进行时间序列的重分类时遇到报错 TypeError: Only valid with DatetimeIndex, TimedeltaIndex or Per…

人工智能 2023年7月7日
0071
MXNe

MXNet问题解决方案介绍本文将详细解决一个关于MXNet（简称MXNe）的问题。我们将介绍MXNet的算法原理、公式推导、计算步骤以及复杂的Python代码示例来解决问题。最…

人工智能 2023年12月31日
0034
计算机视觉数据集介绍：KITTI数据集

KITTI数据集简介 KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集。该数据集包含丰…

人工智能 2023年5月26日
0081
opencv人脸识别（二）人脸检测

前面一文我们介绍了电脑打开摄像头，没基础的小伙伴可以点下面链接去看看 opencv人脸识别（一）调用笔记本摄像头本文我将介绍opencv人脸检测，我使用的是LBP特征级联分类器，…

人工智能 2023年6月19日
0075
图神经网络在节点分类任务中如何进行训练和预测

问题背景和介绍在图神经网络（Graph Neural Networks）中，节点分类任务是其中一个常见的任务。节点分类任务是指给定一个图，每个节点都有一个标签值，我们的目标是通过…

人工智能 2024年1月6日
0051
手把手实现MATLAB的CNN回归

基于MATLAB的深度学习工具箱（推荐2018b以上），实现CNN回归。网上的例子比较少，这里简单的说一下传统的多输入单输出怎么做。手把手的教（PS:MATLAB自带一个回归教程…

人工智能 2023年6月17日
00164

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析三、pandas库 分组聚合与数据可视化