【TL第二期】动手学数据分析-第二章数据预处理

2023年8月20日下午11:03 • Python • 阅读 34

数据运用

GroupBy机制（分组机制：分隔、应用和组合）

分组之后进行更高一级的运算：最大、小值，求和，均值，中位数，标准差，方差

分组机制拓展：

my_group1=titanic.groupby('pclass')

my_group1.count()

list(my_group1)


my_group2=titanic.groupby('sex')
sex_sur=my_group2['survived'].agg(['mean','count'])
sex_sur

my_group2=titanic.groupby(['pclass','sex'])
my_group2.agg(['mean','count'])

上述代码运行的结果展示：【多层分组】


my_group2=titanic.groupby(['pclass','sex'])
my_group2.agg([('均值','mean'),('计数','count')])

① 计算泰坦尼克号男性与女性的平均票价

group = df.groupby('Sex')
group.describe()

df.groupby('Sex')['Age'].describe()

df.groupby('Sex')['Age'].mean()

df.groupby('Sex')['Fare'].mean()

② 统计泰坦尼克号中男女的存活人数

survived_sex = df.groupby('Sex')['Survived'].sum()

③ 计算客舱不同等级的存活人数

survived_pclass = df.groupby('Pclass')['Survived'].sum()

这些运算可以通过 agg()函数来同时计算。并且可以使用 rename()函数修改列名。

方便同时统计多个维度的数据。否则需要经过多次的数据合并，较复杂。


df.groupby('Pclass')['Survived'].agg('sum')

df.df.groupby('Pclass').agg({'Survived':'sum', 'Fare':'mean'})


df.df.groupby('Pclass').agg({'Survived':'sum', 'Fare':'mean'}).rename(columns = {
    'Survived':'survived_sum','Fare':'fare_mean'
})

④统计在不同等级的票中的不同年龄的船票花费的平均值

df.groupby(['Pclass','Age'])['Fare'].mean()

⑤ 将①、②数据合并

result = pd.merge(means,survived_sex, on='Sex')

merge() 不可以直接对Series格式的数据进行拼接，需要转为DataFrame格式

survived_sex.to_frame()

⑥ 得出不同年龄的总的存活人数，然后找出存活人数最多的年龄段，最后计算存活人数最高的存活率（存活人数/总人数）


survived_age = df.groupby('Age')['Survived'].sum()

survived_age[survived_age.values == survived_age.max()]

_sum = df['Survived'].sum()

percent =survived_age.max()/_su

Original: https://blog.csdn.net/hhhhh601/article/details/121986788
Author: yijia7590jfz
Title: 【TL第二期】动手学数据分析-第二章数据预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755226/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python numpy | 详解 np.unique() 的妙用去重 + 重排序、统计出现次数

文章目录一、np.unique() 总结二、np.unique() 实践 CSDN 叶庭云： https://yetingyun.blog.csdn.net/ ; 一、np.u…

Python 2023年8月24日
0041
CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and Dual Norm

CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and…

Python 2023年9月29日
0039
Python测试框架之unittest和pytest 的区别

一、Unittest Unittest是Python标准库中自带的单元测试框架，Unittest有时候也被称为PyUnit，就像JUnit是Java语言的标准单元测试框架一样，Un…

Python 2023年9月10日
0022
conda常用基础命令（环境管理和包的安装，卸载及更新）

conda将几乎所有的工作，包括第三方包都当做package对待，因此conda可以打破包管理与环境管理的约束，从而能够更高效地安装各种版本的以及各种package，并且切换起来…

Python 2023年9月8日
0087
Python高级语法（11）多线程、多进程、协程简介与选择

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0066
LSTM反向传播原理——LSTM从零实现系列(2)

一、LSTM反向传播介绍 LSTM的反向传播过程相对复杂，主要因为其对应的控制门较多，而对于每一个控制门我们都需要求导，所以工作量较大。首先我们根据LSTM结构图分析一下每个控制…

Python 2023年9月7日
0066
Python爬虫案例：采集Tripadvisor数据

headers = { ‘cookie’: ‘TADCID=foOmU9bDp6JGIXg2ABQCFdpBzzOuRA-9xvCxaMyI12wTEaQSQ4euq_1sNSDm…

Python 2023年5月24日
0061
【学习笔记】Tensorflow和numpy中argmax()函数的使用和区别

np.argmax(a, axis=None, out=None) tf.argmax(input, axis=None, name=None, dimension=None, o…

Python 2023年8月25日
0037
pythonmatplotlib怎么画阴影_python – 在matplotlib的极地阴影阴影细胞

当然！只需在极轴上使用pcolormesh. 例如. import matplotlib.pyplot as plt import numpy as np Generate som…

Python 2023年9月5日
0053
【计网】IP地址、子网掩码、网络号、主机号、网络地址、主机地址以及ip段/数字-如192.168.0.1/24是什么意思?

https://blog.csdn.net/gatieme/article/details/50989257 Original: https://www.cnblogs.com/J…

Python 2023年6月6日
0050
pythoncom 无法import win32api、win32con、win32com、win32gui 问题一次解决！方法合集

最近写项目发现python pycharm 导入 win32api、win32con、win32com、win32gui 等win32相关的包都会出现或多或少问题，Google一大…

Python 2023年5月23日
0080
python–Matplotlib数据可视化基础

Matplotlib数据可视化基础绘图基础语法与常用参数 * pyplot基础语法 – 创建画布与创建子图常见函数添加画布内容常用函数保存与显示图形常用函数设置…

Python 2023年9月3日
0055
python request post from 提交表单

前言一个http请求包括三个部分，为别为请求行，请求报头，消息主体，类似以下这样：请求行请求报头消息主体HTTP协议规定post提交的数据必须放在消息主体中，但是协议并没有规定必…

Python 2023年8月2日
0046
python3基础知识复习 — web开发入门

文章目录 * – Web开发 – + HTTP协议简介 + * HTTP请求 * http协议的格式 + WSGI接口 + * 运行WSGI服务 + Web…

Python 2023年8月14日
0075
django使用xadmin

django使用xadmin xadmin特点：1.支持在多种屏幕上无缝浏览2.内置功能丰富3.强大的插件系统4.可以直接在后台对表进行增删改查安装xadmin注意：是 pip …

Python 2023年8月6日
0057
关于Python中一些库的理解以及用法

一、Numpy库 1.np.zeros：返回来一个给定形状和类型的用0填充的数组； zeros(shape, dtype=float, order=’C’)…

Python 2023年8月27日
0040

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【TL第二期】动手学数据分析-第二章 数据预处理

大家都在看

【TL第二期】动手学数据分析-第二章数据预处理