从零开始数据分析Kaggle项目—泰坦尼克号（三）

2023年8月17日下午9:54 • Python • 阅读 47

从零开始数据分析Kaggle项目—泰坦尼克号（三）
本节主要内容如何利用Pandas进行排序、算术计算以及函数describe()的使用。


import numpy as np
import pandas as pd

df = pd.read_csv("train.csv")

df.head()

PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS1211Cumings, Mrs. John Bradley (Florence Briggs Th…female38.010PC 1759971.2833C85C2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S4503Allen, Mr. William Henrymale35.0003734508.0500NaNS


df1 = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['2', '1'],
                     columns=['a', 'b', 'c','d'])
df1

abcd2012314567


df1.sort_values(by='c', ascending=True)

abcd2012314567


df1.sort_index()

abcd1456720123


df1.sort_index(axis=1)

abcd2012314567


df1.sort_index(axis=1, ascending=False)

dcba2321017654


df1.sort_values(by=['a', 'c'], ascending=False)

abcd1456720123


df.sort_values(by=['Fare', 'Age'], ascending=False).head(5)

PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked67968011Cardeza, Mr. Thomas Drake Martinezmale36.001PC 17755512.3292B51 B53 B55C25825911Ward, Miss. Annafemale35.000PC 17755512.3292NaNC73773811Lesurer, Mr. Gustave Jmale35.000PC 17755512.3292B101C43843901Fortune, Mr. Markmale64.01419950263.0000C23 C25 C27S34134211Fortune, Miss. Alice Elizabethfemale24.03219950263.0000C23 C25 C27S


df_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
df_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])

df_a

abcone0.01.02.0two3.04.05.0three6.07.08.0

df_b

aecfirst0.01.02.0one3.04.05.0two6.07.08.0second9.010.011.0


df_a + df_b

abcefirstNaNNaNNaNNaNone3.0NaN7.0NaNsecondNaNNaNNaNNaNthreeNaNNaNNaNNaNtwo9.0NaN13.0NaN


max(df['SibSp'] + df['Parch'])


df.describe()

PassengerIdSurvivedPclassAgeSibSpParchFarecount891.000000891.000000891.000000714.000000891.000000891.000000891.000000mean446.0000000.3838382.30864229.6991180.5230080.38159432.204208std257.3538420.4865920.83607114.5264971.1027430.80605749.693429min1.0000000.0000001.0000000.4200000.0000000.0000000.00000025%223.5000000.0000002.00000020.1250000.0000000.0000007.91040050%446.0000000.0000003.00000028.0000000.0000000.00000014.45420075%668.5000001.0000003.00000038.0000001.0000000.00000031.000000max891.0000001.0000003.00000080.0000008.0000006.000000512.329200


df["Fare"].describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: Fare, dtype: float64


df["Parch"].describe()

count    891.000000
mean       0.381594
std        0.806057
min        0.000000
25%        0.000000
50%        0.000000
75%        0.000000
max        6.000000
Name: Parch, dtype: float64

总结：本项目共分三个章节，本章第1节主要内容如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用，欢迎交流
第一章 end

Original: https://blog.csdn.net/weixin_45058606/article/details/121956262
Author: 一个游在的小鱼
Title: 从零开始数据分析Kaggle项目—泰坦尼克号（三）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/752470/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python Numpy数组

Python Numpy数组数据处理与计算、变换导入numpy： import numpy as np注意： numpy中的数组中元素的类型必须一致 Numpy：ndarray(…

Python 2023年8月24日
0055
03_Django-GET请求和POST请求-设计模式及模板层

03_Django-GET请求和POST请求-设计模式及模板层视频🔗：https://www.bilibili.com/video/BV1vK4y1o7jH博客🔗：https:/…

Python 2023年11月9日
0045
apply函数分享

apply函数是pandas中极其好用的一个函数，它可以对dataframe在行或列方向上进行批量化处理，从而大大简化数据处理的过程。 apply函数的基本形式： DataFram…

Python 2023年8月21日
0035
进大厂必须要会的单元测试

本文将按照如下顺序给大家简单讲讲单元测试应该怎么写什么是单元测试单元测试又称模块测试，是针对软件设计的最小单位（模块）就行正确性的校验的测试，检查每个程序模块是否实现了规定的功…

Python 2023年10月14日
0036
3D卷积神经网络详解

1 3d卷积的官方详解 2 2D卷积与3D卷积 1）2D卷积 2D卷积：卷积核在输入图像的二维空间进行滑窗操作。 2D单通道卷积对于2维卷积，一个3*3的卷积核，在单通道图像上进…

Python 2023年10月27日
0033
Python基础第二话：列表+元组+字典+集合，学基础还得是这….

Original: https://www.cnblogs.com/123456feng/p/16182648.htmlAuthor: 蚂蚁ailingTitle: Python基…

Python 2023年11月3日
0041
猿创征文｜低代码开发15个高效开源项目推荐

低代码开发平台（LCDP）是无需编码（0代码）或通过少量代码就可以快速生成应用程序的开发平台。通过可视化进行应用程序开发的方法，使具有不同经验水平的开发人员可以通过图形化的用户界面…

Python 2023年9月16日
0067
pytest快速入门（1）

pytest系列教程（1）简介–The pytest framework makes it easy to write small, readable tests, and can…

Python 2023年9月13日
0050
让jupyter notebook能使用新conda环境（切换jupyter内核）

前言：换了电脑重配置环境后，在新建环境后，无需新安装jupyter notebook，在命令行中直接输入如下命令即可打开。 jupyter notebook # anaconda…

Python 2023年9月7日
0056
如何使用 OneAuth 向 Flask 应用添加用户身份验证实现SSO

如何使用 OneAuth 向 Flask 应用添加用户身份验证用户身份验证是 Web 应用程序中的一项基本功能，因此人们可以创建和访问自己的帐户，但不幸的是，身份验证并不总是很容…

Python 2023年8月15日
0055
Python中OpenCV库（二）

OpenCV库（二）五、图像直方图 1、基本概念 2、统计函数 3、绘制直方图 3.1 matplotlib 3.2 OpenCV 4、使用掩膜的直方图六、视频采集 …

Python 2023年6月9日
0094
在三维空间中表示平面和直线

平面和直线是三维计算机视觉和计算机图形学中有用的几何实体。将它们表示为一组点是低效的，这会导致很大的内存需求，具体取决于用于生成点的步长。在本文中，我将讨论如何使用向量方程表示平…

Python 2023年8月25日
0087
使用蒙特卡罗模拟期权定价

更多精彩内容，欢迎关注公众号：数量技术宅，也可添加技术宅个人微信号：sljsz01，与我交流。期权是一种合约，它赋予买方在未来某个时间点以特定价格买卖资产的权利。这些被称为…

Python 2023年6月3日
00102
Anaconda+tensorflow环境下，在pycharm中安装matplotlib教程（解决TypeError: LoadLibrary() argument 1 must be str, n）

目录前言一、安装遇到的错误二、安装步骤 1.进入Anaconda Prompt激活tensorflow 2.安装matplotlib 3.检查是否安装成功总结前言 mat…

Python 2023年9月1日
0059
HTML5期末大作业：生鲜水果蔬菜商城网站设计——天天生鲜水果蔬菜商城(10页) web前端设计与开发期末作品/期末大作业

HTML5期末大作业：生鲜水果蔬菜商城网站设计——天天生鲜水果蔬菜商城(10页) web前端设计与开发期末作品/期末大作业常见网页设计作业题材有 个&amp…

Python 2023年8月4日
0091
拯救pandas计划（23）——groupby分组聚合

拯救pandas计划（23）——groupby分组聚合 * – / 数据需求 – / 方法说明 – / 需求处理 – / 总结最近…

Python 2023年8月21日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

从零开始数据分析Kaggle项目—泰坦尼克号（三）

大家都在看