【DW组队学习—动手学数据分析】第一章：第三节探索性数据分析-课程学习

2023年7月8日上午7:36 • 人工智能 • 阅读 74

复习：在前面我们已经学习了Pandas基础，知道利用Pandas读取csv数据的增删查改，今天我们要学习的就是探索性数据分析，主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。


import numpy as np
import pandas as pd


data = pd.read_csv("train_chinese.csv")

教材《Python for Data Analysis》第五章


'''
我们举了一个例子
pd.DataFrame() ：创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7
index=[2，1] ：DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c'] ：DataFrame 对象的索引行
'''
df = pd.DataFrame(data = np.arange(8).reshape((2,4)), index = [2,1], columns = ['d', 'a', 'b', 'c'])
df

dabc2012314567

【代码解析】

pd.DataFrame() ：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=[‘2, 1] ：DataFrame 对象的索引列

columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

【总结】排序
pandas 支持三种排序方式：按索引标签排序，按列值排序，以及两者结合排序。
1、按索引标签排序
Series.sort_index() 和 DataFrame.sort_index(axis, ascending)

其中：

axis可以选择是按行索引排序(0)还是列索引排序(1)
ascending可以选择是升序(True)还是降序(False)

2、按列值排序
Series.sort_values() 和 DataFrame.sort_values(by = [“列名”])

3、两者结合排序
DataFrame.sort_values(by = [“行名”, “列名”], ascending)

【拓展】复合行索引：如”a”列和”b”列共同构成行索引
1、设置复合行索引。 df.set_index(list(“ab”))
2、按其中一个行索引排序。 df.sort_index(level = “a”)

1.让行索引升序排序


df.sort_index(0)

dabc1456720123

2.让列索引升序排序


df.sort_index(1)

abcd2123015674

3.让列索引降序排序


df.sort_index(1, ascending = False)

dcba2032114765

4.让任选两列数据同时降序排序


df.sort_values(["a","b"])

dabc2012314567

'''
在开始我们已经导入了train_chinese.csv数据，而且前面我们也学习了导入数据过程，根据上面学习，我们直接对目标列进行排序即可
head(20) : 读取前20条数据

'''
data.head(20)

乘客ID是否幸存乘客等级(1/2/3等舱位)乘客姓名性别年龄堂兄弟/妹个数父母与小孩个数船票信息票价客舱登船港口0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS1211Cumings, Mrs. John Bradley (Florence Briggs Th…female38.010PC 1759971.2833C85C2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S4503Allen, Mr. William Henrymale35.0003734508.0500NaNS5603Moran, Mr. JamesmaleNaN003308778.4583NaNQ6701McCarthy, Mr. Timothy Jmale54.0001746351.8625E46S7803Palsson, Master. Gosta Leonardmale2.03134990921.0750NaNS8913Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)female27.00234774211.1333NaNS91012Nasser, Mrs. Nicholas (Adele Achem)female14.01023773630.0708NaNC101113Sandstrom, Miss. Marguerite Rutfemale4.011PP 954916.7000G6S111211Bonnell, Miss. Elizabethfemale58.00011378326.5500C103S121303Saundercock, Mr. William Henrymale20.000A/5. 21518.0500NaNS131403Andersson, Mr. Anders Johanmale39.01534708231.2750NaNS141503Vestrom, Miss. Hulda Amanda Adolfinafemale14.0003504067.8542NaNS151612Hewlett, Mrs. (Mary D Kingcome)female55.00024870616.0000NaNS161703Rice, Master. Eugenemale2.04138265229.1250NaNQ171812Williams, Mr. Charles EugenemaleNaN0024437313.0000NaNS181903Vander Planke, Mrs. Julius (Emelia Maria Vande…female31.01034576318.0000NaNS192013Masselmani, Mrs. FatimafemaleNaN0026497.2250NaNC


data.sort_values(["票价", "年龄"], ascending = False)

乘客ID是否幸存乘客等级(1/2/3等舱位)乘客姓名性别年龄堂兄弟/妹个数父母与小孩个数船票信息票价客舱登船港口67968011Cardeza, Mr. Thomas Drake Martinezmale36.001PC 17755512.3292B51 B53 B55C25825911Ward, Miss. Annafemale35.000PC 17755512.3292NaNC73773811Lesurer, Mr. Gustave Jmale35.000PC 17755512.3292B101C43843901Fortune, Mr. Markmale64.01419950263.0000C23 C25 C27S34134211Fortune, Miss. Alice Elizabethfemale24.03219950263.0000C23 C25 C27S…………………………………48148202Frost, Mr. Anthony Wood “Archie”maleNaN002398540.0000NaNS63363401Parr, Mr. William Henry MarshmaleNaN001120520.0000NaNS67467502Watson, Mr. Ennis HastingsmaleNaN002398560.0000NaNS73273302Knight, Mr. Robert JmaleNaN002398550.0000NaNS81581601Fry, Mr. RichardmaleNaN001120580.0000B102S

891 rows × 12 columns

【思考】排序后，如果我们仅仅关注年龄和票价两列。根据常识我知道发现票价越高的应该客舱越好，所以我们会明显看出，票价前20的乘客中存活的有14人，这是相当高的一个比例，那么我们后面是不是可以进一步分析一下票价和存活之间的关系，年龄和存活之间的关系呢？当你开始发现数据之间的关系了，数据分析就开始了。

当然，这只是我的想法，你还可以有更多想法，欢迎写在你的学习笔记中。


"""
我们举了一个例子：
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])
frame1_a
"""


frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_a

abcone0.01.02.0two3.04.05.0three6.07.08.0

frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])
frame1_b

aecfirst0.01.02.0one3.04.05.0two6.07.08.0second9.010.011.0

frame1_a + frame1_b

abcefirstNaNNaNNaNNaNone3.0NaN7.0NaNsecondNaNNaNNaNNaNthreeNaNNaNNaNNaNtwo9.0NaN13.0NaN

【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。

当然，DataFrame还有很多算术运算，如减法，除法等，有兴趣的同学可以看《利用Python进行数据分析》第五章算术运算与数据对齐部分，多在网络上查找相关学习资料。

【总结】表格计算

'''
还是用之前导入的chinese_train.csv如果我们想看看在船上，最大的家族有多少人（'兄弟姐妹个数'+'父母子女个数'），我们该怎么做呢？
'''
max(data["堂兄弟/妹个数"]+data["父母与小孩个数"])


"""
我们举了一个例子：
frame2 = pd.DataFrame([[1.4, np.nan],
                       [7.1, -4.5],
                       [np.nan, np.nan],
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

"""
frame2 = pd.DataFrame([[1.4, np.nan],
                       [7.1, -4.5],
                       [np.nan, np.nan],
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

onetwoa1.40NaNb7.10-4.5cNaNNaNd0.75-1.3

调用 describe 函数，观察frame2的数据基本信息

DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)
生成描述性统计数据，包括非空数个数、平均值、标准差、最小值（0%）、25%、50%、75%、最大值（100%）
其中:

percentiles 选择包含在输出中的百分位数，取值为列表
include 要包含在结果中的数据类型，”all”（输入的所有列都将包含在输出中）或列表（符合指定类型的列才能统计）或None（包括所有数字列）
exclude 不包含在结果中的数据类型，列表（符合指定类型的列不进行统计）或None（不排除）
datetime_is_numeric 是否将日期时间 dtypes 视为数字


frame2.describe()

onetwocount3.0000002.000000mean3.083333-2.900000std3.4936852.262742min0.750000-4.50000025%1.075000-3.70000050%1.400000-2.90000075%4.250000-2.100000max7.100000-1.300000

'''
看看泰坦尼克号数据集中 票价 这列数据的基本统计数据
'''


data[["票价", "父母与小孩个数"]].describe()

票价父母与小孩个数count891.000000891.000000mean32.2042080.381594std49.6934290.806057min0.0000000.00000025%7.9104000.00000050%14.4542000.00000075%31.0000000.000000max512.3292006.000000

【思考】从上面数据我们可以看出，试试在下面写出你的看法。然后看看我们给出的答案。

例：从上面数据我们可以看出，一共有891个票价数据，平均值约为：32.20，标准差约为49.69，说明票价波动特别大， 25%的人的票价是低于7.91的，50%的人的票价低于14.45，75%的人的票价低于31.00，票价最大值约为512.33，最小值为0。

【总结】本节中我们通过Pandas的一些内置函数对数据进行了初步统计查看，这个过程最重要的不是大家得掌握这些函数，而是看懂从这些函数出来的数据，构建自己的数据分析思维，这也是第一章最重要的点，希望大家学完第一章能对数据有个基本认识，了解自己在做什么，为什么这么做，后面的章节我们将开始对数据进行清洗，进一步分析。

Original: https://blog.csdn.net/sinat_33209811/article/details/126843558
Author: 0_×
Title: 【DW组队学习—动手学数据分析】第一章：第三节探索性数据分析-课程学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678053/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch中分类loss总结

Pytorch 中分类loss总结近期在学习pytorch时，发现分类算法在输出时不写激活层如softmax激活/sigmoid激活。并且pytorch文档中除了softmax激…

人工智能 2023年7月2日
0052
Anaconda配置环境与Pycharm配合使用

首先需要知道为什么要用Anaconda配置环境，因为当你在base环境下安装较多库时，容易导致有一些安装包冲突，所以我们需要用Anaconda配置环境，需要哪些库，就在该环境下安装…

人工智能 2023年7月29日
0062
【目标检测】YOLOv7理论简介+实践测试

概述 YOLOv7由YOLOv4的作者团队提出，其论文一作也是YOLOR的作者。论文的风格也和YOLOR一样，比较难懂，因此这里的理论部分也不做仔细研究，仅对论文提出的几个创新点进…

人工智能 2023年7月10日
0084
基于单应矩阵的图像拼接

首先我们看看这个方法的图像拼接的效果：依次这是我们的左图和右图，和最后拼接的效果图：看了图片如果感兴趣的话，就可以接着往下看了。目录一、单应矩阵二、ORB特征点提取和匹配…

人工智能 2023年7月19日
0045
PAMI19 – 强大的级联RCNN架构《Cascade R-CNN: High Quality Object Detection and Instance Segmentation》

文章目录 * – 原文 – 初识 – 相知 – + Challenge to High Quality Detection + Ca…

人工智能 2023年7月10日
0064
yolo系列学习（入门经过）

相关学习资料： 1、千赞博客（YOLOv3，内附有v1,v2链接）：yolo系列之yolo v3【深度解析】_木盏-CSDN博客_yolov3 2、知乎江大白大佬（对新手快速了…

人工智能 2023年6月17日
0076
语音识别入门课——week5（GMM-HMM）

数字信号的基本知识 MFCC/Fbank特征 GMM模型 EM算法 HMM的三个基本问题（概率问题，预测问题，学习问题）终极目的：让机器听懂首先要出三个概念：对齐：&#822…

人工智能 2023年5月25日
0077
MySQL删除表数据 MySQL清空表命令 3种方法

一、MySQL清空表数据命令：truncate SQL语法： truncate table 表名 注意：不能与where一起使用。 t…

人工智能 2023年7月29日
0088
边缘计算如何与物联网结合在一起？

边缘计算可以使数据处理尽可能接近物联网(IoT)设备，这意味着企业IT在延迟、性能、成本、安全性等方面具有优势。边缘计算技术如今与其他几项新兴技术齐头并进，尤其是混合云和5G。它…

人工智能 2023年6月4日
0083
Python表白代码：太秀了，用过的人都找到了对象…【满屏玫瑰盛开】

导语暗恋让人受尽委屈！一开始，你是我的秘密，我怕你知道，又怕你不知道，又怕你知道装作不知道！这大概就是暗恋的感受吧，可若是双向奔赴，那简更是甜蜜度爆表，快同小编吃…

人工智能 2023年7月6日
0042
基于QT 实现机器视觉软件

Qt NodeEditor NodeEditor被认为是一个基于qt的通用库，旨在进行图控制的数据处理。节点表示具有一定输入和输出的算法。连接将数据从第一个节点的输出(源)传输到第…

人工智能 2023年6月28日
0062
区间预测 | MATLAB实现GRU门控循环单元分位数回归多输入单输出

区间预测 | MATLAB实现GRU门控循环单元分位数回归多输入单输出目录 * – 区间预测 | MATLAB实现GRU门控循环单元分位数回归多输入单输出 &#821…

人工智能 2023年6月18日
0073
【附源码】Python计算机毕业设计企业物资管理系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月28日
0043
python利用图像处理方法实现多目标检测与裁剪（opencv）

图像处理方法实现多目标检测与裁剪简述 * 1.批量resize – 1）效果 2）原理 3）代码分析 2.找出所有目标轮廓（定位） – 1）效果 2）原理…

人工智能 2023年6月18日
0069
【BP回归预测】基于matlab GA优化BP回归预测（含优化前的对比）【含Matlab源码 1790期】

⛄一、相关技术原理简介 1 BP神经网络原理反向传播（Back Propagation,BP）神经网络于1986年由Rumelhart和McCelland领导的科学家小组提出，是一…

人工智能 2023年6月17日
0068
【目标检测】【边界框回归】Bounding-Box regression

最近开始看目标检测的论文，第一篇为R-CNN论文，是两阶段目标检测的开山奠基之作。论文中的损失函数包含了边界框回归，且在R-CNN论文里面有详细的介绍。一、为什么要做边界框回归？…

人工智能 2023年6月16日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【DW组队学习—动手学数据分析】第一章：第三节探索性数据分析-课程学习

大家都在看