Python数据分析（1）——数据加载与简单描述性分析

2023年7月8日下午6:31 • 人工智能 • 阅读 64

Python数据分析（1）——数据加载与简单描述性分析

1.读入文件
*
1.1 通过Python标准库导入
1.2 通过Pandas导入
1.3 逐块读取数据
2.初步分析
*
2.1 简单描述性统计
2.2提取特定行列
2.3对数据进行排序
–
- 友情链接

1.读入文件

本文通过kaggle泰坦尼克号数据进行分析介绍。(这里利用-Titanic – Machine Learning from Disaster数据https://www.kaggle.com/c/titanic/overview）

1.1 通过Python标准库导入

此处读取的文件为csv格式，Python中提供了一个表准的类库来处理csv文件。其读取方式如下，导入的数据按 Numpy生成一个元组。

import numpy as np
import pandas as pd
from csv import reader
df='train.csv'
with open(df,'rt',encoding='UTF-8') as raw_data:
    readers = reader(raw_data, delimiter=',')
    x = list(readers)
    data = np.array(x)
    print(data)
    print(data.shape)

1.2 通过Pandas导入

通过pandas. read_csv()函数实现，该函数返回 DataFrame（读取文件的方式有绝对路径与相对路径两种）。
或通过pandas. read_table()函数实现，该函数返回 DataFrame，与read_csv不同的是其中 sep分隔符不同，read_csv默认’,’而read_table默认为tab制表符，而txt与csv相比的优势在于体积更小。


data1=pd.read_table('train.csv',sep=',', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
data1.head()

1.3 逐块读取数据

对于较大的cxv文件使用read_csv打开时可能会出现：MemoryError的报错，所以我们在读时采用 chunk分块读取，再把所有chunk拼接成一个DataFrame(通过 concat)。

chunker = pd.read_csv('train.csv',iterator = True , chunksize = 1000)
type(chunker)

list_c = list()
for chunk in chunker:
    list_c.append(chunk)

res = pd.concat(list_c,axis=0,ignore_index=False)
print(res)

此外 chunk还可以指定某一块进行读取。

2.初步分析

2.1 简单描述性统计

data1.info()
data1.isnull().head()
data1.head(10)
data1.tail(10)

data1.describe()

test_1 = pd.read_csv('test.csv')
test_1.head(3)

data1.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

2.2提取特定行列

利用 reset_index:重置索引和其他level
参数： reset_index(level=None,drop=False,inplace=False,col_level=0,col_fill=”)

drop: 重新设置索引后是否将原索引作为新的一列并入DataFrame，默认值False 。
inplace: 是否在原有DataFrame上改动，默认值False 。
level: 如果索引(index)有多个列，仅从索引中删除level指定的列，默认删除所有列。
col_level: 如果列名(columns)有多个级别，决定被删除的索引将插入哪个级别，默认插入第一级。
col_fill: 如果列名(columns)有多个级别，决定其他级别如何命名。

midage = test_1[(test_1["Age"]>10)& (test_1["Age"]<50)]
midage.head(3)
midage = midage.reset_index(drop = True)
midage.loc[[100,105,108],['Pclass','Name','Sex']]

2.3对数据进行排序

sort_values()用于对数据进行排序

by：指定需要排序的行或者列
axis：指明需要排序的是还是列
ascending：指明升序还是降序，默认升序

data1.sort_values(by=['票价', '年龄'], ascending=False).head(3)

本文就先到这里叭

友情链接

欢迎拜访（https://github.com/datawhalechina/hands-on-data-analysis/）

Original: https://blog.csdn.net/weixin_62675203/article/details/124809435
Author: Homie Holiday
Title: Python数据分析（1）——数据加载与简单描述性分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679062/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【南京大学jyy操作系统（蒋炎岩）】（四）并发控制：同步 | 真实世界的并发编程

文章目录同步 * 什么是同步？？生产者-消费者模式条件变量 – 分析条件变量 – API 条件变量：实现生产者-消费者信号量 – 复习…

人工智能 2023年6月28日
0075
plt.函数

1 plt.figure () ：创建画布 plt.figure(num=None, figsize=None, facecolor=None, edgecolor=None, c…

人工智能 2023年7月30日
0053
pytorch实现Resnet系列的分类任务

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、数据集格式二、训练部分三、评价结果总结前言最近需要一系列传统分类方法做对比，所以就…

人工智能 2023年7月3日
0064
web网页设计期末课程大作业：水果网站设计——HTML+CSS+JavaScript水果超市(带论文)

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月30日
0077
“WebDriver“ object has no attribute “find_element_by_css_selector“

今天用selenium写爬虫, 想用selector查找元素定位的时候报了这样的错误，如图：解决办法方法一：查看我的selenium的版本是最新的。把降版本降到 3.141.0…

人工智能 2023年7月4日
0077
ENVI分类后处理

一、实验名称：分类后处理二、实验目的：分类后处理三、实验内容和要求： 1.Majority和Minority分析。 2．聚类处理(Clump)。 3.过滤处理（Sieve）…

人工智能 2023年6月20日
0095
pd.DataFrame()函数解析

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。== DataFrame的单元格可以存放数值、字符串等，这和excel表很像，同时…

人工智能 2023年6月2日
0090
反向传播算法是如何计算神经网络中的误差梯度的

问题介绍在神经网络中，反向传播算法是一种用于训练模型的常用方法。它通过计算神经网络中的误差梯度来更新模型的权重，从而实现模型的优化。本文将详细介绍反向传播算法的原理、公式推导、计…

人工智能 2024年1月5日
0045
04如何遍历pandas当中dataframe的元素

与此相关的有如下: iterrows() : 将DataFrame迭代成（index ,series） iteritems()：将DataFrame迭代成（列名，series） …

人工智能 2023年6月2日
0071
ICT行业技术实力才是王道

1：发展路径在变 ICT行业发展引领着时代浪潮，推动着科技发展，我们常常说到的5G+,云计算，物联网，大数据，人工智能都在沿着这个脚步发展。ITC行业发展不仅仅是带动经济发展更甚至…

人工智能 2023年7月17日
0041
岭回归模型|机器学习|回归算法

目录 * – 1.岭回归模型 – + 1.1背景 + 1.2损失函数 – 2.相关代码 – + 2.1RidgeRegression…

人工智能 2023年6月17日
00123
torchserve使用教程

官方文档地址：下载项目： git clone GitHub – pytorch/serve: Model Serving on PyTorch —&#82…

人工智能 2023年7月21日
0058
ObjectBox: From Centers to Boxes for Anchor-Free Object Detection

ObjectBox: From Centers to Boxes for Anchor-Free Object Detection ECCV2022 oralpaper:https…

人工智能 2023年7月9日
0069
卷积神经网络(原理与代码实现)

[ 神经网络_是一种模拟生物神经系统模式的计算模型，它由许多简单处理节点构成，并通过它们之间的连接进行信息传递和修改。在机器学习中， _神经网络_通常用于分类问题，这将预测一个给定…

人工智能 2023年5月26日
0064
基于分层softmax的CBoW模型详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。 ✨word2vector系列展示✨一、CBOW1、朴素CBOW模型word…

人工智能 2023年5月30日
0068
【教程】标注工具Labelimg的安装与使用

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月10日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python数据分析（1）——数据加载与简单描述性分析

Python数据分析（1）——数据加载与简单描述性分析

1.1 通过Python标准库导入

1.2 通过Pandas导入

1.3 逐块读取数据

2.1 简单描述性统计

2.2提取特定行列

2.3对数据进行排序

友情链接

大家都在看