动手学数据分析 学习笔记(一)

一、数据载入

import numpy as np
import pandas as pd

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据

绝对路径是指文件在硬盘上真正存在的路径。 相对路径就是相对于自己的目标文件位置。

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('C:/Users/lan/Desktop/hands-on-data-analysis-master/hands-on-data-analysis-master/train.csv')
df.head(3)
拓展 pd.read_csv()和pd.read_table()的不同

read_table以制表符\t作为数据的标志,也就是以行为单位进行存储,读取excel文件后每个字符串间有逗号相隔,这表明每一行(而不是每一个字符串)作为一个维度进行了存储。read_csv读取excel文件后虽然也是一个数组,但每一个字符串作为一列。

因此,设置sep=’\t’可以使pd.read_csv()实现pd.read_table()的功能;同样,设置sep=’,’能够让pd.read_table()实现pd.read_csv()的功能。

【拓展】’.tsv’和’.csv’的不同

tsv代表制表符分隔值,用制表符(Tab,’\t’)作为字段值的分隔符。csv代表逗号分隔符,用半角逗号(’,’)作为字段值的分隔符。

chunker=pd.read_csv('train.csv',chunksize=1000)
for piece in chunker:
    print(type(piece))
    print(len(piece))
891

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港

df=pd.read_csv('train.csv', names=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','兄弟姐妹个数','父母小孩个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

所谓将表头改为中文其中一个思路是:将英文列名表头替换成中文。还有其他的方法吗?

 df.rename(columns={'PassengerId':'乘客ID','Survived':'是否幸存','Pclass':'乘客等级(1/2/3等舱位)',
 'Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息',
 'Fare':'票价','Cabin':'客舱','Embarked':'登船港口'},inplace=True)
 df.head(891)
#写入代码
print(df.dtypes)#查看每列的类型
df.describe()#获取统计特征(行数,平均数)
df.info()#总的简介描述

`
乘客ID int64
是否幸存 int64
乘客等级(1/2/3等舱位) int64
乘客姓名 object
性别 object
年龄 float64
堂兄弟/妹个数 int64
父母与小孩个数 int64
船票信息 object
票价 float64
客舱 object
登船港口 object
dtype: object

RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype

Original: https://blog.csdn.net/seven11lc/article/details/125738801
Author: seven11lc
Title: 动手学数据分析 学习笔记(一)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/678606/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球