一、数据载入
import numpy as np
import pandas as pd
(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据
绝对路径是指文件在硬盘上真正存在的路径。 相对路径就是相对于自己的目标文件位置。
df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('C:/Users/lan/Desktop/hands-on-data-analysis-master/hands-on-data-analysis-master/train.csv')
df.head(3)
拓展 pd.read_csv()和pd.read_table()的不同
read_table以制表符\t作为数据的标志,也就是以行为单位进行存储,读取excel文件后每个字符串间有逗号相隔,这表明每一行(而不是每一个字符串)作为一个维度进行了存储。read_csv读取excel文件后虽然也是一个数组,但每一个字符串作为一列。
因此,设置sep=’\t’可以使pd.read_csv()实现pd.read_table()的功能;同样,设置sep=’,’能够让pd.read_table()实现pd.read_csv()的功能。
【拓展】’.tsv’和’.csv’的不同
tsv代表制表符分隔值,用制表符(Tab,’\t’)作为字段值的分隔符。csv代表逗号分隔符,用半角逗号(’,’)作为字段值的分隔符。
chunker=pd.read_csv('train.csv',chunksize=1000)
for piece in chunker:
print(type(piece))
print(len(piece))
891
PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港
df=pd.read_csv('train.csv', names=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','兄弟姐妹个数','父母小孩个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()
所谓将表头改为中文其中一个思路是:将英文列名表头替换成中文。还有其他的方法吗?
df.rename(columns={'PassengerId':'乘客ID','Survived':'是否幸存','Pclass':'乘客等级(1/2/3等舱位)',
'Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息',
'Fare':'票价','Cabin':'客舱','Embarked':'登船港口'},inplace=True)
df.head(891)
#写入代码
print(df.dtypes)#查看每列的类型
df.describe()#获取统计特征(行数,平均数)
df.info()#总的简介描述
`
乘客ID int64
是否幸存 int64
乘客等级(1/2/3等舱位) int64
乘客姓名 object
性别 object
年龄 float64
堂兄弟/妹个数 int64
父母与小孩个数 int64
船票信息 object
票价 float64
客舱 object
登船港口 object
dtype: object
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype
Original: https://blog.csdn.net/seven11lc/article/details/125738801
Author: seven11lc
Title: 动手学数据分析 学习笔记(一)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/678606/
转载文章受原作者版权保护。转载请注明原作者出处!