Preview
导入pandas/numpy库之后,
先设定data(此例中data为titanic)
titanic=pd.read_csv('train.csv')
1.缺失值观察
1.1是否有缺失值 #结果为TRUE代表有缺失值
data.isnull().any()
print(data.isnull().any())
titanic.isnull().any()
1.2统计列缺失值个数
Data.isnull().sum()
Print(Data.isnull().sum())
titanic.isnull().sum()
1.3统计个别列的缺失值数量/以age为例
df.Age #查看Age列数据
先看有没有缺失值?
titanic.Age.isnull().any() #查看特定列缺失值/true指有缺失值——故Age列有缺失值
缺失值是多少呢?
titanic.Age.isnull().sum()
2.对缺失值进行处理
2.1 删除
dropna
df.dropna(how=’all’) #删除全是缺失值的行/列
df.dropna(how=’any’) #删除含缺失值的行/列
2.2 填充
fillna
df.fillna(value=0)  #用0填充
df.fillna(method=’pad’) #向后填充:向下复制一样的值
df.fillna(method=’backfill’) #向前填充:向上复制一样的值
3.重复值
3.1 查看重复值
df.duplicated() #查看全部
df.price.duplicated()  #查看price列
df.duplicated(subset = ['price','cnt'])  #查看多列
3.2 处理重复值
df.drop_duplicates(subset = ['price','cnt'],keep='last',inplace=True)
subset限制特定列,否则默认全部列
keep 保留
inplace=true保留副本 inplace=false直接修改
- 将前面清洗的数据保存为csv格式
titanic.to_csv('C:\\Users\\71403\\Desktop\\titanic\\train.csv',index=False,sep=',')
Original: https://blog.csdn.net/etSha/article/details/123558351
Author: etSha
Title: 使用pandas清洗数据
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/752040/
转载文章受原作者版权保护。转载请注明原作者出处!