酒店数据分析预处理pandas

#酒店数据预处理
import pandas as pd
import numpy as np

#读取香港酒店数据
df = pd.read_excel('./香港酒店数据.xlsx')

#删除名字是Unnamed: 0列
df = df.drop('Unnamed: 0',axis=1)
#print(df.head())

#重置索引
df.index = range(len(df))

#重新设置列名称为'名字','类型','城市','地区','地点','评分','评分人数','价格'
rename = ['名字','类型','城市','地区','地点','评分','评分人数','价格']
df.columns = rename

#查找出所有类型为"休闲度假"并且在湾仔地区的酒店
print(df[(df['类型'] == '休闲度假') & (df['地区'] =='湾仔')] )

#查找出所有地址在观塘或者油尖旺,评分大于4的酒店
print(df[((df['地区'] == '观塘') | (df['地区'] == '油尖旺')) & (df['评分'] > 4)])

#找出缺失值数据
print(df[df['名字'].isnull()])
print(df[df['类型'].isnull()])
print(df[df['城市'].isnull()])
print(df[df['地区'].isnull()])
print(df[df['地点'].isnull()])
print(df[df['评分'].isnull()])
print(df[df['评分人数'].isnull()])
print(df[df['价格'].isnull()])

print(df.isnull().sum())

#用"其他"填充类型和地区
df['类型'].fillna('其他',inplace=True)
print(df[df['类型'].isnull()])

df['地区'].fillna('其他',inplace=True)
print(df[df['地区'].isnull()])

#用评分均值填充评分缺失值
df['评分'].fillna(np.mean(df['评分']),inplace=True)
print(df[df['评分'].isnull()])

#删除价格和评分人数的缺失值

df = df.dropna(axis=0,subset=['价格','评分人数'])
print(df[df['价格'].isnull()])
print(df[df['评分人数'].isnull()])
df.index = range(len(df))

#修改添加去重
#去重
df.drop_duplicates(inplace=True)

#最后保存到处理好的数据到"酒店数据1.xlsx"
df.to_excel('./酒店数据1.xlsx')

Original: https://blog.csdn.net/m0_56959781/article/details/121636494
Author: m0_56959781
Title: 酒店数据分析预处理pandas

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/738823/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球