利用pandas对在链家网爬取的租房数据进行清洗

2023年7月16日上午8:35 • 人工智能 • 阅读 83

爬虫代码可以参考这篇文章，全是干货，在此不再赘述。

爬下来的数据就可以进行数据清洗啦！首先确定需要处理的字段。因为后续准备做回归，所以我的变量设置是这样的：

清洗前的数据如下所示：

结合模型的变量、数据的字段，可以总结出数据清洗阶段需要完成的任务：

house_address中的区级行政区、街道和小区通过连字符连接，需要将其拆分
house_rental_area中的面积是字符串格式，需要 删掉面积符号再将其 转换为数字格式
house_layout包含了三个变量，需要将其切片
house_floor中的变量分为地下室、低楼层、中楼层、高楼层，需要将其 转换为定序变量
house_rental_price中的价格是字符串格式，需要 删掉单位再将其转换为 数字格式
house_tag中只需要提取出是否精装、是否临近地铁两个定性变量
house_elevator、house_heating、house_electricity同属定性变量，需要将其 分类为0和1。house_water与house_electricity都是反映房屋是否商用，故只保留house_electricity

需要注意的是：

house_layout字段中存在”x室x厅x卫”和”x房间x卫”两种表述方式，分析发现”x房间x卫”意味着没有living room，所以处理时现将 “房间”换为” ‘ 室0 厅”，以便后续切片
有些变量中存在”暂无数据”字段，需要将这列数据删除
爬下来的数据是有中文字符的，需要注意 encoding的方式！总之 utf_8_sig或者 gbk都可以试试

需要用到的函数主要有：

df1[‘house_tag’].str.contains(‘精装’)注意该函数返回的是 布尔值
df1[‘room_num’] = df1[‘house_ayout’].str[0 :1 ]统计房间数量
df1[‘house_heating’]=df1[‘house_heating’].repace([‘自采暖’,’集中供暖’],[0 ,1 ])将’自采暖’repace 成0 （int ）；’集中采暖’换成1
df1 = pd.concat([df,df[‘house_address’].str.spit(‘-‘,expand =True )],axis =1 ).drop(‘house_address’,axis =1 )按照’-‘分割得到三列再弃掉[‘house_address’]列
df1.rename(coumns ={0 :’house_district’,1 :’house_street’,2 :’house_apartment_compexes’},inpace =True )分割字符串得到的新的三列重命名
df1.drop(df1[df1[“house_water”]==’暂无数据’].index,inpace =True )删除无效数据

代码如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(pd.read_excel("D:\filename.xlsx"))
df.shape
df.info()
df.describe()

df1 = pd.concat([df,df['house_address'].str.split('-',expand=True)],axis=1).drop('house_address',axis=1) #按照'-'切割
df1.rename(columns={0: 'house_district', 1: 'house_street',2: 'house_apartment_complexes'}, inplace=True) #重命名
df1['house_layout']=df1['house_layout'].str.replace('房间', '室0厅')
print('--------')
#print(df1['house_layout'].str[2:4])
df1.drop(df1[df1["house_water"]=='暂无数据'].index,inplace = True) #删除无效数据
df1.drop(df1[df1["house_electricity"]=='暂无数据'].index,inplace = True)
df1.drop(df1[df1["house_heating"]=='暂无数据'].index,inplace = True)
df1['room_num'] = df1['house_layout'].str[0:1]    #只需要统计房间、客厅、卫生间数量
df1['living_room_num'] = df1['house_layout'].str[2:3]
df1['bath_room_num'] = df1['house_layout'].str[4:5]
df1['subway'] = df1['house_tag'].str.contains('近地铁') #若house_tag中含有'近地铁'的描述，则新增的subway列中填上布尔值true
df1['refine'] = df1['house_tag'].str.contains('精装')
df1['house_heating']=df1['house_heating'].replace(['自采暖','集中供暖'],[0,1])
df1['house_gas']=df1['house_gas'].replace(['无','有'],[0,1])
df1['house_electricity'] = df1['house_electricity'].replace(['商电','民电'],[0,1])
df1['house_rental_area']=df1['house_rental_area'].str.rstrip('㎡')
df1['house_rental_price']=df1['house_rental_price'].str.rstrip('元/月')
df1['house_rental_area']= pd.to_numeric(df1['house_rental_area']) #字符串转换为数字
df1['house_rental_price']= pd.to_numeric(df1['house_rental_price'])
df1['house_floor1'] = df1['house_floor'].str[0:1] #只需要切第一个字就可以完成分类
df1['house_floor1'] = df1['house_floor1'].replace(['地','低','中','高'],[0,1,2,3])
#print("Datatype of Cost column after type conversion:")
#print(df1['house_rental_area'].dtypes)
df1=df1.replace([True,False],[1,0])  #将前面的布尔值换成0、1以便回归
df1.to_csv("D:\filename.csv",encoding="utf_8_sig")

清洗后的数据的部分字段如下所示：

总之数据清洗要结合手上的数据进行具体的字段、数据类型的分析，然后多翻阅一下pandas手册就可以啦！

Original: https://blog.csdn.net/treacherousfly/article/details/123911563
Author: treacherousfly
Title: 利用pandas对在链家网爬取的租房数据进行清洗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696059/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pyecharts绘制地图（Geo and Map）（细节更丰富）

pyecharts绘制地图（Geo and Map）（细节更丰富）前言中文官方文档绘制地图Map 绘制地理坐标图Geo 总结你们可能需要的前言前段时间参加了美赛，因为考…

人工智能 2023年7月5日
0094
表白爱心代码

文章目录 * – 一、演示（python版） – + 代码 – 二、演示（html版） – + 代码一、演示（python版） ;…

人工智能 2023年6月26日
0088
Python监督学习之分类算法的概述

当然，我可以帮你写一个 _Python_深度学习分类的算法。首先，我们需要导入必要的库，比如TensorFlow和Keras。然后，我们可以使用Keras提供的Sequential…

人工智能 2023年7月3日
0097
使用PyQt5为YoloV5添加界面（一）

使用PyQt5为YoloV5添加界面近期因为疫情，无法正常入职上班。所以在家参考相关博文，视频和代码等，学习了PyQt5的基础知识，并尝试为YOLOV5添加界面。反正啥也不咋会，…

人工智能 2023年7月4日
0091
远程监督

远程监督是借助&#…

人工智能 2023年6月1日
0068
系统分析与验证课程笔记——目录

目录参考资料与引用目录前置知识知识图谱后记这个系列是研究生”系统分析与验证课程”的课程笔记记录，因为有好多篇，为了方便索引，所以写了这篇目录，也…

人工智能 2023年6月1日
00124
#保姆级教学「图像评价指标」（MSE、LPIPS）——理论+代码

*均方误差MSE 给定一个大小为 m n的原图I和生成图K，计算均方误（ MSE*）定义为：的干净图像和噪声图像，均方误差定义为： #原图为I，生成图为K #pytorch ——直…

人工智能 2023年5月23日
0073
查看anaconda中的python,tensorflow版本

安装anaconda后，该如何查看anaconda对应的python版本在anaconda环境下安装tensorflow后，如何查看当前tensorflow版本 1、查看cond…

人工智能 2023年5月26日
00120
集线器与交换机的区别

早期的总线型以太网使用双绞线和集线器HUB的星型以太网使用集线器的以太网在逻辑上仍是一个总线网，各站共享总线资源，使用的还是CSMA/CD协议集线器只工作在物理层，它的每个接…

人工智能 2023年6月29日
0073
Pytorch Softmax用法

Pytorch Softmax用法 pytorch中的softmax主要存在于两个包中分别是：torch.nn.Softmax(dim=None)torch.nn.function…

人工智能 2023年6月17日
0073
GEO数据挖掘（一）基础介绍

生信技能树学徒学习第二周一、GEO数据库简介 GEO全称Gene Expression Omnibus data base，由美国国立生物技术信息中心NCBI创建并维护的基因表达…

人工智能 2023年6月19日
0088
【知识分享】机器学习的基本流程

个人理解的机器学习简单流程如下： 0.收集数据 1.对数据集进行预处理 2.划分数据集（训练集、测试集、验证集） 3.训练 4.验证模型对每个步骤详细解释： 0.收集数据可以使…

人工智能 2023年7月27日
0074
《动手学深度学习》softmax回归的从零开始实现

3.6. softmax回归的从零开始实现（动手学深度学习）代码学习笔记 import torch from IPython import display from d2l imp…

人工智能 2023年6月18日
00110
计算机视觉实战 | 练手项目，开放源码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0064
端口号及作用

CDH 端口说明7180Cloudera Manager 前端端口7182Cloudera Manager Server 与 Agent通讯端口8888Hue前端端口 Hadoop…

人工智能 2023年7月30日
0049
Educoder关联规则挖掘

第一关：数据探索和预处理本实训中，实验内容为完成数据探索和预处理，根据提示，在右侧编辑器补充代码，完成如下四个任务：使用 pandas库的 read_excel方法读入实验数据…

人工智能 2023年7月17日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用pandas对在链家网爬取的租房数据进行清洗

大家都在看