数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

当时认为起初的分析逻辑混乱,模型单一,从这两个角度进行改进继续分析。
未进行再次加工,代码见资源中的exploration2

问题背景及重述

想法最初产生于如下背景:目前的租房市场中租房一方往往处于弱势,不仅需要承担中介费还需要承担额外的风险,其中一种就来自于部分黑中介为节约成本不尽信息保障义务甚至于提供虚假信息为自身牟利,因而在看到链家筛选出的一系列客观数据中还额外标着”必看好房”的主观推荐尤为刺眼;事实上,租房者不大具有总结筛选众多客观数据的能力,因而十分依赖”必看好房”这一推荐。结合这两点引出了这一问题最终的目标,”必看好房”这个标签是否真实可靠,也就是之前报告所说的是否真的好?
接下来的问题是一般认为的”必看好房”应该是什么样的?重新翻查了链家自己的解释,链家在二手房交易板块对”必看好房”标签解释为性价比高的稀缺好房。之前报告中将目标问题写的比较复杂”在其它条件相同时具有价格优势”,也就是性价比高的意思。那么问题的主要目标,”必看好房”是否真的好,此时可以被直观表述为探索”必看好房”是否真的性价比较高。
事实上,明显有两点很让人疑惑,首先是之前没有讨论的稀缺性,在以单一指标分析”必看好房”时,发现它并没有所谓的稀缺性,甚至是相反的,如价格指标中,特别高价或低价的几条房源信息中,没有被标为”必看好房”的;区位指标中,房源数量较少的崇明,也出现没有一个房源被标为”必看好房”的现象。另一点在于通过综合排序呈现在租房信息第一页的二十条信息中仅5条被标为”必看好房”,占比25%,与”必看好房”在全部房源中占比24.87%基本一致,说明”必看好房”在综合排序上并没有优势,为其具有更高性价比再次打上问号。

基本思路

回到主要问题上,”必看好房”是否具有更高性价比?最为直接的思路是将性价比量化出来,把样本分为是”必看好房”与不是”必看好房”两组,比较性价比均值。更加严谨的做法则是把链家采集的租房数据看作对租房市场的抽样,而若将是否为必看好房视为两类的话,那么该问题,”必看好房”是否具有更高性价比,等价于对两组不同总体的样本的均值差进行假设检验,
以上方法的难度在于我们不是业内人士,没有对性价比的评估体系,实际上如果链家的同行有类似的性价比指标的合适构建方法,那么直接利用上述方法就可以判断出链家的”必看好房”是否具有更高性价比了。
注意到比较时实际已经将”必看好房”和非”必看好房”看作两类不同总体的样本而非一类样本某个特征的两个不同值了。
由于没有特别合适的性价比评价指标,因而考虑从性价比定义出发,在房子的各类因素相同时,比较”必看好房”与非”必看好房”的价格高低。但问题在于对于一个”必看好房”,不可能找到除价格外各类因素与它完全相同的非”必看好房”,也就无从比较价格高低, 因而,希望利用非”必看好房”数据训练一个价格预测模型,将价格作为目标标签,把”必看好房”的其它特征值代入相当于生成一个除价格外各类因素与它完全相同的非”必看好房”,并且我们还预测除了它的价格,把这个价格与”必看好房”的价格比较也就比出了性价比的高低,从而验证结论。
以上是之前的做法,事实上,不一定要选择价格预测的方法,我将面积作为预测的目标构建预测模型,比较除面积外其它因素相同的”必看好房”与非”必看好房”的面积大小,同样可以比较出性价比高低;当然,我将预测目标改成一个分类值也是可以的,比如说朝向,一般认为其它条件相同时朝南更具性价比,那么此时就需要一个分类模型,但我觉得这并不好,原因是分类模型在这里解释性不强,如比较南北来比性价比说服力差,并且无法像之前的回归中一样有一个性价比差多少的概念。

验证结论

下面尝试换方法(假设检验)、换预测目标(面积)、换模型(KNN)验证是否能有相近结论。

假设检验

回到思路的第一步,尝试构建性价比指标,此时类似两组样本的假设检验或许可以用于验证结论。
首先,汲取之前的经验,将数据范围限定于租金在25000 元/月以下的房源,其次构建一个自己认可的性价比指标,对某个房源的性价比指标记为
v = (该区域平均每平方租金+该街道平均每平方租金)/(该房源每平方租金*2)
此时得到”必看好房”与非”必看好房”性价比指标v1,v2。对应均值、方差、样本量分别为:(1.117614,1.094020) , (0.08818, 0.14374), (3596,9849), 计算Z 值为3.77对应单边检验的置信概率大于99.99%,即超过99.99%认为”必看好房”性价比更高,可以验证我们回归模型的结论。
分析效果出乎意料的原因可能是性价比指标构建时只采了认为对性价比指标影响较大的因素,放大了影响。

KNN

利用KNN模型验证时,此处仅需将KNN代替线性回归模型进行预测即可,得到的学习曲线如下,发现k取6时R2最高。(5折交叉验证)

数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

由上表知,KNN得到的预测模型效果弱于LR,但都能验证结论,即”必看好房”确实更具性价比。

但同时注意到,两者模型的偏差相近,但百分比却明显不同让人疑惑,两模型得到的”必看好房”预测价格与实际价格的描点图如下,从中可见LR对于低价格房源价格预测偏低,KNN对于低价格房源价格预测偏高,这可能是样本分布不均引起的,KNN对于低价格房源预测时会接近样本较多的中间价格房源的点,从而导致低价格房源价格预测偏高。

数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

; 面积预测

根据思路中的分析,同样可以通过,利用非”必看好房”数据训练一个面积预测模型,将面积作为目标标签,把”必看好房”的其它特征值代入相当于生成一个除面积外各类因素与它完全相同的非”必看好房”,并且我们还预测除了它的面积,把这个面积与”必看好房”的实际面积比较来评价性价比的高低,从而验证结论。
同样地,我们记录非”必看好房”面积预测模型回归系数R2 = 0.7579,”必看好房”预测面积与实际面积的平均偏差(预测面积高为正)-1.5355平方米,即预测面积比实际面积少1.5355平方米,即”必看好房”更具性价比,可以验证结论。面积作为客观数据,对其预测不大符合常理,这里仅用做验证结论。

模型精度

在通过不同途径验证了结论之后,最初目的已经基本达到了,但我们仍希望回到之前的价格预测模型中,探索预测模型能否继续提高精度。

特征工程

特征工程遇到的问题与之前假设检验中类似的问题,即没有对性价比指标构建的经验,于是还是从减少无关指标与控制可能存在的多重共线性入手。
首先考虑可能存在的多重共线性的问题,发现三个楼层分类特征和卧室数量、卫生间、客厅数量特征对应的方差膨胀系数较高,基本与相关性分析中发现的较高相关性指标一致,保留一个楼层分类特征与卧室数量特征外,其它特征去除后重新训练,发现模型R2并没有直接提高。
其次可以对方差过滤时的阈值进行探索,原模型取方差阈值为0.02 _0.98对应模型具有34个特征,R2 为 0.6681,将阈值降低至0.01_0.99时对应模型具有66个, R2为0.7046,但发现偏差值随之下降。
(这一部分结果没达到预期,但没有想到好方法。)

特征重要性

由于我们为验证结论需要探讨有意义的偏差值,并没有进行正则化,此时已经完成结论的验证,单纯从评判模型角度,正则化后重新训练,目标是探讨租房价格预测模型中的重要特征。
正则化后训练的回归模型中,特征重要性即其特征参数值的绝对值。重要性前十的特征及其参数绝对值如下,可以明显看到除了面积和楼层外,其余全部是区域的分类指标,面积和区域的分类指标占据前十也符合了在假设检验中我们自己设计的性价比指标能够很好验证结论的现象,但出乎意料在于楼层层数竟然也是重要特征之一,在特征工程中确实不应当忽略其影响。

数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

Original: https://blog.csdn.net/weixin_43840683/article/details/122717584
Author: weixin_43840683
Title: 数据挖掘与数据分析项目链家租房数据(三)进一步探索与归纳

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/599923/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球