机器学习实战二：波士顿房价预测 Boston Housing

2023年6月15日上午6:04 • 人工智能 • 阅读 117

波士顿房价预测 Boston housing

这是一个波士顿房价预测的一个实战，上一次的Titantic是生存预测，其实本质上是一个分类问题，就是根据数据分为1或为0，这次的波士顿房价预测更像是预测一个连续值，当然这也是一个非常经典的机器学习案例Boston housing
如果想了解更多的知识，可以去我的机器学习之路 The Road To Machine Learning 通道

活动背景
数据介绍
详细代码解释
*
导入Python Packages
读入数据 Read-In Data
从Package读取Boston数据
相关性检验
多变量研究
划分训练集和测试集
建立线性回归模型
*
评价模型
进一步探索和模型改进
*
特征选择重建模型
数据标准化
模型优化和改进
*
GradientBoosting（梯度提升）
Lasso 回归（Least Absolute Shrinkage and Selection Operator）
ElasticNet 回归
Support Vector Regression (SVR)
–
- linear 线性核函数
- poly 多项式核
- rbf（Radial Basis Function）径向基函数
- SVM（支持向量机）回归– 线性核
- SVM（支持向量机）回归– 多项式核
决策树回归
总结

活动背景

波士顿房地产市场竞争激烈，而你想成为该地区最好的房地产经纪人。为了更好地与同行竞争，你决定运用机器学习的一些基本概念，帮助客户为自己的房产定下最佳售价。幸运的是，你找到了波士顿房价的数据集，里面聚合了波士顿郊区包含多个特征维度的房价数据。你的任务是用可用的工具进行统计分析，并基于分析建立优化模型。这个模型将用来为你的客户评估房产的最佳售价。

数据介绍

; 详细代码解释

导入Python Packages

首先导入需要的python包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
plt.style.use('ggplot')
%load_ext klab-autotime

读入数据 Read-In Data

将housing,csv读入

data = pd.read_csv('../data_files/2.Boston_housing/housing.csv')
data.info()

从这里可以看出来，数据一共有14个特征，并且没有缺失值，所以我们可以不用缺失值处理，真不错

从Package读取Boston数据

其实在我们的sklearn库中，就有波士顿房屋数据集，我们可以直接读取数据集

from sklearn.datasets import load_boston
dir(load_boston())
print(load_boston().DESCR)

这里也有对数据集详细的介绍，除此之外，我们还需要将数据集转化了类型，变为我们熟悉的pandas.core.frame.DataFrame，之后后面的操作就是一模一样的了

X = load_boston().data
y = load_boston().target
df = pd.DataFrame(X, columns=load_boston().feature_names)
df.head()

评价模型

在整个数据集上评价模型

plt.scatter(y_test, line_pre,label='y')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4,label='predicted')

然后在整个数据集中评价模型

line_pre_all = linear_model.predict(X)
print('SCORE:{:.4f}'.format(linear_model.score(X,y)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y, line_pre_all))))
hos_pre_all = pd.DataFrame()
hos_pre_all['Predict'] = line_pre_all
hos_pre_all['Truth'] = y
hos_pre_all.plot(figsize=(18,8))

plt.scatter(y, line_pre_all,label='y')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4,label='predicted')

由以上分析可知，模型在整个数据集中的评分比在测试集中要低

进一步探索和模型改进

尝试使用相关性最高的3个特征量重建模型，并与原模型进行比较
尝试使用其它多种算法分别建立模型，并比较模型

特征选择重建模型

首先我尝试相关性最高的三个特征重建模型，去与原模型比较一下

data.corr()['MEDV'].abs().sort_values(ascending=False).head(4)

由此我们得出了三个相关性最高的特征，我们将其作为自变量去建立模型

X2 = np.array(data[['LSTAT','RM','PIRATIO']])
X2_train, X2_test, y_train, y_test = train_test_split(X2, y, random_state=1,test_size=0.2)
linear_model2 = LinearRegression()
linear_model2.fit(X2_train,y_train)
print(linear_model2.intercept_)
print(linear_model2.coef_)
line2_pre = linear_model2.predict(X2_test)
print('SCORE:{:.4f}'.format(linear_model2.score(X2_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, line2_pre))))

我们可以得到，对于预测测试集的数据的得分score明显是没有开始的线性回归模型1高的，然后我们再看看，在整个数据集中它的表现

line2_pre_all = linear_model2.predict(X2)
print('SCORE:{:.4f}'.format(linear_model2.score(X2, y)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y, line2_pre_all))))

这样比较下来，第一个模型达到的分数，即使在整个数据集中73%，但是这个模型的得分大约是67.6%，由此可以得出，第一个模型还是比这个模型优的，接下来就需要尝试更多的模型了

数据标准化

数据集的标准化对scikit-learn中实现的大多数机器学习算法来说是常见的要求。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差)，那么它们的表现力可能会较差。
所以我这里首先对数据进行了一个标准化处理

from sklearn.preprocessing import StandardScaler
ss_x = StandardScaler()
X_train = ss_x.fit_transform(X_train)
X_test = ss_x.transform(X_test)
ss_y = StandardScaler()
y_train = ss_y.fit_transform(y_train.values.reshape(-1, 1))
y_test = ss_y.transform(y_test.values.reshape(-1, 1))

模型优化和改进

接下来我就开始尝试多种模型，希望尝试的模型有对我的算法有帮助

X ,y = data[data.columns.delete(-1)], data['MEDV']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=9)

GradientBoosting（梯度提升）

from sklearn import ensemble

clf = ensemble.GradientBoostingRegressor()
clf.fit(X_train, y_train)
clf_pre=clf.predict(X_test)
print('SCORE:{:.4f}'.format(clf.score(X_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, clf_pre))))

Lasso 回归（Least Absolute Shrinkage and Selection Operator）

Lasso也是惩罚其回归系数的绝对值。
与岭回归不同的是，Lasso回归在惩罚方程中用的是绝对值，而不是平方。这就使得惩罚后的值可能会变成0

from sklearn.linear_model import Lasso

lasso = Lasso()
lasso.fit(X_train,y_train)
y_predict_lasso = lasso.predict(X_test)
r2_score_lasso = r2(y_test,y_predict_lasso)

print('SCORE:{:.4f}'.format( lasso.score(X_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test,y_predict_lasso))))
print('Lasso模型的R-squared值为:',r2_score_lasso)

ElasticNet 回归

ElasticNet回归是Lasso回归和岭回归的组合

enet = ElasticNet()
enet.fit(X_train,y_train)
y_predict_enet = enet.predict(X_test)
r2_score_enet = r2(y_test,y_predict_enet)

print('SCORE:{:.4f}'.format( enet.score(X_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test,y_predict_enet))))
print("ElasticNet模型的R-squared值为:",r2_score_enet)

Support Vector Regression (SVR)

from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import r2_score as r2, mean_squared_error as mse, mean_absolute_error as mae

def svr_model(kernel):
    svr = SVR(kernel=kernel)
    svr.fit(X_train, y_train)
    y_predict = svr.predict(X_test)

    print(kernel,' SVR的默认衡量评估值值为：', svr.score(X_test,y_test))
    print(kernel,' SVR的R-squared值为：', r2(y_test, y_predict))
    print(kernel,' SVR的均方误差（mean squared error）为：',mse(y_test, y_predict))
    print(kernel,' SVR的平均绝对误差（mean absolute error）为：',mae(y_test,y_predict))

    return svr

linear 线性核函数

linear_svr = svr_model(kernel='linear')

poly 多项式核

poly_svr = svr_model(kernel='poly')

rbf（Radial Basis Function）径向基函数

rbf_svr = svr_model(kernel='rbf')

SVM（支持向量机）回归– 线性核

from sklearn.svm import SVR
linear_svr = SVR(kernel="linear")
linear_svr.fit(X_train, y_train)
linear_svr_pre = linear_svr.predict(X_test)
print('SCORE:{:.4f}'.format(linear_svr.score(X_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, linear_svr_pre))))

SVM（支持向量机）回归– 多项式核

在使用SVM回归– 多项式核的时候，首先要对数据进行一个标准化处理

from sklearn.preprocessing import StandardScaler
ss_x = StandardScaler()
X_train = ss_x.fit_transform(X_train)
X_test = ss_x.transform(X_test)
ss_y = StandardScaler()
y_train = ss_y.fit_transform(y_train.values.reshape(-1, 1))
y_test = ss_y.transform(y_test.values.reshape(-1, 1))

再进行建立模型来预测

poly_svr = SVR(kernel="poly")
poly_svr.fit(X_train, y_train)
poly_svr_pre = poly_svr.predict(X_test)
print('SCORE:{:.4f}'.format(poly_svr.score(X_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, poly_svr_pre))))

决策树回归

from sklearn.tree import DecisionTreeRegressor
tree_reg=DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X_train, y_train)
tree_reg_pre = tree_reg.predict(X_test)
print('SCORE:{:.4f}'.format( tree_reg.score(X_test, y_test)))
print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test,tree_reg_pre))))

最后我们会发现，利用GBDT的得分居然高达90，这是我们得到最优的一个模型了，其次就是SVR回归的多项式核，也大概达到了85，其他的并没有线性回归那么优，所以对于波士顿房价预测来说，利用GBDT是最好的，这是迄今为止我遇到最好的模型

总结

可以发现，如果要用Gradient Boosting 算法的话，在sklearn包里调用是非常方便的，几行代码即可完成，大部分的工作是在数据特征提取
数据分析过程中，特征设计是最重要的，现在kaggle竞赛很流行使用GBDT（梯度提升决策树Gradient Boosted Decision Tree) 算法，数据分析结果的优劣其实主要在特征上，行业中做项目也是如此
不断的在研究数据中培养对数据的敏感度十分重要

每日一句
Never had to laugh at other people.（没经历过才笑别人的疤）

如果需要数据和代码，可以自提

路径1：我的gitee
路径2：百度网盘
链接：https://pan.baidu.com/s/1uA5YU06FEW7pW8g9KaHaaw
提取码：5605

Original: https://blog.csdn.net/weixin_45508265/article/details/113255859
Author: 风信子的猫Redamancy
Title: 机器学习实战二：波士顿房价预测 Boston Housing

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613904/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CUDA、cuDNN以及pytorch的版本选择和下载

CUDA、cuDNN以及pytorch的版本选择和下载安装前言一、CUDA * – 1、查看当前可支持的最高CUDA版本 2、CUDA下载 3、更高版本CUDA 二…

人工智能 2023年7月21日
0081
物体检测实战：使用 OpenCV 进行 YOLO 对象检测

使用 OpenCV 进行 YOLO 对象检测本文将教你如何使用YOLOV3对象检测器、OpenCV和Python实现对图像和视频流的检测。用到的文件有yolov3.weights…

人工智能 2023年7月10日
0060
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注…

人工智能 2023年7月1日
0094
【自然语言处理工具箱 LTP 】pyltp 使用教程

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。请先下载完整的 LTP 模型文件下载地址：百度云 7G+…

人工智能 2023年5月28日
0060
torch_geometric(pyg)的介绍和简单使用

最近做毕业设计，需要用到图神经网络（以下简称GNN）。由于刚入门GNN，不想看大段的公式和相关论文（然而事实证明该看的永远逃不了），所以怎么办？百度上找呗！因为自己平时用pytor…

人工智能 2023年6月17日
0051
618 技术特辑（一）不知不觉超预算3倍，你为何买买买停不下来？

摘要：这背后到底是我们自制力不够，还是电商平台太会读懂人心，我们不妨从技术维度，抽丝剥茧一探究竟。本文分享自华为云社区《618 技术特辑（一）不知不觉超预算3倍，你为何买买买停…

人工智能 2023年6月1日
00105
自然语言处理（二十五）：Transformer与torchtext构建语言模型

Transformer介绍本案例取自PyTorch官网的LANGUAGE MODELING WITH NN.TRANSFORMER AND TORCHTEXT 首先导入一些包 i…

人工智能 2023年5月30日
0096
硬件工程师成长之路（0）—-认识元件

系列文章目录 1.元件基础2.电路设计3.PCB设计4.元件焊接5.板子调试6.程序设计7.算法学习8.编写exe9.检测标准10.项目举例11.职业规划文章目录前言 * 1、…

人工智能 2023年5月30日
0084
python将str写入csv_python – Pandas将数据帧写入CSV fi

如果您遇到编码为’utf-8’的问题，并且想要逐个单元格地进行，您可以尝试以下其他方法。 Python 2 (其中”df”是您的Da…

人工智能 2023年7月8日
0087
随机森林 matlab

Ref: 官方 matlab 已有牛人在前人的基础上进行学习，然后针对具体应用。很容易掌握随机森林法基本概念 Random Forest（随机森林）是Bagging的扩展变…

人工智能 2023年6月15日
00108
变量之间的相关性研究

目录 * – 1 什么是相关性？ – + 协方差及协方差矩阵 + 相关系数 + （1）简单相关分析 + （2）偏相关分析 + （3）复相关分析 + （4）典…

人工智能 2023年7月16日
0056
opencv 直方图均衡化

文章目录前言一、原理 opencv 函数支持equalizeHist() 前言在图像直方图详解中详细讲解了图像直方图，这章来讲解一下直方图的均衡化。直方图均衡化是图像处理领域…

人工智能 2023年5月26日
0097
python 使用Pandas进行数据清洗

文章目录 * – 数据缺失 – + 缺失值检测 isnull() + 丢弃缺失值dropna() + 缺失值填充fillna() – 数据重复 …

人工智能 2023年7月18日
0079
sklearn的make_classification函数生成随机的n类分类

目录 make_classification函数生成随机的n类分类问题的简介示例如下以下内容为官网内容以及个人的总结下面有运行的示例，可以结合示例来对此函数进行了解，如需更多…

人工智能 2023年6月30日
0093
解密 MobaXterm 已经存储 Session 账号的密码

MobaXterm 工具登录过 SSH 终端后，如果存储了 Session（存储后再连接ssh的时候只需要输入账号不需要输入密码就可以直接连接上ssh），则可以使用 github …

人工智能 2023年6月29日
0086
体系结构习题/题库/期末复习/考研复习

体系结构习题/题库/期末复习/考研复习前段时间体系结构考试收集整理了一些题来练手，现在考完了发出来供需要的人期末复习 or 考研复习用由于整理的时候为了方便用 word 弄的…

人工智能 2023年6月6日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31