堪称经典，一个非常适合初学者的机器学习实战案例

2023年6月23日上午3:14 • 人工智能 • 阅读 65

大家好，今天我给大家介绍一个非常适合新手的机器学习实战案例。

这是一个 房价预测的案例，来源于 Kaggle 网站，是很多算法初学者的第一道竞赛题目。

该案例有着解机器学习问题的完整流程，包含EDA、特征工程、模型训练、模型融合等。

房价预测流程

下面跟着我，来学习一下该案例。

没有啰嗦的文字，没有多余的代码，只有通俗的讲解。

; 1. EDA

探索性数据分析(Exploratory Data Analysis，简称EDA) 的目的是让我们对数据集有充分的了解。在这一步，我们探索的内容如下：

EDA内容

1.1 输入数据集

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

训练样本

train和 test分别是训练集和测试集，分别有 1460 个样本，80 个特征。

SalePrice列代表房价，是我们要预测的。

1.2 房价分布

因为我们任务是预测房价，所以在数据集中核心要关注的就是房价（ SalePrice) 一列的取值分布。

sns.distplot(train['SalePrice']);

房价取值分布

从图上可以看出， SalePrice列峰值比较陡，并且峰值向左偏。

也可以直接调用 skew()和 kurt()函数计算 SalePrice具体的偏度和峰度值。

对于偏度和峰度都比较大的情况，建议对 SalePrice列取 log()进行平滑。

1.3 与房价相关的特征

了解完 SalePrice的分布后，我们可以计算 80 个特征与 SalePrice的相关关系。

重点关注与 SalePrice相关性最强的 10 个特征。


corrmat = train.corr()

k = 10
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index

cm = np.corrcoef(train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

与SalePrice高度相关的特征

OverallQual（房子材料和装饰）、 GrLivArea（地上居住面积）、 GarageCars（车库容量）和 TotalBsmtSF（地下室面积）跟 SalePrice有很强的相关性。

这些特征在后面做 特征工程时也会重点关注。

1.4 剔除离群样本

由于数据集样本量很少，离群点不利于我们后面训练模型。

所以需要计算每个 数值特性的离群点，剔除掉离群次数最多的样本。


numeric_features = train.dtypes[train.dtypes != 'object'].index

for feature in numeric_features:
    outs = detect_outliers(train[feature], train['SalePrice'],top=5, plot=False)
    all_outliers.extend(outs)

print(Counter(all_outliers).most_common())

train = train.drop(train.index[outliers])

detect_outliers()是自定义函数，用 sklearn库的 LocalOutlierFactor算法计算离群点。

到这里， EDA 就完成了。最后，将训练集和测试集合并，进行下面的特征工程。

y = train.SalePrice.reset_index(drop=True)
train_features = train.drop(['SalePrice'], axis=1)
test_features = test
features = pd.concat([train_features, test_features]).reset_index(drop=True)

features合并了训练集和测试集的特征，是我们下面要处理的数据。

2. 特征工程

特征工程

; 2.1 校正特征类型

MSSubClass（房屋类型）、 YrSold（销售年份）和 MoSold（销售月份）是类别型特征，只不过用数字来表示，需要将它们转成文本特征。

features['MSSubClass'] = features['MSSubClass'].apply(str)
features['YrSold'] = features['YrSold'].astype(str)
features['MoSold'] = features['MoSold'].astype(str)

2.2 填充特征缺失值

填充缺失值没有统一的标准，需要根据不同的特征来决定按照什么样的方式来填充。


features['Functional'] = features['Functional'].fillna('Typ')

features['MSZoning'] = features.groupby('MSSubClass')['MSZoning'].transform(lambda x: x.fillna(x.mode()[0]))

features['LotFrontage'] = features.groupby('Neighborhood')['LotFrontage'].transform(lambda x: x.fillna(x.median()))

for col in ('GarageYrBlt', 'GarageArea', 'GarageCars'):
    features[col] = features[col].fillna(0)

2.3 偏度校正

跟探索 SalePrice列类似，对偏度高的特征进行平滑。


skew_features = features[numeric_features].apply(lambda x: skew(x)).sort_values(ascending=False)

high_skew = skew_features[skew_features > 0.15]
skew_index = high_skew.index

for i in skew_index:
    features[i] = boxcox1p(features[i], boxcox_normmax(features[i] + 1))

2.4 特征删除和新增

对于几乎都是缺失值，或单一取值占比高（99.94%）的特征可以直接删除。

features = features.drop(['Utilities', 'Street', 'PoolQC',], axis=1)

同时，可以融合多个特征，生成新特征。

有时候模型很难学习到特征之间的关系，手动融合特征可以降低模型学习难度，提升效果。


features['YrBltAndRemod']=features['YearBuilt']+features['YearRemodAdd']

features['TotalSF']=features['TotalBsmtSF'] + features['1stFlrSF'] + features['2ndFlrSF']

可以发现，我们融合的特征都是与 SalePrice强相关的特征。

最后简化特征，对分布单调的特征（如：100个数据中有99个的数值是0.9，另1个是0.1），进行01处理。

features['haspool'] = features['PoolArea'].apply(lambda x: 1 if x > 0 else 0)

features['has2ndfloor'] = features['2ndFlrSF'].apply(lambda x: 1 if x > 0 else 0)

2.6 生成最终训练数据

到这里特征工程就做完了，我们需要从 features中将训练集和测试集重新分离出来，构造最终的训练数据。

X = features.iloc[:len(y), :]
X_sub = features.iloc[len(y):, :]

X = np.array(X.copy())
y = np.array(y)
X_sub = np.array(X_sub.copy())

3. 模型训练

因为 SalePrice是数值型且是连续的，所以需要训练一个 回归模型。

3.1 单一模型

首先以 岭回归（Ridge） 为例，构造一个k折交叉验证模型。

from sklearn.linear_model import RidgeCV
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import KFold

kfolds = KFold(n_splits=10, shuffle=True, random_state=42)

alphas_alt = [14.5, 14.6, 14.7, 14.8, 14.9, 15, 15.1, 15.2, 15.3, 15.4, 15.5]

ridge = make_pipeline(RobustScaler(), RidgeCV(alphas=alphas_alt, cv=kfolds))

岭回归模型有一个超参数 alpha，而 RidgeCV的参数名是 alphas，代表输入一个超参数 alpha数组。在拟合模型时，会从 alpha数组中选择表现较好某个取值。

由于现在只有一个模型，无法确定 岭回归是不是最佳模型。所以我们可以找一些出场率高的模型多试试。


lasso = make_pipeline(
    RobustScaler(),
    LassoCV(max_iter=1e7, alphas=alphas2, random_state=42, cv=kfolds))

elasticnet = make_pipeline(
    RobustScaler(),
    ElasticNetCV(max_iter=1e7, alphas=e_alphas, cv=kfolds, l1_ratio=e_l1ratio))

svr = make_pipeline(RobustScaler(), SVR(
    C=20,
    epsilon=0.008,
    gamma=0.0003,
))

gbr = GradientBoostingRegressor(...)

lightgbm = LGBMRegressor(...)

xgboost = XGBRegressor(...)

有了多个模型，我们可以再定义一个得分函数，对模型评分。


def cv_rmse(model, X=X):
    rmse = np.sqrt(-cross_val_score(model, X, y, scoring="neg_mean_squared_error", cv=kfolds))
    return (rmse)

以 岭回归为例，计算模型得分。

score = cv_rmse(ridge)

print("Ridge score: {:.4f} ({:.4f})\n".format(score.mean(), score.std()), datetime.now(), )

运行其他模型发现得分都差不多。

这时候我们可以任选一个模型，拟合，预测，提交训练结果。还是以 岭回归为例


ridge.fit(X, y)

submission.iloc[:,1] = np.floor(np.expm1(ridge.predict(X_sub)))

submission = pd.read_csv("./data/sample_submission.csv")
submission.to_csv("submission_single.csv", index=False)

submission_single.csv是岭回归预测的房价，我们可以把这个结果上传到 Kaggle 网站查看结果的得分和排名。

3.2 模型融合-stacking

有时候为了发挥多个模型的作用，我们会将多个模型融合，这种方式又被称为 集成学习。

stacking 是一种常见的 集成学习方法。简单来说，它会定义个元模型，其他模型的输出作为元模型的输入特征，元模型的输出将作为最终的预测结果。

stacking

这里，我们用 mlextend库中的 StackingCVRegressor模块，对模型做stacking。

stack_gen =
  StackingCVRegressor(
      regressors=(ridge, lasso, elasticnet, gbr, xgboost, lightgbm),
      meta_regressor=xgboost,
      use_features_in_secondary=True)

训练、预测的过程与上面一样，这里不再赘述。

3.3 模型融合-线性融合

多模型线性融合的思想很简单，给每个模型分配一个权重（权重加和=1），最终的预测结果取各模型的加权平均值。


ridge_model_full_data = ridge.fit(X, y)
lasso_model_full_data = lasso.fit(X, y)
elastic_model_full_data = elasticnet.fit(X, y)
gbr_model_full_data = gbr.fit(X, y)
xgb_model_full_data = xgboost.fit(X, y)
lgb_model_full_data = lightgbm.fit(X, y)
svr_model_full_data = svr.fit(X, y)

models = [
    ridge_model_full_data, lasso_model_full_data, elastic_model_full_data,
    gbr_model_full_data, xgb_model_full_data, lgb_model_full_data,
    svr_model_full_data, stack_gen_model
]

public_coefs = [0.1, 0.1, 0.1, 0.1, 0.15, 0.1, 0.1, 0.25]

def linear_blend_models_predict(data_x,models,coefs, bias):
    tmp=[model.predict(data_x) for model in models]
    tmp = [c*d for c,d in zip(coefs,tmp)]
    pres=np.array(tmp).swapaxes(0,1)
    pres=np.sum(pres,axis=1)
    return pres

到这里， 房价预测的案例我们就讲解完了，大家可以自己运行一下，看看不同方式训练出来的模型效果。

回顾整个案例会发现，我们在数据预处理和特征工程上花费了很大心思，虽然机器学习问题模型原理比较难学，但实际过程中往往特征工程花费的心思最多。

获取方式

今天讲解代码、数据、脑图在公众号： Python学习与数据挖掘，上获取。

在公众号后台回复： 房价预测 ，即可获取。

; 推荐文章

Original: https://blog.csdn.net/weixin_38037405/article/details/122982060
Author: Love Python数据挖掘
Title: 堪称经典，一个非常适合初学者的机器学习实战案例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/646527/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022年度数据库最常用的语言SQL面试题汇总和答案

2022年度数据库最常用的语言SQL面试题汇总和答案1、SQL是什么？SQL 代表结构化查询语言。它是用于维护关系数据库并对数据执行许多不同的数据操作操作的标准语言。 SQL 最…

人工智能 2023年6月28日
0079
边缘计算 | 在移动设备上部署深度学习模型的思路与注意点 ⛵

💡 作者：韩信子@ShowMeAI📘 深度学习◉技能提升系列：https://www.showmeai.tech/tutorials/35📘 深度学习实战系列：https://ww…

人工智能 2023年6月4日
00116
图像识别（四）| 卷积的核心，特征提取

大家好啊，我是董董灿。导读图像识别（一）| 从像素说起图像识别（二）| 图像的色彩空间图像识别（三）| 初识卷积上一篇文章——初识卷积，聊到了卷积这一算法。通俗点讲，卷积就…

人工智能 2023年5月28日
00110
超方便的 Python 自动唤醒窗口截图脚本

利用Python自带的win32api和win32con、win32gui等模块，我们能执行许多windows下的自动化操作。比如两个窗口的自动点击操作，从软件中的窗口复制文本到t…

人工智能 2023年6月11日
0084
数据挖掘十大算法之分类算法(决策树模型)

文章目录 * – 1. 决策树的概念 – 2. 构建决策树 – 3. 决策树中的信息论原理 – + 3.1 信息量 + 3.2 熵 …

人工智能 2023年7月3日
00101
【目标检测】“复制-粘贴”数据增强实现

前言本文来源论文《Simple Copy-Paste is a Strong Data Augmentation Methodfor Instance Segmentation》…

人工智能 2023年7月10日
0085
QT5 + MSVC + OpenCV4 配置

目录一、系统环境二、opencv 安装三、QT配置Opencv *Opencv 在pro文件中的配置使用qcreator工具添加库文件库文件添加选择连接到的库类型添加…

人工智能 2023年7月19日
0059
腾讯Turing Lab论文入选ICASSP，图像AI研究成果获国际认可

近日，全球顶级信号处理技术会议 ICASSP 2022 公布了论文入选名单。由王君乐博士带领的腾讯Turing Lab实验室论文——《针对手机游戏的主观与客观视频质量评价》（Sub…

人工智能 2023年5月27日
0085
黑白点图的生成法

随机阈值法每个像素点都采用（0~255）的随机阈值进行二值化。等级概率密度法先把图像进行像素分级，比如保留四级的灰度。然后对每个灰度计算黑色像素的概率分布：当前像素为最低等…

人工智能 2023年6月22日
0091
基于python的gdal读取遥感影像

基于python的gdal读写遥感影像 1. gdal介绍 2. 代码详解 * 2.1 读取数据 2.2 写入影像 3. 完整案例 gdal介绍 GDAL(Geospatial D…

人工智能 2023年6月23日
0086
yolov5

深入浅出Yolo系列之Yolov5核心基础知识完整讲解 – 知乎大白在之前写过《深入浅出Yolo系列之Yolov3&Yolov4核心基础知识完整讲解》对 Yo…

人工智能 2023年7月9日
0072
Python文件操作

一、open 函数 python 提供内置函数 open()实现对文件的操作。python 对文本文件和二进制文件采用统一的操作步骤，和把大象放冰箱里的一样分三步，”打…

人工智能 2023年7月4日
00127
计算机视觉基于CUDA编程的入门与实践

一、示例代码1 #include <iostream> #include <stdio.h> __global__ void myfirstkernel(v…

人工智能 2023年6月29日
0093
python学习笔记（23）jieba库的使用

文章目录 * – 简介 – jieba库解析简介 jieba库是python中重要的第三方中文词语分割函数库。对于英文字符串来说，提取其中的单词只需要使用…

人工智能 2023年5月28日
00109
pandas数据分析

1、series数据的生成和访问2、DataFrame数据生成的几种方法3、时间序列的生成和处理4、DataFrame数据的全方位访问5、DataFrame数据的规整化处理6、Da…

人工智能 2023年7月6日
0041
pd库dataframe基本操作

一、查看数据（查看对象的方法对于Series来说同样适用） 1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据，若…

人工智能 2023年6月2日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31