Keras入门教程 3.波士顿房价回归 (MPL)

2023年6月17日下午1:53 • 人工智能 • 阅读 125

Keras入门教程

波士顿房价回归 (MPL)

前言

从本节开始，将对Keras 自带的数据集从中选择部分进行学习

Keras 数据集模块提供的数据。模块中可用的数据如下:

CIFAR10 小图分类
CIFAR100 小图像分类
IMDB电影评论情感分类
路透社新闻专线主题分类
MNIST 手写数字数据库
Fashion-MNIST 时尚文章数据库
波士顿房价回归数据集
关于如何下载数据集，可自行搜索，本文不作讨论。

网盘链接提取码：1613
包括入门必备的mnist数据集，二分类问题的imdb数据集，多分类的路透社数据集和回归问题的波士顿房价数据集等

波士顿房价回归数据集的介绍

每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。
每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率，一氧化氮浓度，住宅平均房间数，到中心区域的加权距离以及自住房平均房价等等。
详见如下

CRIM &#x57CE;&#x9547;&#x4EBA;&#x5747;&#x72AF;&#x7F6A;&#x7387;
ZN &#x5360;&#x5730;&#x9762;&#x79EF;&#x8D85;&#x8FC7;2.5&#x4E07;&#x5E73;&#x65B9;&#x82F1;&#x5C3A;&#x7684;&#x4F4F;&#x5B85;&#x7528;&#x5730;&#x6BD4;&#x4F8B;
INDUS &#x57CE;&#x9547;&#x975E;&#x96F6;&#x552E;&#x4E1A;&#x52A1;&#x5730;&#x533A;&#x7684;&#x6BD4;&#x4F8B;
CHAS &#x67E5;&#x5C14;&#x65AF;&#x6CB3;&#x865A;&#x62DF;&#x53D8;&#x91CF; (= 1 &#x5982;&#x679C;&#x571F;&#x5730;&#x5728;&#x6CB3;&#x8FB9;&#xFF1B;&#x5426;&#x5219;&#x662F;0)
NOX &#x4E00;&#x6C27;&#x5316;&#x6C2E;&#x6D53;&#x5EA6;&#xFF08;&#x6BCF;1000&#x4E07;&#x4EFD;&#xFF09;
RM &#x5E73;&#x5747;&#x6BCF;&#x5C45;&#x6C11;&#x623F;&#x6570;
AGE &#x5728;1940&#x5E74;&#x4E4B;&#x524D;&#x5EFA;&#x6210;&#x7684;&#x6240;&#x6709;&#x8005;&#x5360;&#x7528;&#x5355;&#x4F4D;&#x7684;&#x6BD4;&#x4F8B;
DIS &#x4E0E;&#x4E94;&#x4E2A;&#x6CE2;&#x58EB;&#x987F;&#x5C31;&#x4E1A;&#x4E2D;&#x5FC3;&#x7684;&#x52A0;&#x6743;&#x8DDD;&#x79BB;
RAD &#x8F90;&#x5C04;&#x72B6;&#x516C;&#x8DEF;&#x7684;&#x53EF;&#x8FBE;&#x6027;&#x6307;&#x6570;
TAX &#x6BCF;10,000&#x7F8E;&#x5143;&#x7684;&#x5168;&#x989D;&#x7269;&#x4E1A;&#x7A0E;&#x7387;
PTRATIO &#x57CE;&#x9547;&#x5E08;&#x751F;&#x6BD4;&#x4F8B;
B 1000(Bk - 0.63)^2 &#x5176;&#x4E2D; Bk &#x662F;&#x57CE;&#x9547;&#x7684;&#x9ED1;&#x4EBA;&#x6BD4;&#x4F8B;
LSTAT &#x4EBA;&#x53E3;&#x4E2D;&#x5730;&#x4F4D;&#x8F83;&#x4F4E;&#x4EBA;&#x7FA4;&#x7684;&#x767E;&#x5206;&#x6570;
MEDV &#x4EE5;1000&#x7F8E;&#x5143;&#x8BA1;&#x7B97;&#x7684;&#x81EA;&#x6709;&#x4F4F;&#x623F;&#x7684;&#x4E2D;&#x4F4D;&#x6570;

整个数据集包含13个特征，涵盖了用地情况、教育、人种、收入、环保、犯罪等多个方面。(这是一个标准数据集，特征包含的物理因素也是特征工程的参考。) 同时这是一个1970的数据集，出现的一些数据会和现在有明显的差异。

Keras 数据集与 Sklearn 数据集有一定不同之处，Sklearn 数据集包括完整的说明，以及特征名，结构化非常完整，非常适合初学者，而Keras 数据集，相当于 Sklearn 数据集中的data部分，并且已经以0.2的方式分隔好了训练集和验证集，要想了解其具体结构，建议加载 Sklearn 数据集。

MLP 算法原理

MLP算法：Multilayer Perceptron （多层感知器算法），简称MLP。

在本章中，让我们编写一个简单的基于 MPL 的 ANN（Artificial Neural Network 人工智能网络）来进行回归预测。到目前为止，我们只做了基于分类的预测。现在，我们将尝试通过分析先前（连续）值及其影响因素来预测下一个可能值。

回归 MPL 可以模型示如下：

该模型的核心特征如下：

输入层由 (13,) 个值组成。
第一层，Dense由 64 个单元和带有”普通”内核初始化程序的”relu”激活函数组成。
第二层，Dense由 64 个单元和”relu”激活函数组成。
输出层，Dense由 1 个单元组成。
使用 mse 作为损失函数。
使用 RMSprop 作为优化器。
使用 accracy 作为指标。
使用 128 作为批量大小。
使用 500 作为纪元。

; 第 1 步 – 导入模块

导入必要的模块。

import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt

from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import RMSprop
from keras.callbacks import EarlyStopping
from sklearn import preprocessing
from sklearn.preprocessing import scale
from keras.datasets import boston_housing

%matplotlib inline

第 2 步 – 加载数据

导入波士顿住房数据集。

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

boston_housing是Keras提供的数据集。它代表波士顿地区住房信息的集合，每个信息有 13 个特征。

第 3 步 – 处理数据

根据我们的模型更改数据集，以便我们可以输入我们的模型。可以使用以下代码更改数据:

x_train_scaled = preprocessing.scale(x_train)
scaler = preprocessing.StandardScaler().fit(x_train)
x_test_scaled = scaler.transform(x_test)

这里，我们使用 sklearn.preprocessing.scale 函数对训练数据进行了 标准化。 preprocessing.StandardScaler().fit函数返回一个标量，其中包含训练数据的归一化均值和标准差，我们可以使用 scalar.transform 函数将其应用于测试数据。这将使用与训练数据相同的设置对测试数据进行标准化。

第 4 步 – 创建模型

创建实际模型。

model = Sequential()
model.add(Dense(64, kernel_initializer = 'normal', activation = 'relu',
input_shape = (13,)))
model.add(Dense(64, activation = 'relu'))
model.add(Dense(1))

第 5 步 – 查看模型

model.summary()
'''
Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #
=================================================================
 dense (Dense)               (None, 64)                896

 dense_1 (Dense)             (None, 64)                4160

 dense_2 (Dense)             (None, 1)                 65

=================================================================
Total params: 5,121
Trainable params: 5,121
Non-trainable params: 0
_________________________________________________________________
'''

第 6 步 – 编译模型

使用选定的损失函数、优化器和指标来编译模型。

model.compile(
   loss = 'mse',
   optimizer = RMSprop(),
   metrics = ['mean_absolute_error']
)

第 7 步 – 训练模型

使用 fit()方法训练模型。

history = model.fit(
   x_train_scaled, y_train,
   batch_size=128,
   epochs = 500,
   verbose = 1,
   validation_split = 0.2,
   callbacks = [EarlyStopping(monitor = 'val_loss', patience = 20)]
)

执行应用程序将提供以下信息作为输出:

Output exceeds the size limit. Open the full output data in a text editor
Epoch 1/500
3/3 [==============================] - 1s 85ms/step - loss: 567.0853 - mean_absolute_error: 21.9822 - val_loss: 627.7556 - val_mean_absolute_error: 23.3098
Epoch 2/500
3/3 [==============================] - 0s 12ms/step - loss: 552.8890 - mean_absolute_error: 21.6590 - val_loss: 615.2046 - val_mean_absolute_error: 23.0383
Epoch 3/500
3/3 [==============================] - 0s 29ms/step - loss: 540.0860 - mean_absolute_error: 21.3707 - val_loss: 600.7081 - val_mean_absolute_error: 22.7281
....

...

Epoch 117/500
3/3 [==============================] - 0s 12ms/step - loss: 8.7713 - mean_absolute_error: 2.0570 - val_loss: 15.0177 - val_mean_absolute_error: 2.6616
Epoch 118/500
3/3 [==============================] - 0s 12ms/step - loss: 8.9660 - mean_absolute_error: 2.0574 - val_loss: 15.4782 - val_mean_absolute_error: 2.6915

在这里，我们使用了回调函数 EarlyStopping。此回调的目的是监控每个 epoch 期间的损失值，并将其与之前的 epoch 损失值进行比较，以找到训练中的改进。如果耐心时间没有改善，那么整个过程将停止。

由于 EarlyStopping fit 在118 次时，就提前停止执行了。

执行 fit 的MAE情况

plt.plot(history.epoch,history.history.get('loss'),label="loss")
plt.xlabel("epoch")
plt.ylabel("MSE")
plt.legend()

第 8 步 – 评估模型

使用测试数据评估模型。

score = model.evaluate(x_test_scaled, y_test, verbose = 0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

执行上述代码将输出以下信息 –

Test loss: 25.384990692138672
Test accuracy: 3.079430341720581

第 9 步 – 预测

最后，使用测试数据预测如下 –

y_train_pred =model.predict(x_train_scaled)
y_test_pred = model.predict(x_test_scaled)
plt.scatter(y_train,y_train_pred,label="train")
plt.scatter(y_test,y_test_pred,label="test")
plt.legend()

上图是以真实值为横坐标，预测值为纵坐标做图。

结论

本文以 keras 波士顿房价回归数据集，只做了建模过程，并没有对数据过多的前处理，也没有讨论过拟合和欠拟合等问题。让小伙伴快速了解建模的整个过程。
我将在以后的文章专门讨论这些问题。

Original: https://blog.csdn.net/cndrip/article/details/124627292
Author: cndrip
Title: Keras入门教程 3.波士顿房价回归 (MPL)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630283/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

UNet++学习笔记（主干网络+代码）

论文 1 Abstract 文章提出，UNet主要有以下两大缺陷： ① 网络最优的深度未知，需要通过大量的实验以及集成不同深度的网络，效率低； ② skip conne…

人工智能 2023年5月26日
0084
python驾到~障碍通通闪开，美女批量入内存~

前言嗨喽~大家好呀，这里是魔王呐 ! 又是普普通通采集美女得一天啊~ 目录前言 * 环境使用: 模块使用: – 安装python第三方模块: 如何配置pycharm…

人工智能 2023年7月6日
0069
论文阅读之 Omni-Scale Feature Learning for Person Re-Identification

相关链接论文链接：Omni Scale_Feature_Learning_for_Person_Re-Identification_ICCV_2019_paper.pdf 代码链…

人工智能 2023年7月10日
0072
车载语音助手_蔚来NOMI的野望：超越车载语音助手

作者 / 姚旭阳编辑 / 王德芙出品 / 汽车之心(微信 ID：Auto-Bit) 蔚来眼中的 NOMI 到底能做什么？数字座舱要朝着哪个方向发展？蔚来开发 NOMI 的过程遇…

人工智能 2023年5月27日
0088
STD: Sparse-to-Dense 3D Object Detector for Point Cloud 阅读笔记

Yang Z, Sun Y, Liu S, et al. Std: Sparse-to-dense 3d object detector for point cloud[C]//P…

人工智能 2023年7月10日
0082
使用velodyne-16进行SLAM(ALOAM, LeGO-LOAM, LOAM_velodyne)线下建图命令代码超详细教程

总体流程 /home/ciro/vlp_ros_bag目录下存放由VLP-16扫描的三个体育馆入口的点云 /home/ciro/catkin_ws/build下配置有A-LOAM…

人工智能 2023年6月10日
0094
Mac中anaconda的下载以及环境的配置

目录前言一、anaconda是什么？二、安装anaconda以及配置tensorflow环境 1.安装anaconda 2.安装tensorflow 总结前言随着对知识的…

人工智能 2023年5月25日
00102
3D目标检测之数据集

目录 * – 1. KITTI Dataset – 2. Waymo Open Dataset – 3. NuScenes DataSet &#…

人工智能 2023年6月11日
0092
Vibe算法简介、优缺点、代码

ViBe检测方法 * – 算法简介 – + 1.背景模型的初始化 + 2.前景检测过程 + 3.背景模型的更新方法 – Vibe算法优缺点 &#…

人工智能 2023年7月9日
0066
【part2】Tensorflow Object detection API Win10使用教程(tensorflow数据集生成教程)

前言：该教程目的是为了把Pascal VOC数据集转换成tensorflow object detection api可用的数据集的格式(.tfrecord)。教程结构：本教…

人工智能 2023年5月24日
0091
Pytorch多卡训练

前一篇博客利用Pytorch手动实现了LeNet-5，因为在训练的时候，机器上的两张卡只用到了一张，所以就想怎么同时利用起两张显卡来训练我们的网络，当然LeNet这种层数比较低而且…

人工智能 2023年6月4日
0093
常用激活函数(relu,glu,gelu,swish等)

激活函数的主要作用是提供网络的非线性建模能力。本文简要介绍一些常用的激活函数。 torch.nn.Sigmoidf ( x ) = 1 1 + e − x f(x) = \frac…

人工智能 2023年7月21日
0057
NLP 处理文本解决emoji、空白符及特殊字符问题

NLP 处理文本解决emoji、特殊文字和空白符问题爬虫爬取的文本中包含一些不需要的，例如空字符和emoji等。在写入csv文件时，终端报错如下： UnicodeEncode…

人工智能 2023年5月27日
0089
浅析图像注意力机制

图像注意力机制对于深度学习图像算法，已经内卷很严重了，没有点自注意力，新设计模块都拿不出手。借着知识整理的机会，总结一下之前了解到的图像自注意力机制，供大家八股（不是），供大家…

人工智能 2023年6月16日
0090
时间窗口（Time Windows)

本贴介绍了时间窗口的相关概念，以及通过举例详细介绍时间窗口的工作原理。 1. 时间窗口常用的时间窗口有：翻滚时间窗口(tumbling time window) 滑动时间窗口(…

人工智能 2023年6月17日
00101
连续投影算法_算法工程师学习路线（NLP 方向）

对于算法工程师，常见方向有：NLP、搜索推荐、知识图谱、CV、机器学习算法工程师等等，不同领域在求职时岗位是会细化的。 NLP 技术主要是和数据打交道，通过 SQL + Pytho…

人工智能 2023年6月1日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31