自我学习与理解：keras框架下的深度学习（三）回归问题

2023年6月6日下午8:53 • Python • 阅读 77

本文主要是使用keras对其有的波士顿房价数据集做一个回归预测，其代码架构与之前一样（都只是使用多层感知机）：数据的预处理、搭建网络框架、编译、循环训练以及测试训练的网络模型。其中除了数据预处理与之前归回模型略有不同，其他基本类似。但是在本文的回归预测代码中会提到一个数据集比较少时常用到的训练方法——交叉验证。

回归预测房价，也就是说选定影响房价的因素，将其量化，然后使用该数据和对应的房价价格训练神经网络，最后使用因素的量化值来预测房价的走势。

Keras中的波士顿房价数据集，其中一共只有506个样本，其中只有404个用来做训练。其他是用来做测试。每个样本有13个特征，也就是有13个房价影响因素（13个因素中有些是具体的数值也有的是给定的权重值）。所以训练数据集是:[404,13]。

1.数据的预处理

首先使用keras导入所需要使用的包以及数据集

python;gutter:true; from keras.datasets import boston_housing (train_data,train_targets),(test_data,test_targets)=boston_housing.load_data()</p> <pre><code> 然后对数据进行标准化处理，得到特征平均值为0，标准差为1的数据，这样更加有利于网络的处理及其收敛。;gutter:true;
mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data/=std

test_data-=mean
test_data/=std

第一部分代码中的train_data.mean(axis=0)表示是求train_data中每一行的特征平均值，其std所求的也是每一行的标准差，也就是对每一组数据中的13个影响因素做标注化。（使用print(train_data.shape)可以得到训练数据的形状[404,13]，上述代码中的axis=0就是指的404）

第二部分代码中，我们直接使用训练集上所得到的特征平均值和标准差来对测试集进行标准化，其原因是不能使得网络提前知道了测试集的数据。

2.搭建网络架构

python;gutter:true; model=models.Sequential() model.add(layers.Dense(32,activation='relu',input_shape=(trian_data.shape[1],))) model.add(layers.Dense(32,activation='relu')) model.add(layers.Dense(1))</p> <pre><code> 网络架构的搭建与之前文章一样，但是在最后不需要进行非线性的处理，因为改网络是需要做一个预测，所以直接输出网络得到的数值即可。 3.编译;gutter:true;
model.compile(
optimizer=’rmsprop’,loss=’mse’,metrics=[‘mae’] )

编译这里采用的损失函数是mae，也就是平均绝对误差，即取预测值和真实值之间误差的平方作为网络得到的误差进行返回训练。

4.循环网络

python;gutter:true; k=4 num=len(trian_data)//k num_epochs=60 all_list=[] for i in range(k): print('proccesing #',i) val_data=trian_data[i<em>num:(i+1)</em>num] val_target=trian_target[i<em>num:(i+1)</em>num]</p> <pre><code>par_data=np.concatenate( [trian_data[:i*num], trian_data[(i+1)*num:]], axis=0 ) par_target=np.concatenate( [trian_target[:i*num], trian_target[(i+1)*num:]], axis=0 ) his=model.fit(par_data,par_target,epochs=num_epochs,batch_size=1,validation_data=(val_data,val_target)) history=his.history['mae'] all_list.append(history) </code></pre> <pre><code> 因为该数据集十分稀少（404个），所以为了提升网络的性能，这里使用交叉验证来加强网络性能。交叉验证，也就是把所以的训练数据分成n分，按顺序选取从其中一份做验证集，其余做测试集，直到n份数据都做过验证集为止。如下图所示： ![自我学习与理解：keras框架下的深度学习（三）回归问题](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/2573991-20211223211355180-1670409162.png) 在代码中，用k表示一共分成的份数，然后进行，其中一共需要进行k次验证，每次进行验证时都会运行num_epochs次。最后把每一次的的mae值保存在all_list的列表中，方便后面的画图。在上述代码中，因为一个训练了k（k=4）轮，每轮60次（epochs=60），所以我们求60次的均值（一共四组数据，求均值，从4*60个数值得到60个数值），然后再使用得到的均值作图，代码如下：;gutter:true;
ave_list=[np.mean([x[i] for x in all_list]) for i in range(num_epochs)]
plt.plot(range(1,len(ave_list)+1),ave_list)
plt.xlabel(‘epochs’)
plt.ylabel(‘validation mae’)
plt.show()

第一行代码是分别对4组中的数据求60个epochs的均值；剩下的代码是做mae的验证值曲线，得到的曲线如图所示：

mae越小，表示预测越准确；其余曲线，比如说是验证集的损失值曲线，只需替换 4.循环网络中的history：

python;gutter:true;</p> <h1>替换前</h1> <p>history=his.history['mae']</p> <h1>替换后</h1> <p>history=his.history['val_mae']</p> <pre><code> 之后修改y轴名称即可，关于能画什么曲线，因为在model.fit中，我们使用了训练集和验证集，所以最后得到训练集的loss和mae以及验证集的loss和mae。 5.所有代码;gutter:true;
from keras.datasets import boston_housing
from keras import layers
from keras import models
import numpy as np
import matplotlib.pyplot as plt
(train_data,train_target),(tesr_data,test_target)=boston_housing.load_data()
print(train_data[1])
mean=np.mean(train_data)
train_data-=mean
str=np.std(train_data)
train_data/=str

tesr_data-=mean
tesr_data/=str
print(train_data[1])

model=models.Sequential()
model.add(layers.Dense(32,activation=’relu’,input_shape=(train_data.shape[1],)))
model.add(layers.Dense(32,activation=’relu’))
model.add(layers.Dense(1))
model.compile(
optimizer=’rmsprop’,loss=’mse’,metrics=[‘mae’] )

k=4
num=len(train_data)//k
num_epochs=60
all_list=[]
for i in range(k):
print(‘proccesing #’,i)
val_data=train_data[i*num:(i+1)*num] #从训练集中提取出验证的数据部分
val_target=train_target[i*num:(i+1)*num] #从训练集中提取出验证的标签部分（房价）

par_data=np.concatenate( #把训练数据的其他部分粘合在一起
[train_data[:i*num],
train_data[(i+1)*num:]],
axis=0
)
par_target=np.concatenate( #把训练标签的其他部分粘合在一起
[train_target[:i*num],
train_target[(i+1)*num:]],
axis=0
)
his=model.fit(par_data,par_target,epochs=num_epochs,batch_size=1,validation_data=(val_data,val_target))
history=his.history[‘mae’]
all_list.append(history)

ave_list=[np.mean([x[i] for x in all_list]) for i in range(num_epochs)]
plt.plot(range(1,len(ave_list)+1),ave_list)
plt.xlabel(‘epochs’)
plt.ylabel(‘train mae’)
plt.show()

Original: https://www.cnblogs.com/openabox/p/15708952.html
Author: 眼前有座山
Title: 自我学习与理解：keras框架下的深度学习（三）回归问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/577398/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Appium+Pytest+Allure实现APP自动化测试，小试牛刀！

Hi，大家好。Appium结合Pytest开展App自动化测试时，你知道如何自动运行用例并发执行吗？费话不多说，直接上代码，毕竟想让每个人都能看明白也不容易，所以附上代码，有兴趣…

Python 2023年9月12日
0068
基于WEB的网上购物系统的设计与实现（附：源码论文 sql文件）

摘要随着计算机网络技术的飞速发展和人们生活节奏的不断加快，电子商务技术已经逐渐融入了人们的日常生活当中，网上商城作为电子商务最普遍的一种形式，已被大众逐渐接受。因此开发一个网上…

Python 2023年10月9日
0044
Python：实现简单的递归下降Parser

1. 算术运算表达式求值在上一篇博文《Python技法：用re模块实现简易tokenizer》中，我们介绍了用正则表达式来匹配对应的模式，以实现简单的分词器。然而，正则表达式不是…

Python 2023年10月26日
0044
驱动开发：内核字符串转换方法

在内核编程中字符串有两种格式 ANSI_STRING与 UNICODE_STRING，这两种格式是微软推出的安全版本的字符串结构体，也是微软推荐使用的格式，通常情况下 ANSI_S…

Python 2023年10月20日
0069
Python字符串、字典

1. (简答题) 调用python字符串操作中常用函数，实现以下功能：已知字符串a = “Hello_Python_!!!”，请将a字符串全部转为大写； …

Python 2023年8月29日
0058
pycharm下载安装与基本配置

pycharm下载安装与基本配置 1.简介 PyCharm是一种Python IDE（Integrated Development Environment，集成开发环境），带有一整…

Python 2023年10月29日
0045
python pytest和allure环境_python学习-pytest（四）-Pytest集成Allure生成测试报告

Pytest集成Allure生成测试报告 1、Allure安装选择需要的版本，下载zip文件，解压即可 2、添加allure环境变量 path：D:\Program Files\…

Python 2023年9月14日
0053
conda不能创建虚拟环境

遇到的问题 Collecting package metadata (current_repodata.json): failed CondaHTTPError: HTTP 000…

Python 2023年9月7日
0044
运用matplotlib使数据可视化（绘制折线图）

用matplotlib绘制一个美观的折线图 *开始前请先导入matplotlib库以使用相关模块假设以下将用random模块随机产生某地区某月30天内的温度，并用折线图绘制出气温…

Python 2023年9月3日
0060
（2022.5）Pyhthon Matplotlib实现在图中绘制多子图（一纸多图）

目录前言一、从指定路径下读取二、手动添加路径总结前言写Paper或者做CW时，可能会遇见需要将多张图片绘制在一起的情景，使用PS或拼图工具可能会比较麻烦。这次给大家介…

Python 2023年9月1日
0041
Python的pandas的dataframe的drop方法，删除行、列

版权声明：转载请注明作者（独孤尚良dugushangliang）出处：https://blog.csdn.net/dugushangliang/article/details/11…

Python 2023年8月16日
00139
intel处理器在win/ubuntu和mkl/openblas下的numpy性能测试

测试代码参考自共测试三个项目，numpy矩阵乘法，numpy矩阵resize和numpy跑图像滤波测试代码如下，欢迎补充其他cpu成绩或指出测试不当的点更多是为了满足自己好奇…

Python 2023年8月27日
0068
【C++】实现D3D9 的 Inline hook

【C++】实现D3D9 的 Inline hook 简单介绍一下HOOK原理：函数调用的过程大致是先push 参数进去，再执行 call 函数地址，进入函数。此时将所调用的…

Python 2023年6月12日
00113
python教程：函数的return语句运用

return语句用于退出函数，向调用方返回一个表达式。 return在不带参数的情况下（或者没有写return语句），默认返回None。 None是一个特殊的值，它的数据类型是No…

Python 2023年5月24日
0072
路径分析—PostgreSQL+GeoServer+Openlayers（二）

路径分析—QGIS+PostgreSQL+PostGIS+pgRouting（一）路径分析—PostgreSQL+GeoServer+Openlayers（二）前言上一篇文章…

Python 2023年10月19日
0033
掌握 Python 中下划线的 5 个潜规则

本文将介绍Python中单下划线和双下划线(“dunder”)的各种含义和命名约定，名称修饰(name mangling)的工作原理，以及它如何影响你自…

Python 2023年6月11日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自我学习与理解：keras框架下的深度学习（三）回归问题

大家都在看