tensorflow学习2 –回归主要是看数据的各种展示方法怎么用代码实现

2023年6月17日下午2:25 • 人工智能 • 阅读 102

本文教程来源
教程以 汽车燃油效率的模型为例，气缸数，排量，马力以及重量为变量

获取数据

dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")

print(dataset_path)

column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
                'Acceleration', 'Model Year', 'Origin']
raw_dataset = pd.read_csv(dataset_path, names=column_names,
                      na_values = "?", comment='\t',
                      sep=" ", skipinitialspace=True)

使用pandas做数据处理的第一步就是读取数据，数据源可以来自于各种地方，csv文件便是其中之一。而读取csv文件，pandas也提供了非常强力的支持，参数有四五十个。

数据输入的路径：可以是文件路径、可以是URL，也可以是实现read方法的任意对象。
names：表头，就是类似于[“编号”, “姓名”, “地址”]那种
na_values：这里是把问号替换成 NaN。完整的是{“指定的某列”: [“那一列要被替换的内容”, “2个以上就用中括号”], “result”: [“对”]})
sep：读取csv文件时指定的分隔符，默认为逗号。注意：”csv文件的分隔符” 和 “我们读取csv文件时指定的分隔符” 一定要一致。
详解pandas的read_csv方法

下图是获取到的原始数据

; 数据处理

dataset = raw_dataset.copy()
print(dataset.isna().sum())
dataset = dataset.dropna()

origin = dataset.pop('Origin')

dataset['USA'] = (origin == 1)*1.0
dataset['Europe'] = (origin == 2)*1.0
dataset['Japan'] = (origin == 3)*1.0

train_dataset = dataset.sample(frac=0.8,random_state=0)
test_dataset = dataset.drop(train_dataset.index)

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
（要抽取的行数，抽取行的比例【例如frac=0.8，就是抽取其中80%】，是否为有放回抽样，不懂，数据能重复吗，选择抽取数据的行还是列）
pandas.DataFrame.sample 随机选取若干行

用数据图查看数据内容

sns.pairplot(train_dataset[[“MPG”, “Cylinders”, “Displacement”, “Weight”]], diag_kind=”kde”)

Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。
pairplot主要展现的是变量两两之间的关系
sns.pairplot(data,kind=”reg”,diag_kind=”kde”)
kind：用于控制非对角线上的图的类型，可选”scatter”与”reg”
diag_kind：控制对角线上的图的类型，可选”hist”与”kde”
Python可视化 | Seaborn5分钟入门(七)——pairplot
数据图不显示就加一句plt.show()在后面头文件需要的是 import matplotlib.pyplot as plt

用表格查看数据内容

train_stats = train_dataset.describe()
train_stats.pop("MPG")
train_stats = train_stats.transpose()
print(train_stats)

describe（）函数可以查看DataFrame中数据的统计情况
describe函数基础介绍
 pandas 的describe函数的参数详解


train_labels = train_dataset.pop('MPG')
test_labels = test_dataset.pop('MPG')

def norm(x):
  return (x - train_stats['mean']) / train_stats['std']
normed_train_data = norm(train_dataset)
normed_test_data = norm(test_dataset)

构建模型

def build_model():
  model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
  ])

  optimizer = tf.keras.optimizers.RMSprop(0.001)

  model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae', 'mse'])
  return model

model = build_model()
model.summary()

训练模型

假设您有一个包含200个样本（数据行）的数据集，并且您选择的Batch大小为5和1,000个Epoch。
这意味着数据集将分为40个Batch，每个Batch有5个样本。每批五个样品后，模型权重将更新。
这也意味着一个epoch将涉及40个Batch或40个模型更新。
有1000个Epoch，模型将暴露或传递整个数据集1,000次。在整个培训过程中，总共有40,000Batch。
神经网络中Batch和Epoch之间的区别是什么？
wq：因此如果想要训练得快点，就加大batch或减小Epoch

先试用一下

example_batch = normed_train_data[:10]
example_result = model.predict(example_batch)

predict为输入样本生成输出预测。就，用刚刚搭建的网络及其初始参数跑一下预测
中文文档里有讲model的predict和fit


class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs):
    if epoch % 100 == 0: print('')
    print('.', end='')

EPOCHS = 1000

history = model.fit(
  normed_train_data, train_labels,
  epochs=EPOCHS, validation_split = 0.2, verbose=0,
  callbacks=[PrintDot()])

回调函数，callback，是obj类型的。他可以让模型去拟合，也常在各个点被调用。它存储模型的状态， 能够采取措施打断训练，保存模型，加载不同的权重，或者替代模型状态。
虽然我们称之为回调”函数”，但事实上Keras的回调函数是一个类。定义新的回调函数必须继承自该类
回调函数以字典logs为参数，该字典包含了一系列与当前batch或epoch相关的信息
目前，模型的.fit()中有下列参数会被记录到logs中：

在每个epoch的结尾处（on_epoch_end），logs将包含训练的正确率和误差，acc和loss，如果指定了验证集，还会包含验证集正确率和误差val_acc)和val_loss，val_acc还额外需要在.compile中启用metrics=[‘accuracy’]。
在每个batch的开始处（on_batch_begin）：logs包含size，即当前batch的样本数
在每个batch的结尾处（on_batch_end）：logs包含loss，若启用accuracy则还包含acc
Keras中的回调函数Callbacks详解


class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs):
    if epoch % 10 == 0:print('a')
    print('n', end='b')
    print(logs)
  def on_batch_begin(self, batch, logs):
    if batch % 5 == 0:
        print('')
        print('2')
    print('3', end='c')

查看数据

def plot_history(history):

  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Abs Error [MPG]')
  plt.plot(hist['epoch'], hist['mae'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mae'],
           label = 'Val Error')
  plt.ylim([0,5])
  plt.legend()

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Square Error [$MPG^2$]')
  plt.plot(hist['epoch'], hist['mse'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mse'],
           label = 'Val Error')
  plt.ylim([0,20])
  plt.legend()
  plt.show()

plot_history(history)

图中的数据表示：训练集的误差越来越少，但测试集的误差却越来越大了，这八成是过拟合了。

补救模型

其实就加一个回调，让模型的训练集误差有点离谱的时候让他停下。

model = build_model()

early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)

history = model.fit(normed_train_data, train_labels, epochs=EPOCHS,
                    validation_split = 0.2, verbose=0, callbacks=[early_stop, PrintDot()])

early_stop = keras.callbacks.EarlyStopping(monitor=’val_loss’,patience=50)

monitor：监控的数据接口。
keras定义了如下的数据接口可以直接使用：

acc（accuracy），测试集的正确率
loss，测试集的损失函数（误差）
val_acc（val_accuracy），验证集的正确率
val_loss，验证集的损失函数（误差），这是最常用的监控接口，因为监控测试集通常没有太大意义，验证集上的损失函数更有意义。

patience：对于设置的monitor，可以忍受在多少个epoch内没有改进 patient不宜设置过小，防止因为前期抖动导致过早停止训练。当然也不宜设置的过大，就失去了EarlyStopping的意义了。

然后
拿测试集试用一下看行不行

loss, mae, mse = model.evaluate(normed_test_data, test_labels, verbose=2)
print("Testing set Mean Abs Error: {:5.2f} MPG".format(mae))

做预测

test_predictions = model.predict(normed_test_data).flatten()

plt.scatter(test_labels, test_predictions)
plt.xlabel('True Values [MPG]')
plt.ylabel('Predictions [MPG]')
plt.axis('equal')
plt.axis('square')
plt.xlim([0,plt.xlim()[1]])
plt.ylim([0,plt.ylim()[1]])
_ = plt.plot([-100, 100], [-100, 100])

error = test_predictions - test_labels
plt.hist(error, bins = 25)
plt.xlabel("Prediction Error [MPG]")
_ = plt.ylabel("Count")

比如我们随机定义一个维度为（2，3，4）的数据a。flatten()和flatten(0)效果一样,a这个数据从0维展开，就是（2 ∗ 3 ∗ 4），长度就是(24)。a从1维展开flatten(1)，就是( 2 , 3 ∗ 4 ) ，也就是（2，12）
flatten()参数详解

代码备份

过拟合的情况

import pathlib

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")

column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
                'Acceleration', 'Model Year', 'Origin']
raw_dataset = pd.read_csv(dataset_path, names=column_names,
                      na_values = "?", comment='\t',
                      sep=" ", skipinitialspace=True)
dataset = raw_dataset.copy()
dataset = dataset.dropna()

origin = dataset.pop('Origin')

dataset['USA'] = (origin == 1)*1.0
dataset['Europe'] = (origin == 2)*1.0
dataset['Japan'] = (origin == 3)*1.0

train_dataset = dataset.sample(frac=0.8,random_state=0)
test_dataset = dataset.drop(train_dataset.index)

train_stats = train_dataset.describe()
train_stats.pop("MPG")
train_stats = train_stats.transpose()

train_labels = train_dataset.pop('MPG')
test_labels = test_dataset.pop('MPG')

def norm(x):
  return (x - train_stats['mean']) / train_stats['std']
normed_train_data = norm(train_dataset)
normed_test_data = norm(test_dataset)
def build_model():
  model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
  ])

  optimizer = tf.keras.optimizers.RMSprop(0.001)

  model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae', 'mse'])
  return model
model = build_model()

class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs):
    if epoch % 10 == 0:print('a')
    print(logs)

EPOCHS = 100

history = model.fit(
  normed_train_data, train_labels,
  epochs=EPOCHS, validation_split = 0.2, verbose=0,
  callbacks=[PrintDot()])
hist = pd.DataFrame(history.history)
hist['epoch'] = history.epoch
print(hist.tail())

def plot_history(history):

  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Abs Error [MPG]')
  plt.plot(hist['epoch'], hist['mae'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mae'],
           label = 'Val Error')
  plt.ylim([0,5])
  plt.legend()

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Square Error [$MPG^2$]')
  plt.plot(hist['epoch'], hist['mse'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mse'],
           label = 'Val Error')
  plt.ylim([0,20])
  plt.legend()
  plt.show()

plot_history(history)

好好整理之后的代码

import pathlib

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

def build_model():
  model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
  ])

  optimizer = tf.keras.optimizers.RMSprop(0.001)

  model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae', 'mse'])
  return model

class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs):
    if epoch % 10 == 0:print('a')
    print(logs)

def plot_history(history):

  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Abs Error [MPG]')
  plt.plot(hist['epoch'], hist['mae'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mae'],
           label = 'Val Error')
  plt.ylim([0,5])
  plt.legend()

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Square Error [$MPG^2$]')
  plt.plot(hist['epoch'], hist['mse'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mse'],
           label = 'Val Error')
  plt.ylim([0,20])
  plt.legend()
  plt.show()

dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")

column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
                'Acceleration', 'Model Year', 'Origin']

raw_dataset = pd.read_csv(dataset_path, names=column_names,
                      na_values = "?", comment='\t',
                      sep=" ", skipinitialspace=True)

dataset = raw_dataset.copy()
dataset = dataset.dropna()

origin = dataset.pop('Origin')

dataset['USA'] = (origin == 1)*1.0
dataset['Europe'] = (origin == 2)*1.0
dataset['Japan'] = (origin == 3)*1.0

train_dataset = dataset.sample(frac=0.8,random_state=0)
test_dataset = dataset.drop(train_dataset.index)

train_stats = train_dataset.describe()
train_stats.pop("MPG")
train_stats = train_stats.transpose()

train_labels = train_dataset.pop('MPG')
test_labels = test_dataset.pop('MPG')

def norm(x):
  return (x - train_stats['mean']) / train_stats['std']
normed_train_data = norm(train_dataset)
normed_test_data = norm(test_dataset)

model = build_model()

EPOCHS = 100

early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=50)

history = model.fit(
  normed_train_data, train_labels,
  epochs=EPOCHS, validation_split = 0.2, verbose=0,
  callbacks=[early_stop, PrintDot()])

loss, mae, mse = model.evaluate(normed_test_data, test_labels, verbose=2)
print("Testing set Mean Abs Error: {:5.2f} MPG".format(mae))

test_predictions = model.predict(normed_test_data).flatten()

plt.scatter(test_labels, test_predictions)
plt.xlabel('True Values [MPG]')
plt.ylabel('Predictions [MPG]')
plt.axis('equal')
plt.axis('square')
plt.xlim([0,plt.xlim()[1]])
plt.ylim([0,plt.ylim()[1]])
_ = plt.plot([-100, 100], [-100, 100])
plt.show()

error = test_predictions - test_labels
plt.hist(error, bins = 25)
plt.xlabel("Prediction Error [MPG]")
_ = plt.ylabel("Count")
plt.show()

Original: https://blog.csdn.net/qq_42635852/article/details/123231270
Author: 晓蓝WQuiet
Title: tensorflow学习2 –回归主要是看数据的各种展示方法怎么用代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630431/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu环境添加Anaconda和Jupyter的图标

在Ubuntu系统下安装Ananconda后是不会在桌面生成图标的。如果要打开JupyterNotebook需要在终端执行命令： jupyter notebook 这样的操作足够极…

人工智能 2023年6月4日
0086
如何在PyTorch中保存和加载训练好的模型

问题描述在PyTorch中如何保存和加载训练好的模型？介绍在深度学习中，训练一个复杂的模型可能需要花费数小时甚至数天的时间。为了避免每次使用训练好的模型时都需要重新训练，我们…

人工智能 2024年1月3日
0078
干货！面向多源数据融合的睡眠时序分类方法研究

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！时间序列分类任务是数据挖掘领域重要的研究方向，针对于生理时间序列的分析与挖掘有助于进行疾病的诊断和预测，促进了智慧医…

人工智能 2023年7月1日
00205
Pandas 初体验

–– coding: utf-8 –– from pandas import Series,DataFrame import pan…

人工智能 2023年7月8日
0072
数据分析（三）——pandas

numpy能够帮助我们处理数值，但是pandas除了处理数值之外（基于numpy），还能够帮助我们处理其他类型的数据。一、Series和读取外部数据 Series：一维，带标签数…

人工智能 2023年7月8日
0086
我的机器学习笔记（三）— 分类问题与K近邻算法

文章目录一、分类问题的定义二、分类问题的类型 * 2.1 二分类问题 2.2 多分类问题三、常用的分类算法四、模型分类器的实现 * 4.1 模型的构建 4.2 模型的使用 …

人工智能 2023年7月1日
00105
本周最新文献速递20211114

本周最新文献速递20211114 一、精细解读文献一文献题目： Mapping the proteo-genomic convergence of human diseases…

人工智能 2023年6月5日
00100
标准误，标准差，置信区间分不清？派森诺教你画误差线

在任何一种测量中，无论所用仪器多么精密，方法多么完善，实验者多么细心，不同时间所测得的结果不一定完全相同，会有一定的误差和偏差，严格来讲，误差是指实验测量值（包括直接和间接测量值）…

人工智能 2023年7月18日
0068
张量有哪些常见的表示方式

张量的常见表示方式在数学和计算机科学中，张量是一种广义的向量和矩阵的扩展，可以表示和处理多维数据。张量在机器学习和深度学习等领域中扮演着重要的角色。张量可以通过多种方式进行表示，…

人工智能 2024年1月1日
0064
【BP回归预测】基于matlab Tent混沌映射改进的麻雀算法优化BP神经网络回归预测【含Matlab源码 1707期】

⛄一、sine混沌映射改进的麻雀搜索算法优化BP神经网络简介 ISSA优化BP神经网络算法建模过程如图1所示，具体流程如下： (1) 确定BP神经网络的拓扑结构，输入层节点数为5,…

人工智能 2023年6月17日
0085
数仓构建-业务调研

业务调研确定需求您在构建数据仓库之前，首先需要确定构建数据仓库的目标与需求，并进行全面的业务调研。您需要了解真实的业务需求，以及确定数据仓库要解决的问题。业务调研充分的业务…

人工智能 2023年7月16日
0089
Spring学习+Spring整合durid+Spring整合Mybatis

1 集合注入 2 IOC/DI配置管理第三方bean Spring整合durid 3 IOC容器 1，2，3总结 4 IOC/DI注解开发半注解开发纯注解开发模式 Bean的作…

人工智能 2023年6月29日
0095
50_Pandas读取 Excel 文件 (xlsx, xls)

要使用 pandas 将 Excel 文件（扩展名：.xlsx、.xls）作为 pandas.DataFrame 读取，请使用 pandas.read_excel () 函数。这…

人工智能 2023年7月18日
0083
聚类、缺失处理、特征分析——模型几个重要的处理过程（含案例实操）

在数据建模过程中，尤其是通过线性回归、逻辑回归等传统机器学习算法进行模型训练之前，往往需要对样本数据进行清洗，其中缺失值处理是一种常用方法。根据特征的类别属性与缺失特点，采用合适的…

人工智能 2023年7月16日
0074
【机器学习】python实现吴恩达机器学习作业合集（含数据集）

学习感言：从3.7第一天开始，到今天4.4，一个多月的时间，陆续完成了听课，代码实现和总结博客，过程些许艰难，作为一个刚入门的学习者，收获了很多。总结一下这一段时间的学习过程吧。…

人工智能 2023年7月29日
0076
电商常用三大数据分析模型–深入浅出

一.漏斗模型顾名思义，”漏斗” ，逐层递进，层层过滤。在电商app场景下，最经典的为用户的浏览->点击->加购->下单漏斗模型。用…

人工智能 2023年7月17日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tensorflow学习2 –回归 主要是看数据的各种展示方法怎么用代码实现