keras篇（1）–model.fit()的输入数据

2023年8月28日上午12:27 • Python • 阅读 45

人生苦短，我用keras!!!

大家都知道keras极大的简化了神经网络的搭建，但是大家知道如何输入数据吗，数据大时，直接numpy矩阵输入使内存爆满？有试过生成器吗？有试过tf.data吗？想知道这几着的差距和优劣势吗？往下看吧！！！

一、简介

我们先来看看keras官方的代码中对model.fit()中的数据的输入的描述：

x: Input data. It could be:
 - A Numpy array (or array-like), or a list of arrays
  (in case the model has multiple inputs).

 - A TensorFlow tensor, or a list of tensors
  (in case the model has multiple inputs).

 - A dict mapping input names to the corresponding array/tensors,
  if the model has named inputs.

 - A tf.data dataset. Should return a tuple
  of either (inputs, targets) or
  (inputs, targets, sample_weights).

 - A generator or keras.utils.Sequence returning (inputs, targets)
  or (inputs, targets, sample_weights).

A more detailed description of unpacking behavior for iterator types
(Dataset, generator, Sequence) is given below.

从描述中我们可以看到输入的方式有：

Numpy array
List Numpy Array
Tensors
Dict
tf.data
generator
keras.utils.Sequeue

二、Numpy Array

从标题就可以看到，model.fit()的输入为numpy矩阵

适合数据量比较小的时候，直接把全部数据读入内存

import keras
from keras.layers import *
import numpy as np

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()
print("x_train.shape:", x_train.shape)
print("y_test.shape:", x_test.shape)
print(y_train.shape)

x_train = x_train / 255.0
x_test = x_test / 255.0

model = keras.Sequential(
    [
        Flatten(input_shape=(28, 28)),
        Dense(units=256, activation='relu'),
        Dense(units=128, activation='relu'),
        Dense(units=10, activation='softmax')
    ]
)

model.summary()

optimizer = keras.optimizers.Adam(lr=0.001)
model.compile(
    optimizer=optimizer,
    metrics=['accuracy'],
    loss=keras.losses.sparse_categorical_crossentropy)

model.fit(x_train, y_train, batch_size=32, epochs=1, verbose=1)

三、Tensors

使用tf.convert_to_tensor()函数将Numpy矩阵变成Tensor张量，在Tensorflow框架中Numpy和Tensor的转换很容易

import keras
from keras.layers import *
import numpy as np
import tensorflow as tf

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

x_train = x_train / 255.0
x_test = x_test / 255.0

x_train = tf.convert_to_tensor(x_train)
x_test = tf.convert_to_tensor(x_test)

model = keras.Sequential(
    [
        Flatten(input_shape=(28, 28)),
        Dense(units=256, activation='relu'),
        Dense(units=128, activation='relu'),
        Dense(units=10, activation='softmax')
    ]
)

model.summary()

optimizer = keras.optimizers.Adam(lr=0.001)
model.compile(
    optimizer=optimizer,
    metrics=['accuracy'],
    loss=keras.losses.sparse_categorical_crossentropy)

model.fit(x_train, y_train, batch_size=32, epochs=5, verbose=1)

四、tf.data

使用tf.data.Dataset.from_tensor_slices((x, y))

可以使用的方法：

shuffle —- 括号内是打乱数据的大小
batch —– 括号内是一次喂入的batch-size
repeat —–括号内是数据池中需要重复的次数

import keras
from keras.layers import *
import numpy as np
import tensorflow as tf

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

x_train = x_train / 255.0
x_test = x_test / 255.0

datasets_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))
datasets_train = datasets_train.shuffle(x_train.shape[0]).batch(32).repeat(2)

model = keras.Sequential(
    [
        Flatten(input_shape=(28, 28)),
        Dense(units=256, activation='relu'),
        Dense(units=128, activation='relu'),
        Dense(units=10, activation='softmax')
    ]
)

model.summary()

optimizer = keras.optimizers.Adam(lr=0.001)
model.compile(
    optimizer=optimizer,
    metrics=['accuracy'],
    loss=keras.losses.sparse_categorical_crossentropy)

model.fit(datasets_train, batch_size=32, epochs=5, verbose=1)

五、Dict

这里如果要使用dict输入数据，就不能使用Sequence构造神经网络结构，而是需要使用keras的高级API，keras.layers.Input()来创建输入，然后在输入和输出中用name的键值构造dict的key

import keras
from keras.layers import *
import numpy as np
import tensorflow as tf

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

x_train = x_train / 255.0
x_test = x_test / 255.0

inputs = Input(shape=(28,28), name='inputs')
temp = Flatten()(inputs)
temp = Dense(256, activation='relu')(temp)
temp = Dense(128, activation='relu')(temp)

outputs = Dense(10, activation='softmax', name='outputs')(temp)
model = keras.Model(inputs, outputs)

model.summary()

optimizer = keras.optimizers.Adam(lr=0.001)
model.compile(
    optimizer=optimizer,
    metrics=['accuracy'],
    loss=keras.losses.sparse_categorical_crossentropy)

model.fit({"inputs":x_train}, {"outputs":y_train}, batch_size=32, epochs=5, verbose=1)

六、List Numpy Array

在多输入中输入的模型中，model的构建采用list，model.fit()中采用dict

num_tags = 12
num_words = 10000
num_departments = 4

title_data = np.random.randint(num_words, size=(1280, 10))
body_data = np.random.randint(num_words, size=(1280, 100))
tags_data = np.random.randint(2, size=(1280, num_tags)).astype('float32')

priority_target = np.random.random(size=(1280,1))
department_target = np.random.randint(2, size=(1280, num_departments))

title_input = keras.Input(shape=(None,), name='title')
body_input = keras.Input(shape=(None,), name='body')
tags_input = keras.Input(shape=(num_tags,), name='tags')

title_features = layers.Embedding(num_words, 64)(title_input)
body_features = layers.Embedding(num_words, 64)(body_input)

title_features = layers.LSTM(128)(title_features)
body_features = layers.LSTM(128)(body_features)

temp = layers.concatenate([title_features, body_features, tags_input])

priority_pred = layers.Dense(1, name='priority')(temp)
department_pred = layers.Dense(num_departments, name='num_departments')(temp)

输入使用列表，训练时喂入数据使用字典
model = keras.Model(inputs=[title_input, body_input, tags_input], outputs=[priority_pred, department_pred])
model.summary()

'''
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to
==================================================================================================
title (InputLayer)              (None, None)         0
__________________________________________________________________________________________________
body (InputLayer)               (None, None)         0
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, None, 64)     640000      title[0][0]
__________________________________________________________________________________________________
embedding_2 (Embedding)         (None, None, 64)     640000      body[0][0]
__________________________________________________________________________________________________
lstm_1 (LSTM)                   (None, 128)          98816       embedding_1[0][0]
__________________________________________________________________________________________________
lstm_2 (LSTM)                   (None, 128)          98816       embedding_2[0][0]
__________________________________________________________________________________________________
tags (InputLayer)               (None, 12)           0
__________________________________________________________________________________________________
concatenate_1 (Concatenate)     (None, 268)          0           lstm_1[0][0]
                                                                 lstm_2[0][0]
                                                                 tags[0][0]
__________________________________________________________________________________________________
priority (Dense)                (None, 1)            269         concatenate_1[0][0]
__________________________________________________________________________________________________
num_departments (Dense)         (None, 4)            1076        concatenate_1[0][0]
==================================================================================================
Total params: 1,478,977
Trainable params: 1,478,977
Non-trainable params: 0
__________________________________________________________________________________________________
'''

model.compile(
    optimizer=keras.optimizers.Adam(0.001),
    loss={
        'priority':keras.losses.binary_crossentropy,
        'num_departments':keras.losses.sparse_categorical_crossentropy,
    },
    metrics=['acc'],
    loss_weights=[1.0, 0.2]
)

model.fit(
    {'title':title_data, 'body':body_data, 'tags':tags_data},
    {'priority':priority_target, 'num_departments':department_target},
    batch_size=32,
    verbose=1,
    epochs=2,
)

七、生成器(generator)

import keras
from keras.layers import *
import numpy as np
import tensorflow as tf

'''

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

x_train = x_train / 255.0
x_test = x_test / 255.0

class MyGenerator:
    def __init__(self, x_train, y_train, batch_size):
        self.x_train = x_train
        self.y_train = y_train
        self.batch_size = batch_size
        self.steps = len(self.x_train) // self.batch_size
        if len(self.x_train) % self.batch_size != 0:
            self.steps += 1

    def __len__(self):
        return self.steps

    def __iter__(self):
        while True:
            count = 0
            x_list, y_list = [], []
            idxs = np.arange(self.x_train.shape[0])
            np.random.shuffle(idxs)
            for i in idxs:
                x_list.append(x_train[i])
                y_list.append(y_train[i])
                count += 1
                if count == self.batch_size:
                    yield np.array(x_list), np.array(y_list)
                    x_list, y_list = [], []

my_generator = MyGenerator(x_train, y_train, 32)

inputs = Input(shape=(28,28), name='inputs')
temp = Flatten()(inputs)
temp = Dense(256, activation='relu')(temp)
temp = Dense(128, activation='relu')(temp)
outputs = Dense(10, activation='softmax', name='outputs')(temp)
model = keras.Model(inputs, outputs)

model.summary()

optimizer = keras.optimizers.Adam(lr=0.001)
model.compile(
    optimizer=optimizer,
    metrics=['accuracy'],
    loss=keras.losses.sparse_categorical_crossentropy)

model.fit(iter(my_generator), batch_size=32, epochs=5, verbose=1, steps_per_epoch=len(my_generator))

八、keras.utils.Sequece

使用keras.utils.Sequece类喂入数据

import keras
from keras.layers import *
import numpy as np
import tensorflow as tf

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

x_train = x_train / 255.0
x_test = x_test / 255.0

class Fashion_Sequece(keras.utils.Sequence):
    def __init__(self, x_train, y_train, batch_size):
        self.x_train = x_train
        self.y_train = y_train
        self.batch_size = batch_size
        self.steps = (x_train.shape[0]) // self.batch_size
        if (x_train.shape[0]) % self.batch_size != 0:
            self.steps += 1

    def __len__(self):
        return self.steps

    def __getitem__(self, idx):
        batch_x = self.x_train[idx * self.batch_size:(idx + 1) * self.batch_size]
        batch_y = self.y_train[idx * self.batch_size:(idx + 1) * self.batch_size]
        return batch_x, batch_y

My_Sequece = Fashion_Sequece(x_train, y_train, batch_size=32)

inputs = Input(shape=(28,28), name='inputs')
temp = Flatten()(inputs)
temp = Dense(256, activation='relu')(temp)
temp = Dense(128, activation='relu')(temp)
outputs = Dense(10, activation='softmax', name='outputs')(temp)
model = keras.Model(inputs, outputs)

model.summary()

optimizer = keras.optimizers.Adam(lr=0.001)
model.compile(
    optimizer=optimizer,
    metrics=['accuracy'],
    loss=keras.losses.sparse_categorical_crossentropy)

model.fit(My_Sequece, batch_size=32, epochs=5, verbose=1, steps_per_epoch=len(My_Sequece))

喜欢我的文章，可以动动小手，点个赞！！！！！

一起加油！！！！

Original: https://blog.csdn.net/qq_41744697/article/details/114490441
Author: 我真是啥也不会
Title: keras篇（1）–model.fit()的输入数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/761524/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python命名空间和作用域

命名空间是从名称到对象的映射，大部分的命名空间都是通过 Python 字典来实现的命名空间查找顺序：局部命名空间、全局命名空间、内置命名空间相同的对象名称可以存在于多个命名空间…

Python 2023年11月3日
0032
机器学习——贝叶斯分类器

这里写目录标题 * – 1.贝叶斯分类器属于生成式模型 – 2.贝叶斯定理 – 3.朴素贝叶斯分类器 – + 3.1朴素贝叶斯分类器…

Python 2023年9月29日
0040
Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)

*盗墓笔记案例：目标网址：http://www.daomubiji.com / scrapy 项目： 1. 创建项目 2. 创建爬虫 3. 定义item 数据内容： 1. 书的名…

Python 2023年10月2日
0045
Python Matplotlib绘图笔记（2）【草稿未完成仅为个人笔记】

文章目录 5 pyplot.show * extend：floats (left, right, bottom, top), optional 参考 5 pyplot.show p…

Python 2023年9月4日
0041
【超详细】Anaconda简介、下载及安装教程(Windows 64位系统)

目录简介下载安装测试简介博主觉得，一开始接触Anaconda不需要长篇大论的去了解….也不需要理解的特别深入，先明白 “面”上的东西…

Python 2023年9月7日
0067
第3关：Numpy数组的切片与索引

相关知识一维Numpy数组的切片操作与Python列表的切片一样。下面首先来定义数字0 1 2直到8的数组，然后通过指定下标3到7来选择数组的部分元素，这实际上就是提取数组中值为3…

Python 2023年8月27日
0039
目前UI设计薪资待遇怎么样？工作好找吗？

UI设计的火爆，导致有很多年轻人都愿意投身于这个行业。有很多年轻的朋友都在问，UI设计的薪资待遇怎么样？工作难找吗？本文统一解答一下。 1、UI设计的薪资水平 UI设计的薪资待遇一…

Python 2023年10月10日
0031
【pandas教程】索引操作

选择、修改数据（单层索引）推荐使用.at、.iat、.loc、.iloc 操作句法结果备注选择列df[col]Series基于列名（列的标签），返回Series用标签选择行df….

Python 2023年8月6日
0048
Linux的NFS配置

快速代码 nfs的Server配置文件和配置方法 echo ‘/newnfs 192.168.2.*(rw,sync,no_root_squash)’ >> /etc/…

Python 2023年10月23日
0057
Python：range、np.arange和np.linspace的区别与联系

1. range range是python内置的一个类，该类型表示一个不可改变(immutable)的数字序列，常常用于在 for循环中迭代一组特殊的数，它的原型可以近似表示如下…

Python 2023年10月26日
0046
流程管理工具 PM2

一、 nodejs 今天介绍一个生产级的流程管理工具 PM2，通常我们说到 PM2 的时候，都是在说如何部署 Node.js 程序，但是实际上 PM2 很强大，不仅仅可以用来管理 …

Python 2023年6月9日
0073
matplotlib显示中文字体的常用三种方法

文章目录（一）调用Fontproperties(推荐使用) * 1.1 调用Fontproperties方法介绍 1.2 实例 – 1.2.1 实例一 2.1.2 实…

Python 2023年8月31日
0064
优化 | Pick and delivery problem的简介与建模实现（二）

优化 | Pick and delivery problem的介绍与建模实现（二） * – One-to-many-to-one (1-M-1) problems &#…

Python 2023年8月20日
0052
pandas中聚合函数agg的用法

SQL中求字段的最大值、中位数、计数等，经常会用到如下形式的查询语句： select colE, max(colA) as A1, min(colA) as A2, median(…

Python 2023年8月7日
0040
python接口测试框架哪个好_python 接口测试框架：unittest和pytest对比

一、用例编写规则 unittest提供了test cases、test suites、test fixtures、test runner相关的类,unittest编写用例规则: …

Python 2023年9月12日
0034
pytest框架编写

pytest分为四个步骤：编写测试用例 – 收集测试用例 – 执行测试用例 – 生成测试报告。编写测试用例：用例名称、用例步骤、预期结果、实…

Python 2023年9月13日
0057

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30