tfrecord原理详解手把手教生成tfrecord文件与解析tfrecord文件

2023年5月23日下午4:24 • 人工智能 • 阅读 99

1.什么是tfrecord

TFRecord 是Google官方推荐的一种数据格式，是Google专门为TensorFlow设计的一种数据格式。

TFRecord本质上是二进制文件，目的是更好的利用内存。用户可以将训练集/测试集打包成生成TFRecord文件，后续就可以配合TF中相关的API实现数据的加载，处理，训练等一系列工作，可以方便高效的训练与评估模型。

2.tfrecord原理

TFRecord 并非是TensorFlow唯一支持的数据格式，你也可以使用CSV或文本等格式，但是对于TensorFlow来说，TFRecord 是最友好也是最方便的。
tf.Example是TFRecord的基本结果，其实他就是一个Protobuffer定义的message，表示一组string到bytes value的映射。TFRecord文件里面存储的就是序列化的tf.Example。在github上tensorflow的源码就能看到其定义
message Example

message Example {
  Features features = 1;
};

里面只有一个变量features。如果我们继续查看Features

message Features {
  // Map from feature name to feature.

  map<string, feature> feature = 1;
};
</string,>

features里面就是一组string到Feature的映射。其中这个string表示feature name，后面的Feature又是一个message

继续查看Feature的定义

message Feature {
  // Each feature can be exactly one kind.

  oneof kind {
    BytesList bytes_list = 1;
    FloatList float_list = 2;
    Int64List int64_list = 3;
  }
};

到这里，我们就可以看到tfrecord里存储的真正数据类型有三种
bytes_list: 可以存储string 和byte两种数据类型。
float_list: 可以存储float(float32)与double(float64) 两种数据类型。
int64_list: 可以存储：bool, enum, int32, uint32, int64, uint64 。

3.实操生成tfrecords文件

下面来手把手教大家如何生成tfrecords文件，并解析tfrecords文件。
我们以titanic数据为例

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,347742,11.1333,,S

上面是titanic部分数据，第一行为各列字段名，后面几行为具体数据。如果想看完整的titanic数据，大家可以自行网上搜索并下载。

首先定义几个辅助方法

import tensorflow as tf
import csv

Generate Integer Features.

def build_int64_feature(data):
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[data]))

Generate Float Features.

def build_float_feature(data):
    return tf.train.Feature(float_list=tf.train.FloatList(value=[data]))

Generate String Features.

def build_string_feature(data):
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[str(data).encode()]))

然后再定义生成Example的方法

Generate a TF Example, parsing all features of the dataset.

def convert_to_tfexample(survived, pclass, name, sex, age, sibsp, parch, ticket, fare):
    return tf.train.Example(
        features=tf.train.Features(
            feature={
                'survived': build_int64_feature(survived),
                'pclass': build_int64_feature(pclass),
                'name': build_string_feature(name),
                'sex': build_string_feature(sex),
                'age': build_string_feature(age),
                'sibsp': build_int64_feature(sibsp),
                'parch': build_int64_feature(parch),
                'ticket': build_string_feature(ticket),
                'fare': build_float_feature(fare),
            })
    )

再将其写入文件

def write_tf_records():
    writer = tf.io.TFRecordWriter('output.tfrecords')
    with open('titanic.csv') as f:
        reader = csv.reader(f, skipinitialspace=True)
        for i, record in enumerate(reader):
            if i == 0:
                continue
            survived, pclass, name, sex, age, sibsp, parch, ticket, fare = record[1:10]
            print("age, fare is: ", age, fare)
            example = convert_to_tfexample(int(survived), int(pclass), name, sex, age, int(sibsp), int(parch), ticket, float(fare))

            writer.write(example.SerializeToString())

这样，就生成了名为output.tfrecords的文件。

4.解析tfrecords文件

接下来，我们解析上面生成的文件。

[En]

Next, we parse the file generated above.

首先定义features字典：

features = {
        'survived': tf.io.FixedLenFeature([], tf.int64),
        'pclass': tf.io.FixedLenFeature([], tf.int64),
        'name': tf.io.FixedLenFeature([], tf.string),
        'sex': tf.io.FixedLenFeature([], tf.string),
        'age': tf.io.FixedLenFeature([], tf.string),
        'sibsp': tf.io.FixedLenFeature([], tf.int64),
        'parch': tf.io.FixedLenFeature([], tf.int64),
        'ticket': tf.io.FixedLenFeature([], tf.string),
        'fare': tf.io.FixedLenFeature([], tf.float32)
}

然后使用parse_single_example方法，解析单条数据

Parse features, using the above template.

def parse_record(record):
    return tf.io.parse_single_example(record, features=features)

主方法：

def read_tf_records():
    filenames = ["output.tfrecords"]
    data = tf.data.TFRecordDataset(filenames)
    data = data.map(parse_record)
    data = data.repeat()
    # Shuffle data.

    data = data.shuffle(buffer_size=1000)
    # Batch data (aggregate records together).

    data = data.batch(batch_size=4)
    # Prefetch batch (pre-load batch for faster consumption).

    data = data.prefetch(buffer_size=1)

    # Dequeue data and display.

    for record in data.take(1):
        print("record is: ", record)
        print("record[survived is: ", record['survived'])
        print(type(record['survived']))
        print()
        print(record['survived'].numpy())
        print(record['name'].numpy())
        print(record['fare'].numpy())

主方法的输出为：

record is:  {'age': <tf.tensor: shape="(4,)," dtype="string," numpy="array([b''," b'9', b'20', b'32'],>, 'fare': <tf.tensor: shape="(4,)," dtype="float32," numpy="array([16.1" , 27.9 15.7417, 7.925 ],>, 'name': <tf.tensor: shape="(4,)," dtype="string," numpy="array([b'Davison," mrs. thomas henry (mary e finck)', b'skoog, miss. mabel', b'nakid, mr. sahid', b'jussila, eiriik'],>, 'parch': <tf.tensor: shape="(4,)," dtype="int64," numpy="array([0," 2, 1, 0])>, 'pclass': <tf.tensor: shape="(4,)," dtype="int64," numpy="array([3," 3, 3])>, 'sex': <tf.tensor: shape="(4,)," dtype="string," numpy="array([b'female'," b'female', b'male', b'male'],>, 'sibsp': <tf.tensor: shape="(4,)," dtype="int64," numpy="array([1," 3, 1, 0])>, 'survived': <tf.tensor: shape="(4,)," dtype="int64," numpy="array([1," 0, 1, 1])>, 'ticket': <tf.tensor: shape="(4,)," dtype="string," numpy="array([b'386525'," b'347088', b'2653', b'ston o 2. 3101286'],>}
record[survived is:  tf.Tensor([1 0 1 1], shape=(4,), dtype=int64)
<class 'tensorflow.python.framework.ops.eagertensor'>

[1 0 1 1]
[b'Davison, Mrs. Thomas Henry (Mary E Finck)' b'Skoog, Miss. Mabel'
 b'Nakid, Mr. Sahid' b'Jussila, Mr. Eiriik']
[16.1    27.9    15.7417  7.925 ]
</class></tf.tensor:></tf.tensor:></tf.tensor:></tf.tensor:></tf.tensor:></tf.tensor:></tf.tensor:></tf.tensor:></tf.tensor:>

使用上面的方法，解析出原始数据！

[En]

Using the above method, parse out the original data!

Original: https://blog.csdn.net/bitcarmanlee/article/details/123569419
Author: bitcarmanlee
Title: tfrecord原理详解手把手教生成tfrecord文件与解析tfrecord文件

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496406/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习之手写决策树以及sklearn中的决策树及其可视化

文章目录决策树理论部分 * 基本算法划分选择 – 信息熵信息增益信息增益率基尼系数基尼指数决策树代码实现参考决策树理论部分决策树的思路很简单，就是从…

人工智能 2023年6月15日
0079
【算法竞赛学习】资金流入流出预测-挑战Baseline_数据探索与分析1

赛题简介蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出，面对如此庞大的用户群，资金管理压力会非常大。在既保证资金流动性风险最小，又满足日常业务运转的情况下，精准…

人工智能 2023年7月8日
0096
超简单的pytorch（GPU版）安装教程（亲测有效）

之前安装pytorch框架，直接在pytorch官网复制命令下载。顺利安装之后，结果发现竟然是CPU版本，导致运行视频流十分卡顿，浪费了GPU。于是果断卸载 pip uninst…

人工智能 2023年7月23日
0061
点云深度学习——点云配准网络DCP复现

点云配准网络DCP复现前言一、效果展示 * 1.1 open3d中效果展示二、复现源码 * 2.1 参考链接 2.2 复现流程 2.3遇到问题：三、模型测试单个数据，并用o…

人工智能 2023年7月28日
0094
基于Python实现的手写数字识别系统

资源下载地址：https://download.csdn.net/download/sheziqiong/85722434资源下载地址：https://download.csdn….

人工智能 2023年6月16日
0096
简介ResNet18并用其对CIFAR-10数据集进行分类

ResNet，是2015年何恺明大佬发表在CVPR上的一篇文章，运用了残差连接这个概念。该论文一出，直接引爆了整个cv界。并且在2016年ImageNet上ResNet获得第一名。…

人工智能 2023年7月2日
0088
数学建模——熵权法步骤及程序详解

数学建模——熵权法步骤及程序详解权重的求解一直都是数学建模的重点关注对象，所以学好建模论文的重要一步就是如何确定权重，今天是来介绍一种客观确定几个指标各自所占的权重的方法——熵权…

人工智能 2023年6月13日
0072
数据分析思维（《数据分析思维：分析方法和业务知识》）

（1）理解数据。（2）分析数据。而分析数据需要设定相关指标来分析数据。提示：有些数据从不同角度看，可以属于不同的分类。例如，收藏量，从收藏行为来说，可以属于行为数据，而从产品…

人工智能 2023年7月17日
0074
DTFT和DFT有何区别？一文为你讲解清楚

很多人在开始学习数字信号处理的时候，对于各种傅里叶变换特别是离散傅里叶变化的概念及作用完全不清楚，IC修真院在网上整理了关于DTFT、DFT的各知识点。下面就来了解一下关于DTFT…

人工智能 2023年7月26日
0058
数据分析之实例一：餐厅订单数据分析

实例一：餐厅订单数据分析 #先进行设置 import pandas a…

人工智能 2023年7月16日
0056
曾经，我对着AI客服喷了两分钟，它只回复了我的第一句话

梦晨发自凹非寺量子位 | 公众号 QbitAI 不知不觉间，接打快递、银行等电话时，遇到AI的情况越来越多了。目前和这些AI沟通，还得讲究一个技巧：要保持你我句子的标准节…

人工智能 2023年5月25日
00125
模型部署入门教程（五）：ONNX 模型的修改与调试

模型部署入门系列教程持续更新啦，在前两期教程中，我们学习了 PyTorch 模型转 ONNX 模型的方法，了解了如何在原生算子表达能力不足时，为 PyTorch 或 ONNX 自定…

人工智能 2023年6月16日
0085
pyechart数据可视化丨制作桑基图(sankey)的最简单方法

前言最近在分析超期库存数据, 每天4万条左右, 数据的特点是有很多分类变量, 为了展现这些变量的关系, 想到了桑吉图。 Pyechart官网上有关于桑基图的案例, 但是如何用日常…

人工智能 2023年7月7日
00116
neo4j实战详解

前言上一章讲到了Neo4j下载安装过程以及Neo4j浏览器的简单用法，这里通过实战详细说一下Neo4j图数据库具体用法，主要分为增删改查四项。 1、增加先来个实战，了解一下 N…

人工智能 2023年6月1日
0075
OpenVINO: export failure: libpython3.9.so.1.0: cannot open shared object file: No such file or direc

下面这个问题十分奇怪，我使用几乎同样的配置，Ubuntu18.04平台，无论是使用python3.8还是3.9，也无论是使用base环境还是自己创建的环境，使用openvino-d…

人工智能 2023年7月28日
0061
Python 计算机视觉（十五）—— 图像特效处理

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年5月26日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tfrecord原理详解 手把手教生成tfrecord文件与解析tfrecord文件

1.什么是tfrecord

2.tfrecord原理

3.实操生成tfrecords文件

4.解析tfrecords文件

大家都在看

tfrecord原理详解手把手教生成tfrecord文件与解析tfrecord文件