[NLP]keras模型部署加速（ONNX Speed Keras_Model Inference）

2023年5月23日下午7:01 • 人工智能 • 阅读 94

使用如下方法，可将Keras_model写成pb文件

tf2onnx 将pbfile转成onnx

背景：

用keras 训练 NER 模型，模型架构为：Roberta_CRF。

整个模型保存下来，1.2G 左右。

欲部署在cpu环境下，需要对模型进行压缩和加速。没有找到bert的蒸馏后的中文预训练模型。

整体方案是：keras_weights -> tf_pb_model(freeze graph) -> tf2onnx

ps:直接使用keras2onnx，因为transformer_op名称的问题，报错，并找不到解决方案。探索再三，使用上述方案。

环境：

tensorflow==1.12.0
python==3.6
keras==2.2.4
h5py==2.10.0
onnx==1.11.0
tf2onnx==1.10.0
onnxruntime==1.10.0

keras2onnx 报错为：

keras2onnx.convert_keras Transformer-11-FeedForward-Add_1/All:0 already processed

*使用如下方法，可将Keras_model写成pb文件

def freeze_session(session, keep_var_names=None, output_names=None, clear_devices=True):
"""
    Freezes the state of a session into a pruned computation graph.

"""
    from tensorflow.python.framework.graph_util import convert_variables_to_constants
    graph = session.graph
    with graph.as_default():
        freeze_var_names = list(set(v.op.name for v in tf.global_variables()).difference(keep_var_names or []))
        output_names = output_names or []
        output_names += [v.op.name for v in tf.global_variables()]
        input_graph_def = graph.as_graph_def()
        if clear_devices:
            for node in input_graph_def.node:
                node.device = ""
        #frozen_graph = tf.graph_util.convert_variables_to_constants(
        #    session, input_graph_def, output_names, freeze_var_names)
        frozen_graph = convert_variables_to_constants(session, input_graph_def, output_names, freeze_var_names)
        return frozen_graph

from keras import backend as K
import tensorflow as tf

'''
1、构造出graph
    from keras.models import Model
    model = Model(model.input, output)

2、加载权重(使用model.save_weights() 保存的训练好的模型权重)
    model.load_weights(self.saved_model_weights_dir)

3、写成pb file

'''

frozen_graph = freeze_session(K.get_session(),output_names=[out.op.name for out in model.outputs])
tf.train.write_graph(frozen_graph,'folder_to_save','saved_model.pb', as_text=False)

可以测试pb文件能够正常推理

import tensorflow as tf
from tensorflow.python.platform import gfile

with tf.Session() as sess:
    with gfile.FastGFile("pb_file_dir", 'rb') as f:
        graph_def = tf.GraphDef()
        # Parses a serialized binary message into the current message.

        graph_def.ParseFromString(f.read())
        sess.graph.as_default()
        # Import a serialized TensorFlow GraphDef protocol buffer
        # and place into the current default Graph.

        gin = tf.import_graph_def(graph_def)

        tensor_input_1 = sess.graph.get_tensor_by_name("import/Input-Token:0")
        tensor_input_2 = sess.graph.get_tensor_by_name("import/Input-Segment:0")
        tensor_output = sess.graph.get_tensor_by_name("import/conditional_random_field_1/add:0")
        model_predict = sess.run(tensor_output,{tensor_input_1:token_ids, tensor_input_2:segment_ids})

如果你不知道你的输入和输出op的名称,推荐如下方法，注意get_tensor_by_name 中，名称后加上”:0″。

gg = sess.graph.get_operations()
gg[:2]
[,
]
gg[-5:]
...

*tf2onnx 将pbfile转成onnx

安装tf2onnx

$ git clone https://github.com/onnx/tensorflow-onnx.git
$ cd tensorflow-onnx
$ python setup.py install

转onnx文件：

python -m tf2onnx.convert --graphdef  dir_to_pb_file/saved_model.pb --opset 13 --output ner_model.onnx --output model.onnx --inputs Input-Token:0,Input-Segment:0 --outputs conditional_random_field_1/add:0

要使用–graphdef方式，要指明输入输出，要注意，这里的输入输出的名称前面的”import/” 就不需要了，否则报错graph中找不到这些层。

可以测试当前的onnx 文件是可以正常推理的：

import onnxruntime
session = onnxruntime.InferenceSession("ner_model.onnx")
session.get_modelmeta()
first_input_name = session.get_inputs()[0].name
second_input_name = session.get_inputs()[1].name
output_name = session.get_outputs()[0].name
results = session.run([output_name],
                      {
                      first_input_name:token_ids.astype(np.float32),
                    second_input_name:segment_ids.astype(np.float32)})

注意这个output_name 要用'[]’ 包起来。输入的numpy转成np.float32。

模型转onnx模型后，总体400M，推理的时候不需要指定bert_pretrain_model,速度也有相应提升。onnx跨平台友好，部署环境里可以少装几个包（如tensorflow）。

如果有用，请留言并让我知道！如果有更好的建议或技术上的不足，请更正！谢谢!

[En]

If it’s useful, please leave a message and let me know! If there are any better suggestions or technical deficiencies, please correct them! Thank you!

Original: https://blog.csdn.net/b285795298/article/details/124296547
Author: 半九拾
Title: [NLP]keras模型部署加速（ONNX Speed Keras_Model Inference）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/497508/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

KNN算法实现鸢尾花数据集分类 C语言实现(附数据集)

目录 KNN算法介绍欧几里得距离介绍 * 定义公式实现思路 * 数据集实现步骤源码(C语言) 运行结果源码下载结尾参考资料 KNN算法介绍 KNN的全称是K Nea…

人工智能 2023年7月1日
0087
MobileNet-SSD利用caffe-int8-convert-tools工具量化经验

下载caffe-int8-convert-tools工具：caffe-int8-convert-tools准备test文件夹：test/images为验证机图片test/model…

人工智能 2023年7月10日
0059
树莓派4+TensorFlow+OpenCV+英特尔加速棒环境搭建

文章目录一、树莓派系统烧录二、更换源 * 2.1、设置root登录密码 2.2、更换apt 源 – 2.2.1、先备份源文件 2.2.2、编辑系统源文件 2.2.3…

人工智能 2023年5月26日
0096
【Pytorch神经网络基础理论篇】 08 Softmax 回归 + 损失函数 + 图片分类数据集

同学你好！本文章于2021年末编写，已与实际存在较大的偏差！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023…

人工智能 2023年6月18日
0079
OpenCV人脸识别，训练模型为cv2.face.LBPHFaceRecognizer_create()

OpenCV内部自带有三种人脸检测方式：LBPH人脸识和其他两种方法（Eigen人脸识别，FisherFace人脸识别）本次主要说明第一种方式LBPH检测。 1.素材创建图（1….

人工智能 2023年7月5日
00106
《码出高效：Java 开发手册》技术笔记

前言《java开发手册》这本书是一本由阿里巴巴公司的开发工程师们编写的技术书籍，相比于其他编程书籍，本书更为贴近一些共通的知识而非实际的代码，对开发工程师的综合素质有显著的提升，…

人工智能 2023年6月30日
0070
相似向量检索库-Faiss-简介及原理

前言由于项目需要，需要对某些种子用户进行look-alike，找到相似用户，所以近期对相似向量检索库Faiss进行一定的了解，接下来，结合相关资料，把我对这个库的了解记录在这里，…

人工智能 2023年6月15日
00223
知识图谱概述（金融场景图谱）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0061
ResNet18、50模型结构

论文地址： https://arxiv.org/pdf/1512.03385.pdf pytorch官方预训练模型地址： ‘resnet18’: ‘https://downloa…

人工智能 2023年5月26日
0075
Opencv c++（图像处理）

目录一、图像读取与显示二、图像预处理高斯模糊的原理与算法 Canny边缘检测三、图像裁剪四、绘制形状和添加文本五、透视变换六、颜色检测七、形状检测和轮廓检测八、人…

人工智能 2023年5月26日
0072
windows下CUDA的卸载以及安装

一、缘由对于CUDA新手来说，安装问题里面有很多需要注意的细节，很多自定义的选项，如果漏选就会出现一些莫名奇妙的问题。为此，会经常出现卸载CUDA，再安装CUDA的问题，下面总结…

人工智能 2023年6月16日
0067
FCN网络解析

1 FCN网络介绍 FCN（Fully Convolutional Networks，全卷积网络）用于图像语义分割，它是首个端对端的针对像素级预测的全卷积网络，自从该网络提出后，…

人工智能 2023年7月5日
0062
【深度学习前沿应用】图像风格迁移

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0086
200 aaaaaaaa ggggggjjjtrr

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0062
数据分析常用名词解释

聚合(Aggregation)：搜索、合并、显示数据的过程。算法(Algorithms)：可以完成某种数据分析的数学公式。分析法(Analytics)：用于发现数据的内在涵义。…

人工智能 2023年7月16日
0082
PaddleSpeech 音频和视频惊艳众人的准确率

1、关于视频抽取固定采样率音频：ffmpeg -i test2.mp4 -f wav -ar 16000 test3.wav -i .[迅雷下载xunbo.cc]爱情公寓第二季EP…

人工智能 2023年5月27日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[NLP]keras模型部署加速（ONNX Speed Keras_Model Inference）

大家都在看