sagemaker在终端节点部署Tensorflow模型并调用

2023年5月25日下午1:26 • 人工智能 • 阅读 91

sagemaker 是aws的托管机器学习的服务，具体的请看

什么是 Amazon SageMaker？ – Amazon SageMaker Amazon SageMaker 是一项完全托管的机器学习服务。借助 SageMaker，数据科学家和开发人员可以快速、轻松地构建和训练机器学习模型，然后直接将模型部署到生产就绪托管环境中。它提供了一个集成的 Jupyter 编写 Notebook 实例，供您轻松访问数据源以便进行探索和分析，因此您无需管理服务器。此外，它还可以提供常见的机器学习算法，这些算法经过了优化，可以在分布式环境中高效处理非常大的数据。借助对自带算法和框架的原生支持，SageMaker 可以提供灵活并且适合具体工作流程的分布式训练选项。通过在 SageMaker Studio 或 SageMaker 控制台中单击几下鼠标按钮以启动模型，即可将模型部署到安全且可扩展的环境中。训练和托管按使用分钟数计费，没有最低费用，也不需要前期承诺。 sagemaker在终端节点部署Tensorflow模型并调用 https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/whatis.html ;

在本地使用tf2.0以上的版本编写一个CNN模型，我测试的是编写是猫狗识别模型。

最后fit完成后，保存模型。其中1 是版本号，主要用于多模型部署，export这个名字可以随便改，但是/Servo 好像是sagemaker规定好的，反正我没这个路径就部署不成功。你们可以试试。

model.save('export/Servo/1/')

保存模型后，目录结构如下所示。

[En]

After saving the model, the directory structure looks like this.

然后将该目录压缩成.tar.gz格式，这个格式是sagemaker规定格式。

import tarfile
model_archive = 'model.tar.gz'
with tarfile.open(model_archive, mode='w:gz') as archive:
    archive.add('export', recursive=True)

本地会有一个

然后将该压缩文件上传到s3上。

from sagemaker import get_execution_role
from sagemaker import Session
role = get_execution_role()
sess = Session()
model_data = sess.upload_data(path=model_archive, key_prefix='model_dc_new')

下面开始部署：

在sagemaker-笔记本实例中创建一个新的笔记本实例，创建完成后，打开jupyter

这里要强调下role-用户权限，你在创建笔记本实例时，选择IAM角色时，一定要确定该用户具备sagemaker的读写部署等权限。

然后创建一个笔记本实例，我这边选择是conda-tensorflow2_p36

创建一个新的jupyter，导入必要的包,这样打印下tf，keras和sagemaker的版本，因为我的模型是用tf和kears编写，保证这两个包的版本一致，我用的2.6，sagemaker一定要2.0以上。

from sagemaker import get_execution_role
from sagemaker import Session
import tensorflow as tf
import keras,sagemaker
from sagemaker.tensorflow.model import TensorFlowModel ###2.0以上版本
role = get_execution_role()
sess = Session()
tf_framework_version = tf.__version__
print(tf.__version__)
print(keras.__version__)
print(sagemaker.__version__)

建立模型：这里需要注意的是framework_version，必须是整数，如果是2.3.4之类的部署的时候回报错，那个错误我忘记截图了，我这用的2.6，model_data是模型位置。

sm_model = TensorFlowModel(model_data='s3://sagemaker-ap-northeast-1-499396867125/local_model2/model.tar.gz',
framework_version='2.6.0',role=role)

部署模型：instance_type 是EC2的型号，按需设置。initial_instance_count 个数。

正常的大约在10-15分钟内就会完事。endpoint_name 可以指定节点名称，不写就会给你随机一个。

%%time
instance_type = 'ml.c5.xlarge'
uncompiled_predictor = sm_model.deploy(initial_instance_count=1,instance_type=instance_type)

TIP：deploy 中有序列化和反序列的配置serializer和deserializer可以按需配置。详细可以在api里查看

Use Version 2.x of the SageMaker Python SDK — sagemaker 2.77.0 documentation

完成后打印

uncompiled_predictor.endpoint_name 可以查看节点名称。

调用：

第一个是数据处理，如何在编写模型时处理模型，以及如何处理调用。例如，我在这里做的是：

[En]

The first is data processing, how to handle the model when it is written and how to handle the call. For example, here is what I do here:

test_path ="test.jpg"
image = cv2.imread(test_path)
image = cv2.resize(image,(image_size,image_size),0,0,cv2.INTER_LINEAR)
image = image.astype(np.float32)
image_array = np.multiply(image,1./255.)
x_batch = image_array.reshape(1,image_size,image_size,3)
x_batch.shape
(1, 64, 64, 3)

首先部署完成后，uncompiled_predictor可以直接传参narray，返回结果。

res=uncompiled_predictor.predict(x_batch)
print(res)

##结果：{'predictions': [[0.94271487, 0.0572850853]]}

然后打开终端节点：

您可以看到刚刚部署的终端节点

[En]

You can see the terminal node just deployed

我们可以直接调用终端节点，这调用终端节点传参就比较奇怪了因为不能直接传入narray

传入会报错：”{“error”: “Unsupported Media Type: application/x-npy”}”，我目前也不知道咋解决，可能是序列化的问题，有知道的望告知，多谢。

所以我这只能已json的形式传入，也可以。

至于返回结果的json格式，可以修改成自定义的，你也可以改成不是json的。

结果不一样是因为我换了张图片，换成猫的了。

runtime = boto3.Session().client(service_name="runtime.sagemaker")
image = Image.open(test_path)
image = image.resize([image_size, image_size])
image = np.multiply(image,1./255.)
x_train = image.reshape(1,image_size,image_size,3)
input1 = {'instances': x_train.tolist()}
response = runtime.invoke_endpoint(EndpointName=uncompiled_predictor.endpoint_name,
                               ContentType='application/json', Body=json.dumps(input1))
result = response["Body"].read()
result = json.loads(result)
print(result)
###结果{'predictions': [[0.0799172819, 0.920082748]]}

至此sagemaker部署节点并调用基本是完事了，但是里面有很多问题，比如：

1.invoke_endpoint函数调用传参问题，虽然结果没错但是很别扭

2.序列化问题

3.好像是图片大小不能超过5M，这是我在一个国外博客看到的，不知道是不是真的。

4.还有 inference.py:

5.还有各种坑。

等以后在研究把。

给大家推荐一个网址，上面讲了一部分内容，挺好的，还有#799 Serving a Tensorflow model fails with ConnectionClosedError · Issue #831 · aws/sagemaker-python-sdk · GitHub

Original: https://blog.csdn.net/weixin_41907245/article/details/123092118
Author: yuxj记录学习
Title: sagemaker在终端节点部署Tensorflow模型并调用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514324/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习框架是否支持模型的部署到不同平台和设备，如手机、嵌入式设备等

问题介绍在深度学习中，模型的训练和部署常常是两个不同的过程。训练通常在大型的服务器上进行，而模型的部署则需要考虑到不同的平台和设备，例如手机、嵌入式设备等。本文将详细介绍深度学习…

人工智能 2024年1月1日
0027
OpenCV在visual studio 2022中的下载与配置

OpenCV在visual studio 2022中的下载与配置 opencv的下载环境变量的更改 visual studio 中的配置配置文件代码测试环节 opencv的下…

人工智能 2023年6月18日
0076
cv::StereoCalibrate 源码解析（一） —— CvLevMarq求解器

解析之后：对比了下opencv，matalb、kalibr的双目校正程序；opencv的优势在于畸变参数支持比较多，应用性比较好，对于单目而言结果比较准，劣势在于双目的R,T存在问…

人工智能 2023年7月19日
0032
汽车后市场询价客户数增长趋势拟合-logistics增长模型

1 背景说明正常情况下，一家公司一个业务线的客户数量的成长过程类似一个地区的人口增长一样，一般会经历这几个成长阶段，即沉默期、成长期、爆发期、稳定期，而整个过程的走势曲线符合&#…

人工智能 2023年7月18日
0038
pytorch 的 DataLoader中的shuffer与随机种子

好多博客都只说简单shuffer与随机种子，没有说清楚他们具体作用，这次我来具体说说。DataLoader用于加载数据到模型中在pytorch 中的数据加载到模型的操作顺序是这样的…

人工智能 2023年7月13日
0064
【Neural Network】【可视化】【工具】

文章目录 1. draw_convnet 2. NN-SVG 3. PlotNeuralNet 4. Tensorboard 5. Caffe 6.Matlab 7.Keras.j…

人工智能 2023年7月14日
0053
torch中的数据类型和相互转换

文章目录 * – + 1 torch.Tensor + 2 Data types + 3 Initializing and basic operations + * 1…

人工智能 2023年7月21日
00109
【集成学习】：Stacking原理以及Python代码实现

Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原…

人工智能 2023年7月27日
0058
pandas操作excel之groupby

import pandas as pd import random data = pd.read_excel(’30.xlsx’); test = data.groupby(‘条件…

人工智能 2023年7月8日
0062
【Opencv3学习笔记 1】OpenCV的安装配置部署详细步骤（window + vs2019）

什么是Opencv？ OpenCV（开源的计算机视觉处理工具）是一个基于Apache2.0许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows…

人工智能 2023年6月20日
0057
英语语音中的调核例子_聊聊英语连读（三）：语音异化，“我们不一样”

在开始之前，请回答以下问题：在下面的图片中，哪一个是真正的杰森·斯塔瑟姆？ [En] Before you start the text, please answer the fo…

人工智能 2023年5月27日
0056
机器学习/深度学习准备资料（待更新）

朴素贝叶斯 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is st…

人工智能 2023年6月2日
0076
Pytorch如何约束和限制权重/偏执的范围

方法一：首先编写模型结构：然后编写限制权重范围的类：最后实例化这个类，对权重进行限制：方法二：在模型train的时候，对参数的范围进行限制：将权重和偏执的范围限制到0-…

人工智能 2023年6月6日
0063
Python中dataframe.groupby()根据数据属性对数据分组

对下面代码理解错误的选项是？ import pandas as pd import numpy as np data = {‘Name’: [‘语文’, ‘数学’, ‘语文’], …

人工智能 2023年7月9日
0058
C++继承关系和复合关系

我们今天来讲一下类和类之间的关系,在类里面,分为了三种关系: 没有任何关系继承关系(派生) 复合关系(类似于封闭类) 继承：”是”关系。 – 基类 A…

人工智能 2023年6月28日
0079
Halcon–图像分类

文章目录前言一、思路二、实现三、源码总结前言基于Halcon做图像分类处理一、思路【1】明确有哪些类别，根据类别去寻找合适的图像作为样本的数据集【2】创建分类器…

人工智能 2023年7月2日
0051

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

sagemaker在终端节点部署Tensorflow模型并调用

大家都在看