TensorRT&Triton学习笔记(一):triton和模型部署+client

前言

先介绍TensorRT、Triton的关系和区别:

TensorRT:为inference(推理)为生,是NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。

主要优化手段如下:

TensorRT&Triton学习笔记(一):triton和模型部署+client

Triton:类似于TensorFlow Serving,但triton包括server和client。

triton serving能够实现不同模型的统一部署和服务,提供http和grpc协议,给triton client请求模型推理。

Original: https://blog.csdn.net/sgyuanshi/article/details/123536579
Author: 我就算饿死也不做程序员
Title: TensorRT&Triton学习笔记(一):triton和模型部署+client

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/628329/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球