TorchServe 是PyTorch 中将模型部署到消费环境的一个处置方案。它用HTTP 或HTTPS API 封装模型,可以处置多种义务,包含为部署模型调配workers、担任客户端和主机之间通讯等。
10月份颁布的TorchServe 0.12 参与了对GenAI的允许,简化了大言语模型的部署,参与了对干流模型引擎的内置允许,如 vLLM 和 TRT-LLM。
vLLM 引擎是目前口头LLM的最佳形式之一,TorchServe为vLLM部署到消费环境中提供了必要的一些配置,比如自定义metric、模型版本控制等。并且TorchServe能够经过灵敏的自定义处置程序设计,集成RAG等配置或许Llama Guard(Meta颁布的大模型,集成了多种安保检测技术,能够在模型处置输入之前,对潜在的危险启动预判和阻拦,从而包全模型免受恶意输入的损害。)等包全措施。所以集成了vLLM的TorchServe可以创立用于消费环境的LLM服务。
TorchServe还引入了一种异步形式,用以提高配件应用率。它将传入的恳求间接转发到后端,供vLLM经常使用,而不是之前的同步形式,须要期待预约义的期间或许有足够的恳求时才传到后端。这样vLLM可以自主选择何时处置哪些恳求,有助于优化资源调配,成功高效的负载治理。并且在流式形式下,一旦生成首个token,结果可以立刻前往并继续输入,缩小用户的期待期间。
目前TorchServe成功了单节点多GPU的散布式推理,未来方案成功多节点推理,并提供预构建的Docker image以简化部署环节。
参考链接:
原文链接:
© 版权声明