大模型部署处置方案之TorchServe vLLM

koi

2024-11-14 23:37:33发布
关注私信

518 214 684

TorchServe 是PyTorch 中将模型部署到消费环境的一个处置方案。它用HTTP 或HTTPS API 封装模型，可以处置多种义务，包含为部署模型调配workers、担任客户端和主机之间通讯等。

10月份颁布的TorchServe 0.12 参与了对GenAI的允许，简化了大言语模型的部署，参与了对干流模型引擎的内置允许，如 vLLM 和 TRT-LLM。

vLLM 引擎是目前口头LLM的最佳形式之一，TorchServe为vLLM部署到消费环境中提供了必要的一些配置，比如自定义metric、模型版本控制等。并且TorchServe能够经过灵敏的自定义处置程序设计，集成RAG等配置或许Llama Guard（Meta颁布的大模型，集成了多种安保检测技术，能够在模型处置输入之前，对潜在的危险启动预判和阻拦，从而包全模型免受恶意输入的损害。）等包全措施。所以集成了vLLM的TorchServe可以创立用于消费环境的LLM服务。

TorchServe还引入了一种异步形式，用以提高配件应用率。它将传入的恳求间接转发到后端，供vLLM经常使用，而不是之前的同步形式，须要期待预约义的期间或许有足够的恳求时才传到后端。这样vLLM可以自主选择何时处置哪些恳求，有助于优化资源调配，成功高效的负载治理。并且在流式形式下，一旦生成首个token，结果可以立刻前往并继续输入，缩小用户的期待期间。

目前TorchServe成功了单节点多GPU的散布式推理，未来方案成功多节点推理，并提供预构建的Docker image以简化部署环节。

参考链接：

原文链接：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#紫东太初 #多模态 #日日新 #通义千问 #4 #AI #OpenAI #Bard #ChatGPT #LaMDA #Agent #AIGC运行 #GPT #开源大模型 #人工自动 #言犀 #Sora #孟子 #文心一言 #Copilot #大模型 #AIGC #悟道 #云雀 #混元 #盘古 #清言