使用 vLLM 作為動態批次(Dynamic Batching)加速推理的 API 服務
Last Updated on 2024-01-11 by Clay
介紹
我之前曾寫了一篇介紹 vLLM 加速推理框架的筆記(使用 vLLM 進行大型語言模型(LLM)的高速推理),然而因受篇幅與時間限制,沒來得及探討更細緻的功能。
Read More »使用 vLLM 作為動態批次(Dynamic Batching)加速推理的 API 服務Last Updated on 2024-01-11 by Clay
我之前曾寫了一篇介紹 vLLM 加速推理框架的筆記(使用 vLLM 進行大型語言模型(LLM)的高速推理),然而因受篇幅與時間限制,沒來得及探討更細緻的功能。
Read More »使用 vLLM 作為動態批次(Dynamic Batching)加速推理的 API 服務