10 12 月, 2023

使用 vLLM 進行大型語言模型（LLM）的高速推理

Last Updated on 2023-12-14 by Clay

vLLM 是加州柏克萊分校所開發的一種大型語言模型（Large Language Model, LLM）加速推理框架。它主要是利用 PagedAttention 機制提高了 GPU VRAM 的使用率，並且這一方法無須更改模型的架構。