[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
最近依然還是在看加速推理的東西,奈何手邊一直在忙工作的事情沒來得及發出來呢;今天要介紹的加速推理架構是稱為 Medusa 的經典多頭解碼模型。
Read More »[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads