[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
Last Updated on 2025-04-16 by Clay
目前 LLM 的推理時,大部分的時間都卡在需要『逐一生成 Token』的這一環節,這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token,就必須要讀取整個模型的權重,而實際的浮點數運算量相對較小,導致 GPU 的計算能力未能充分發揮。
Read More »[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding