Skip to content

5 11 月, 2024

推測性解碼(Speculative Decoding)實作筆記

Last Updated on 2024-11-05 by Clay

介紹

推測性解碼(Speculative Decoding)是一種實用性極強的加速推理技巧,通過讓小模型(draft model)快速、連續地解碼多個 Tokens 並保留過程中的採樣機率分佈,並讓我們真正希望加速的大模型(target model)在此之上預測下一個 Token —— 同時把過往的每個 Token 位置的採樣機率分佈一次性地計算得出,再透過 target model probs 去驗證 draft model probs 的有效性,並接受足夠可靠的 draft model 的推測解碼 Tokens。

Read More »推測性解碼(Speculative Decoding)實作筆記
Exit mobile version