推測性解碼(Speculative Decoding)實作筆記(附簡易實驗結果)
Last Updated on 2024-11-06 by Clay
介紹
推測性解碼(Speculative Decoding)是一種實用性極強的加速推理技巧,通過讓小模型(draft model)快速、連續地解碼多個 Tokens 並保留過程中的採樣機率分佈,並讓我們真正希望加速的大模型(target model)在此之上預測下一個 Token —— 同時把過往的每個 Token 位置的採樣機率分佈一次性地計算得出,再透過 target model probs 去驗證 draft model probs 的有效性,並接受足夠可靠的 draft model 的推測解碼 Tokens。
Read More »推測性解碼(Speculative Decoding)實作筆記(附簡易實驗結果)