Skip to content

3 6 月, 2024

[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

前言

這是華為諾亞方舟實驗室所提出加速框架,本質上是把原先投機解碼(speculative decoding)中所使用的小模型由大模型的淺層網路取代,並再由額外訓練的適配器(adapter)加上模型本身的解碼頭去生成推測的 token,再由大模型去進行驗證 —— 後續的操作與原先的 speculative decoding 其實沒有太大差別。

Read More »[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting