[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting
Last Updated on 2024-11-26 by Clay
前言
這是華為諾亞方舟實驗室所提出加速框架,本質上是把原先投機解碼(speculative decoding)中所使用的小模型由大模型的淺層網路取代,並再由額外訓練的適配器(adapter)加上模型本身的解碼頭去生成推測的 token,再由大模型去進行驗證,並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。
Read More »[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting