3 6 月, 2024

[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Clay
2024-06-032024-11-26
Machine Learning, Python

Last Updated on 2024-11-26 by Clay

前言

這是華為諾亞方舟實驗室所提出加速框架，本質上是把原先投機解碼（speculative decoding）中所使用的小模型由大模型的淺層網路取代，並再由額外訓練的適配器（adapter）加上模型本身的解碼頭去生成推測的 token，再由大模型去進行驗證，並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30