3 11 月, 2024

[論文閱讀] Fast Inference from Transformers via Speculative Decoding

Last Updated on 2024-11-07 by Clay

在自迴歸模型（Auto-regressive Model）解碼時，如果需要解碼 K 個詞元（Tokens），則需要跑 K 次流程，而這正是當前大型語言模型的推理時間瓶頸所在。