[論文閱讀] Fast Inference from Transformers via Speculative Decoding
Last Updated on 2024-11-03 by Clay
Abstract - 摘要
在自迴歸模型(Auto-regressive Model)解碼時,如果需要解碼 K 個詞元(Tokens),則需要跑 K 次流程,而這正是當前大型語言模型的推理時間瓶頸所在。
Read More »[論文閱讀] Fast Inference from Transformers via Speculative Decoding