Skip to content

14 11 月, 2024

[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

Last Updated on 2024-11-14 by Clay

本篇論文重點

  • 量化、剪枝、蒸餾同樣可以加速,但得面對與原始模型不同的輸出分佈、重新訓練的開銷等等問題
  • 原先的 Speculative Decoding 面對的問題則為我們需要使用額外的記憶體空間去驅動 draft model(草稿模型),而 Self-Speculative Decoding 僅使用了自身部份神經網路作為 draft model
  • 自適應草稿脫離機制(Adaptive Draft-Exiting Mechanism)可以基於自動調整信心分數閾值來自動調整草稿模型的推測 tokens 數量
Read More »[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding