Skip to content

21 11 月, 2024

Speculative Decoding 時採用目標模型(Target Model)的信心閾值來決定是否啟用草稿推測

Last Updated on 2024-11-21 by Clay

目前我看的許多加速推理技巧,如 Speculative Decoding 等等方式,大多數都是採用把 draft model 信心分數設定一個閾值(threshold)來決定現在要解碼多少個 draft tokens、再交由 target model 進行驗證,以此來減少 draft model 在低信心程度的情況下額外多推測的時間開銷。

Read More »Speculative Decoding 時採用目標模型(Target Model)的信心閾值來決定是否啟用草稿推測