21 11 月, 2024

Speculative Decoding 時採用目標模型（Target Model）的信心閾值來決定是否啟用草稿推測

Clay
2024-11-212024-11-22
AI, Machine Learning, PyTorch

Last Updated on 2024-11-22 by Clay

目前我看的許多加速推理技巧，如 Speculative Decoding 等等方式，大多數都是採用把 draft model 信心分數設定一個閾值（threshold）來決定現在要解碼多少個 draft tokens、再交由 target model 進行驗證，以此來減少 draft model 在低信心程度的情況下額外多推測的時間開銷。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30