13 11 月, 2024

透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略

Clay
2024-11-132024-11-13
AI, Machine Learning

Last Updated on 2024-11-13 by Clay

在自推測性解碼（Self-Speculative Decoding）中，由於我們的 draft model 是由 target model 的部份網路擔任，所以找到一個好的『跳層策略』（Layer Skip Strategy）是非常重要的事情 —— 我們不僅要跳得夠多層讓加速真正意義上實現、也需要讓 draft model 的推測解碼程度足夠好且不容易被 target model 驗證時拒絕。

所以今天的實作，就是靠貝氏優化框架 Optuna 來優化我之前的實現的 LayerSkip 模型，決定到底要跳哪幾層。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30