Skip to content

13 11 月, 2024

透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略

Last Updated on 2024-11-13 by Clay

在自推測性解碼(Self-Speculative Decoding)中,由於我們的 draft model 是由 target model 的部份網路擔任,所以找到一個好的『跳層策略』(Layer Skip Strategy)是非常重要的事情 —— 我們不僅要跳得夠多層讓加速真正意義上實現、也需要讓 draft model 的推測解碼程度足夠好且不容易被 target model 驗證時拒絕。

所以今天的實作,就是靠貝氏優化框架 Optuna 來優化我之前的實現的 LayerSkip 模型,決定到底要跳哪幾層。

Read More »透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略
Exit mobile version