Skip to content

30 10 月, 2024

KV Cache: 一種加速 Transformer 模型生成速度的暫存機制

Last Updated on 2024-10-30 by Clay

在大型語言模型的解碼過程中,尤其是自迴歸模型Auto-regressive model),勢必得一次次地解碼直到生成整個序列為止,在這之中存在著一些 cache 的技巧,能夠幫助模型減少計算量、提昇解碼速度;而這個技巧就被稱為 KV Cache。

Read More »KV Cache: 一種加速 Transformer 模型生成速度的暫存機制