30 10 月, 2024

KV Cache: 一種加速 Transformer 模型生成速度的暫存機制

Last Updated on 2024-10-30 by Clay

在大型語言模型的解碼過程中，尤其是自迴歸模型（Auto-regressive model），勢必得一次次地解碼直到生成整個序列為止，在這之中存在著一些 cache 的技巧，能夠幫助模型減少計算量、提昇解碼速度；而這個技巧就被稱為 KV Cache。