KV Cache: 一種加速 Transformer 模型生成速度的暫存機制
Last Updated on 2024-10-30 by Clay
在大型語言模型的解碼過程中,尤其是自迴歸模型(Auto-regressive model),勢必得一次次地解碼直到生成整個序列為止,在這之中存在著一些 cache 的技巧,能夠幫助模型減少計算量、提昇解碼速度;而這個技巧就被稱為 KV Cache。
Read More »KV Cache: 一種加速 Transformer 模型生成速度的暫存機制Last Updated on 2024-10-30 by Clay
在大型語言模型的解碼過程中,尤其是自迴歸模型(Auto-regressive model),勢必得一次次地解碼直到生成整個序列為止,在這之中存在著一些 cache 的技巧,能夠幫助模型減少計算量、提昇解碼速度;而這個技巧就被稱為 KV Cache。
Read More »KV Cache: 一種加速 Transformer 模型生成速度的暫存機制