PyTorch

整合 Speculative Decoding 和 KV Cache 之實作筆記

Clay
2024-12-172024-12-17
AI, Machine Learning, PyTorch

前言

Speculative Decoding 和 KV Cache 都是 Transformers 可以應用的加速技巧；前者是利用一個推理速度較快的 draft model 推測性地生成多個後續的解碼結果並讓希望加速的 target model 進行一次性驗證藉此節省自迴歸解碼的開銷，後者則是應用了 Transformer 因果注意力（Causal Attention）機制中過往 Token 不會看到未來的 Token 的特性，將過去部份 Token 的計算結果保存下來，節省了每次推理時的重複計算。

Clay
2024-11-212024-11-22
AI, Machine Learning, PyTorch

目前我看的許多加速推理技巧，如 Speculative Decoding 等等方式，大多數都是採用把 draft model 信心分數設定一個閾值（threshold）來決定現在要解碼多少個 draft tokens、再交由 target model 進行驗證，以此來減少 draft model 在低信心程度的情況下額外多推測的時間開銷。

Clay
2024-11-172024-11-17
AI, Machine Learning, Python, PyTorch

在過去的一週裡，我抽空按照論文 Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding 的思路嘗試復現了一遍自推測性解碼（Self-Speculative Decoding），包含以下模組：

跳層解碼的 Decoder-only Transformer 模型（主要以 Llama 和 Gemma-2 兩種架構為主）
自適應草稿離開機制
貝氏優化探索最佳跳層策略（尋找怎樣的搭配才會是最好的草稿模型）
Self-Speculative Decoding —— 完成只靠模型自身的加速

Clay
2024-11-102024-11-10
AI, Machine Learning, PyTorch

介紹

自推測性解碼（Self-Speculative Decoding）是一個推測性解碼（Speculative Decoding）的變體。原本的 Speculative Decoding 是採用一個草稿模型（draft model）來優化我們真正想要推理的目標模型（target），並且 draft model 擁有與 target model 相似的輸出以及快上幾倍的推理時間，通常是由 target model 蒸餾而來。

Clay
2024-11-052024-11-06
Machine Learning, PyTorch

介紹

推測性解碼（Speculative Decoding）是一種實用性極強的加速推理技巧，通過讓小模型（draft model）快速、連續地解碼多個 Tokens 並保留過程中的採樣機率分佈，並讓我們真正希望加速的大模型（target model）在此之上預測下一個 Token —— 同時把過往的每個 Token 位置的採樣機率分佈一次性地計算得出，再透過 target model probs 去驗證 draft model probs 的有效性，並接受足夠可靠的 draft model 的推測解碼 Tokens。

Clay
2024-11-042024-11-04
Machine Learning, PyTorch

我們在利用大型語言模型進行生成任務時，尤其是自迴歸任務（Auto-regression），模型實際上是在做一個好幾萬的分類任務，而分類的標的，其實就是我們詞庫（vocabulary）中的詞，通常是被稱為詞元（Token），也就是組成詞彙的最小單位。

如果我們希望採用貪婪解碼（greedy decoding），那麼我們永遠取模型最後一層解碼層的 logits 最大值就完事；但如果我們希望模型的生成結果具備多樣性與一定程度的隨機性，那麼，我們就有了許多的參數可以用來調整 logits 成為機率分佈了。

Clay
2024-10-072024-10-07
AI, Machine Learning, PyTorch

多模態大型語言模型（Multi-Modal Large Language Model）是一種不侷限於文字的語言模型，我知道這聽起來很衝突，不過這算是目前大家普遍接受的一種稱呼；而我今天想要紀錄的，就是該怎麼使用一個腳本就進行多模態模型的微調。

Clay
2024-08-182024-08-18
Machine Learning, PyTorch

交叉熵介紹

交叉熵是機器學習（Machine Learning） 中非常常見的損失函數，這是因為其交叉熵是一種可以在『分類任務』中，將模型分類預測結果和實際分類標籤之間的差異做出量化。

Clay
2024-06-062024-06-06
Machine Learning, PyTorch

介紹

SiLU （Sigmoid Linear Unit）激活函數，跟 Swish 函數十分相像，只差在一個可訓練的 beta 係數，現今也有許多大型語言模型（LLM）採用，主要是在一些探索使用非 ReLU 等激活函數的大型語言模型上，比方說經典的 Llama 架構。

SDPA 介紹

縮放點積注意力（Scaled Dot-Product Attention, SDPA）對於熟悉 Transformer 自注意力架構（Self-Attention）的人來說，恐怕馬上腦海中瞬間就閃過了：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

PyTorch

整合 Speculative Decoding 和 KV Cache 之實作筆記

前言

Speculative Decoding 時採用目標模型（Target Model）的信心閾值來決定是否啟用草稿推測

Self-Speculative Decoding 完整實作: LayerSkip Model, Bayesian Optimization, and Adaptive Draft-Exiting Mechanism（附 gemma-2-9b-it 實驗結果）

Self-Speculative Decoding 實現: 跳層 Transformer 模型實作筆記

介紹

推測性解碼（Speculative Decoding）實作筆記（附簡易實驗結果）

介紹

大型語言模型的解碼採樣筆記

使用 SFTTrainer 微調多模態大型語言模型筆記（以 LLaVa-1.5 為例）

[Machine Learning] Cross Entropy Loss 筆記

交叉熵介紹

[Machine Learning] SiLU 激活函數筆記

介紹

[PyTorch] 使用 2.0+ 的 SDPA 提昇 Transformer 自注意力機制計算速度

SDPA 介紹