11 月 2024

大型語言模型的解碼採樣筆記

Clay
2024-11-042024-11-04
Machine Learning, PyTorch

Last Updated on 2024-11-04 by Clay

我們在利用大型語言模型進行生成任務時，尤其是自迴歸任務（Auto-regression），模型實際上是在做一個好幾萬的分類任務，而分類的標的，其實就是我們詞庫（vocabulary）中的詞，通常是被稱為詞元（Token），也就是組成詞彙的最小單位。

如果我們希望採用貪婪解碼（greedy decoding），那麼我們永遠取模型最後一層解碼層的 logits 最大值就完事；但如果我們希望模型的生成結果具備多樣性與一定程度的隨機性，那麼，我們就有了許多的參數可以用來調整 logits 成為機率分佈了。

[論文閱讀] Fast Inference from Transformers via Speculative Decoding

Clay
2024-11-032024-11-07
AI, Machine Learning, Papers

Last Updated on 2024-11-07 by Clay

Abstract – 摘要

在自迴歸模型（Auto-regressive Model）解碼時，如果需要解碼 K 個詞元（Tokens），則需要跑 K 次流程，而這正是當前大型語言模型的推理時間瓶頸所在。

Exit mobile version