Skip to content

透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略

透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略

Last Updated on 2024-11-13 by Clay

在自推測性解碼(Self-Speculative Decoding)中,由於我們的 draft model 是由 target model 的部份網路擔任,所以找到一個好的『跳層策略』(Layer Skip Strategy)是非常重要的事情 —— 我們不僅要跳得夠多層讓加速真正意義上實現、也需要讓 draft model 的推測解碼程度足夠好且不容易被 target model 驗證時拒絕。

所以今天的實作,就是靠貝氏優化框架 Optuna 來優化我之前的實現的 LayerSkip 模型,決定到底要跳哪幾層。

Read More »透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略

Self-Speculative Decoding 實現: 跳層 Transformer 模型實作筆記

Last Updated on 2024-11-10 by Clay

介紹

自推測性解碼(Self-Speculative Decoding)是一個推測性解碼(Speculative Decoding)的變體。原本的 Speculative Decoding 是採用一個草稿模型(draft model)來優化我們真正想要推理的目標模型(target),並且 draft model 擁有與 target model 相似的輸出以及快上幾倍的推理時間,通常是由 target model 蒸餾而來。

Read More »Self-Speculative Decoding 實現: 跳層 Transformer 模型實作筆記

貝氏定理(Bayes’ Theorem)筆記

Last Updated on 2024-11-07 by Clay

前言

最近在嘗試整理這一年來所閱讀的加速推理技巧論文成筆記,過程中看到了用到了貝氏的貝氏優化技巧,遂決定也寫一篇筆記記錄貝氏定理的精神。

簡單來說,貝氏定理(Bayes’ Theorem)是機率論中的經常會看到的定理,描述在特定條件下一隨機事件的發生機率

Read More »貝氏定理(Bayes’ Theorem)筆記

推測性解碼(Speculative Decoding)實作筆記(附簡易實驗結果)

Last Updated on 2024-11-06 by Clay

介紹

推測性解碼(Speculative Decoding)是一種實用性極強的加速推理技巧,通過讓小模型(draft model)快速、連續地解碼多個 Tokens 並保留過程中的採樣機率分佈,並讓我們真正希望加速的大模型(target model)在此之上預測下一個 Token —— 同時把過往的每個 Token 位置的採樣機率分佈一次性地計算得出,再透過 target model probs 去驗證 draft model probs 的有效性,並接受足夠可靠的 draft model 的推測解碼 Tokens。

Read More »推測性解碼(Speculative Decoding)實作筆記(附簡易實驗結果)

大型語言模型的解碼採樣筆記

Last Updated on 2024-11-04 by Clay

我們在利用大型語言模型進行生成任務時,尤其是自迴歸任務(Auto-regression),模型實際上是在做一個好幾萬的分類任務,而分類的標的,其實就是我們詞庫(vocabulary)中的詞,通常是被稱為詞元(Token),也就是組成詞彙的最小單位。

如果我們希望採用貪婪解碼(greedy decoding),那麼我們永遠取模型最後一層解碼層的 logits 最大值就完事;但如果我們希望模型的生成結果具備多樣性與一定程度的隨機性,那麼,我們就有了許多的參數可以用來調整 logits 成為機率分佈了。

Read More »大型語言模型的解碼採樣筆記

[Python] FastAPI 使用 Server-Sent Events (SSE) 進行串流回覆

Last Updated on 2024-11-01 by Clay

最近建立了許多 Chatbot 的後台 API Server,一開始我是接收到使用者的訊息後回傳,將 LLM 的生成回覆一口氣顯示在前端界面,但這樣使用者體驗並不好;之後改成了 HTTP 串流,每生成一個 Token 就回傳前端界面,但後來發現在部份使用者的裝置上會發生黏包,所以最後改成了使用 WebSocket。

Read More »[Python] FastAPI 使用 Server-Sent Events (SSE) 進行串流回覆

KV Cache: 一種加速 Transformer 模型生成速度的暫存機制

Last Updated on 2024-10-30 by Clay

在大型語言模型的解碼過程中,尤其是自迴歸模型Auto-regressive model),勢必得一次次地解碼直到生成整個序列為止,在這之中存在著一些 cache 的技巧,能夠幫助模型減少計算量、提昇解碼速度;而這個技巧就被稱為 KV Cache。

Read More »KV Cache: 一種加速 Transformer 模型生成速度的暫存機制

使用有限狀態機(FSM)和回滾(Rollback)機制控制 LLM 禁止生成禁止詞彙(Banned-Words)

Last Updated on 2024-10-28 by Clay

在大家透過 LLM 架設各種服務時,是否會煩惱 LLM 經常生成一些不受控制的言論?最近我的工作正在專案收尾的緊要關頭,我使用了 Outlines 等工具用以約束 LLM 解碼,確實能控制模型生成符合我想項中的模式 —— 但我同事突然對我發出靈魂一問:那我想要它不生成某些詞彙該怎麼辦?

Read More »使用有限狀態機(FSM)和回滾(Rollback)機制控制 LLM 禁止生成禁止詞彙(Banned-Words)

訓練、推理 AI 模型的 VRAM 開銷計算筆記

Last Updated on 2024-10-23 by Clay

一直以來,我都只用個大概的公式去推估我的模型量級與我的 GPU VRAM 開銷之間關聯;畢竟這之間牽扯到的變數實在太多了,光是模型架構、層數、注意力機制實現、序列長度、Batch Size、訓練或推理採用的資料精度… 在在都影響我們最後計算的結果。

Read More »訓練、推理 AI 模型的 VRAM 開銷計算筆記
Exit mobile version