AI

[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

Clay
2024-11-142024-11-14
AI, Machine Learning, Papers

本篇論文重點

量化、剪枝、蒸餾同樣可以加速，但得面對與原始模型不同的輸出分佈、重新訓練的開銷等等問題
原先的 Speculative Decoding 面對的問題則為我們需要使用額外的記憶體空間去驅動 draft model（草稿模型），而 Self-Speculative Decoding 僅使用了自身部份神經網路作為 draft model
自適應草稿脫離機制（Adaptive Draft-Exiting Mechanism）可以基於自動調整信心分數閾值來自動調整草稿模型的推測 tokens 數量

透過貝氏優化去搜索 LayerSkip 模型的最佳跳層策略

Clay
2024-11-132024-11-13
AI, Machine Learning

在自推測性解碼（Self-Speculative Decoding）中，由於我們的 draft model 是由 target model 的部份網路擔任，所以找到一個好的『跳層策略』（Layer Skip Strategy）是非常重要的事情 —— 我們不僅要跳得夠多層讓加速真正意義上實現、也需要讓 draft model 的推測解碼程度足夠好且不容易被 target model 驗證時拒絕。

所以今天的實作，就是靠貝氏優化框架 Optuna 來優化我之前的實現的 LayerSkip 模型，決定到底要跳哪幾層。

Self-Speculative Decoding 實現: 跳層 Transformer 模型實作筆記

Clay
2024-11-102024-11-10
AI, Machine Learning, PyTorch

介紹

自推測性解碼（Self-Speculative Decoding）是一個推測性解碼（Speculative Decoding）的變體。原本的 Speculative Decoding 是採用一個草稿模型（draft model）來優化我們真正想要推理的目標模型（target），並且 draft model 擁有與 target model 相似的輸出以及快上幾倍的推理時間，通常是由 target model 蒸餾而來。

[論文閱讀] Fast Inference from Transformers via Speculative Decoding

Clay
2024-11-032024-11-07
AI, Machine Learning, Papers

Abstract – 摘要

在自迴歸模型（Auto-regressive Model）解碼時，如果需要解碼 K 個詞元（Tokens），則需要跑 K 次流程，而這正是當前大型語言模型的推理時間瓶頸所在。

KV Cache: 一種加速 Transformer 模型生成速度的暫存機制

Clay
2024-10-302024-10-30
AI, Machine Learning

在大型語言模型的解碼過程中，尤其是自迴歸模型（Auto-regressive model），勢必得一次次地解碼直到生成整個序列為止，在這之中存在著一些 cache 的技巧，能夠幫助模型減少計算量、提昇解碼速度；而這個技巧就被稱為 KV Cache。

使用有限狀態機（FSM）和回滾（Rollback）機制控制 LLM 禁止生成禁止詞彙（Banned-Words）

Clay
2024-10-282024-10-28
AI, Machine Learning

在大家透過 LLM 架設各種服務時，是否會煩惱 LLM 經常生成一些不受控制的言論？最近我的工作正在專案收尾的緊要關頭，我使用了 Outlines 等工具用以約束 LLM 解碼，確實能控制模型生成符合我想項中的模式 —— 但我同事突然對我發出靈魂一問：那我想要它不生成某些詞彙該怎麼辦？

訓練、推理 AI 模型的 VRAM 開銷計算筆記

Clay
2024-10-232024-10-23
AI, Machine Learning

一直以來，我都只用個大概的公式去推估我的模型量級與我的 GPU VRAM 開銷之間關聯；畢竟這之間牽扯到的變數實在太多了，光是模型架構、層數、注意力機制實現、序列長度、Batch Size、訓練或推理採用的資料精度… 在在都影響我們最後計算的結果。

一點思考：Transformer 在未來是否會被取代？

Clay
2024-10-212024-10-21
AI, 隨筆

今天我在吃飯時看到了一部影片（影片附於文末），影片中不像現在很多衝著 AI 這種新穎技術的科技頻道，一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來；而是仔細地，講解了從以前到現在，硬體的規格如何影響演算法（或者稱 AI 模型架構）。

KTOTrainer（Kahneman-Tversky Optimization Trainer）筆記

Clay
2024-10-182024-10-19
AI, Machine Learning

之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky Optimization（KTO）的 LLM 微調方式（實際上跟 DPO 相似是一種價值觀對齊方式），因為其準備資料的格式比起 DPO 實在太方便了，目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。

[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION

Clay
2024-10-152024-10-16
AI, Machine Learning, Papers

以下是這篇論文的一些重點摘要：

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30