Machine Learning

在 TensorRT-LLM Python Session 上支援 Hydra Speculative Decoding

Clay
2025-06-302025-07-01
AI, Machine Learning, Python

介紹

之前我閱讀過許多不同的 Speculative Decoding 加速推理技巧，也嘗試使用 PyTorch 實現了幾種不同的架構，包括模型架構、訓練與推理等腳本（fast-llm-inference），這一次當然又是新的目標。

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Clay
2025-04-162025-04-16
AI, Machine Learning, Papers

目前 LLM 的推理時，大部分的時間都卡在需要『逐一生成 Token』的這一環節，這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token，就必須要讀取整個模型的權重，而實際的浮點數運算量相對較小，導致 GPU 的計算能力未能充分發揮。

使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀

Clay
2025-04-112025-04-11
AI, Machine Learning

Cogito V1 是最近在 Reddit 上看到的效果很好的模型，同事們也在更早一天推薦了我，抱著體驗一下的心態放到了手邊的 RAG 任務上，效果相當驚豔 —— 最主要的是它在有查詢出相關參考資料時，不太會出現幻覺、並能好好統整多筆資料進行回答；這在我之前測試的模型當中，只有 Gemma-3 能在不經過微調的情況下給我相似的感受。

[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Clay
2025-03-252025-03-25
AI, Machine Learning, Papers

最近依然還是在看加速推理的東西，奈何手邊一直在忙工作的事情沒來得及發出來呢；今天要介紹的加速推理架構是稱為 Medusa 的經典多頭解碼模型。

[論文閱讀] s1: Simple test-time scaling

Clay
2025-03-102025-03-14
AI, Machine Learning, Papers

S1 論文核心內容

Test-Time Scaling 現在是拓展 LLM 性能的一個熱門方案，藉由在模型回答問題前，先經過一番『思考』整理，進而回答出更準確的答案。

層歸一化（LayerNorm）理論思考筆記

Clay
2025-02-242025-02-26
Machine Learning

之前有在閱讀模型架構原始碼時，有嘗試寫過 LayerNorm 的實現（[Machine Learning] LayerNorm 層歸一化筆記），但當時的實作也僅只於按照公式復現；最近在複習架構設計時，對於 LayerNorm 有了更深入的思考，故筆記於此。

整合 Speculative Decoding 和 KV Cache 之實作筆記

Clay
2024-12-172024-12-17
AI, Machine Learning, PyTorch

前言

Speculative Decoding 和 KV Cache 都是 Transformers 可以應用的加速技巧；前者是利用一個推理速度較快的 draft model 推測性地生成多個後續的解碼結果並讓希望加速的 target model 進行一次性驗證藉此節省自迴歸解碼的開銷，後者則是應用了 Transformer 因果注意力（Causal Attention）機制中過往 Token 不會看到未來的 Token 的特性，將過去部份 Token 的計算結果保存下來，節省了每次推理時的重複計算。

Kangaroo 加速推理架構實現筆記

Clay
2024-12-092024-12-10
AI, Machine Learning

前言

Kangaroo 是一種引入了可訓練的適配器（Adapter）層的 Self-Speculative Decoding 實現，我最近幾週都在嘗試微調其 Adapter，有了一些初步成果，故紀錄於此。

KL Divergence 和 Cross Entropy 的差異與比較

Clay
2024-12-022024-12-03
Machine Learning

前言

最近在實作論文 Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting 時，對於其所採用 Cross Entropy Loss 來讓 draft model 和 target model 的機率分佈輸出越像越好這件事，產生了一個疑惑：為什麼不使用 KL Divergence 呢？

Speculative Decoding 時採用目標模型（Target Model）的信心閾值來決定是否啟用草稿推測

Clay
2024-11-212024-11-22
AI, Machine Learning, PyTorch

目前我看的許多加速推理技巧，如 Speculative Decoding 等等方式，大多數都是採用把 draft model 信心分數設定一個閾值（threshold）來決定現在要解碼多少個 draft tokens、再交由 target model 進行驗證，以此來減少 draft model 在低信心程度的情況下額外多推測的時間開銷。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31