在 TensorRT-LLM Python Session 上支援 Hydra Speculative Decoding
介紹
之前我閱讀過許多不同的 Speculative Decoding 加速推理技巧,也嘗試使用 PyTorch 實現了幾種不同的架構,包括模型架構、訓練與推理等腳本(fast-llm-inference),這一次當然又是新的目標。
Read More »在 TensorRT-LLM Python Session 上支援 Hydra Speculative Decoding之前我閱讀過許多不同的 Speculative Decoding 加速推理技巧,也嘗試使用 PyTorch 實現了幾種不同的架構,包括模型架構、訓練與推理等腳本(fast-llm-inference),這一次當然又是新的目標。
Read More »在 TensorRT-LLM Python Session 上支援 Hydra Speculative Decoding目前 LLM 的推理時,大部分的時間都卡在需要『逐一生成 Token』的這一環節,這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token,就必須要讀取整個模型的權重,而實際的浮點數運算量相對較小,導致 GPU 的計算能力未能充分發揮。
Read More »[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa DecodingCogito V1 是最近在 Reddit 上看到的效果很好的模型,同事們也在更早一天推薦了我,抱著體驗一下的心態放到了手邊的 RAG 任務上,效果相當驚豔 —— 最主要的是它在有查詢出相關參考資料時,不太會出現幻覺、並能好好統整多筆資料進行回答;這在我之前測試的模型當中,只有 Gemma-3 能在不經過微調的情況下給我相似的感受。
Read More »使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀最近依然還是在看加速推理的東西,奈何手邊一直在忙工作的事情沒來得及發出來呢;今天要介紹的加速推理架構是稱為 Medusa 的經典多頭解碼模型。
Read More »[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads今天 Gemma 3 開源了,由於工作上一直以來選用 Gemma 2 作為佈署模型,也在改進、微調 Gemma 2 上費了心力,不能免俗地對 Gemma 3 更加專注,也快速瀏覽拜讀了這篇技術報告。
Read More »[論文閱讀] Gemma 3 Technical ReportTest-Time Scaling 現在是拓展 LLM 性能的一個熱門方案,藉由在模型回答問題前,先經過一番『思考』整理,進而回答出更準確的答案。
Read More »[論文閱讀] s1: Simple test-time scalingSpeculative Decoding 和 KV Cache 都是 Transformers 可以應用的加速技巧;前者是利用一個推理速度較快的 draft model 推測性地生成多個後續的解碼結果並讓希望加速的 target model 進行一次性驗證藉此節省自迴歸解碼的開銷,後者則是應用了 Transformer 因果注意力(Causal Attention)機制中過往 Token 不會看到未來的 Token 的特性,將過去部份 Token 的計算結果保存下來,節省了每次推理時的重複計算。
Read More »整合 Speculative Decoding 和 KV Cache 之實作筆記Kangaroo 是一種引入了可訓練的適配器(Adapter)層的 Self-Speculative Decoding 實現,我最近幾週都在嘗試微調其 Adapter,有了一些初步成果,故紀錄於此。
Read More »Kangaroo 加速推理架構實現筆記目前我看的許多加速推理技巧,如 Speculative Decoding 等等方式,大多數都是採用把 draft model 信心分數設定一個閾值(threshold)來決定現在要解碼多少個 draft tokens、再交由 target model 進行驗證,以此來減少 draft model 在低信心程度的情況下額外多推測的時間開銷。
Read More »Speculative Decoding 時採用目標模型(Target Model)的信心閾值來決定是否啟用草稿推測最近嘗試實作了許多推測性解碼(Speculative Decoding)的加速方法,而 HuggingFace 的 transformers 套件中自然也有對應的加速方法 assistant_model,今天就趁這個機會一起紀錄下來。