Blog

在 TensorRT-LLM Python Session 上支援 Hydra Speculative Decoding

Clay
2025-06-302025-07-01
AI, Machine Learning, Python

介紹

之前我閱讀過許多不同的 Speculative Decoding 加速推理技巧，也嘗試使用 PyTorch 實現了幾種不同的架構，包括模型架構、訓練與推理等腳本（fast-llm-inference），這一次當然又是新的目標。

Proximal Policy Optimization（PPO）筆記

Clay
2025-05-052025-05-05
AI, Machine Learning

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Clay
2025-04-162025-04-16
AI, Machine Learning, Papers

目前 LLM 的推理時，大部分的時間都卡在需要『逐一生成 Token』的這一環節，這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token，就必須要讀取整個模型的權重，而實際的浮點數運算量相對較小，導致 GPU 的計算能力未能充分發揮。

使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀

Clay
2025-04-112025-04-11
AI, Machine Learning

Cogito V1 是最近在 Reddit 上看到的效果很好的模型，同事們也在更早一天推薦了我，抱著體驗一下的心態放到了手邊的 RAG 任務上，效果相當驚豔 —— 最主要的是它在有查詢出相關參考資料時，不太會出現幻覺、並能好好統整多筆資料進行回答；這在我之前測試的模型當中，只有 Gemma-3 能在不經過微調的情況下給我相似的感受。