Skip to content

4 月 2025

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Last Updated on 2025-04-16 by Clay

目前 LLM 的推理時,大部分的時間都卡在需要『逐一生成 Token』的這一環節,這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token,就必須要讀取整個模型的權重,而實際的浮點數運算量相對較小,導致 GPU 的計算能力未能充分發揮。

Read More »[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀

Last Updated on 2025-04-11 by Clay

Cogito V1 是最近在 Reddit 上看到的效果很好的模型,同事們也在更早一天推薦了我,抱著體驗一下的心態放到了手邊的 RAG 任務上,效果相當驚豔 —— 最主要的是它在有查詢出相關參考資料時,不太會出現幻覺、並能好好統整多筆資料進行回答;這在我之前測試的模型當中,只有 Gemma-3 能在不經過微調的情況下給我相似的感受。

Read More »使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀
Exit mobile version