Skip to content

Blog

使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀

Cogito V1 是最近在 Reddit 上看到的效果很好的模型,同事們也在更早一天推薦了我,抱著體驗一下的心態放到了手邊的 RAG 任務上,效果相當驚豔 —— 最主要的是它在有查詢出相關參考資料時,不太會出現幻覺、並能好好統整多筆資料進行回答;這在我之前測試的模型當中,只有 Gemma-3 能在不經過微調的情況下給我相似的感受。

Read More »使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀

學習知識究竟為什麼會遺忘:何為遺忘曲線?

前言

一直以來,我都努力讓自己保持著學習的狀態,雖然有時會因為工作的忙碌、朋友的邀約...... 導致當天回家後只感到疲累,玩了會兒 PS5 就草草洗澡上床睡覺。這樣的日子雖然輕鬆又愜意,但內心深處總擔心著不經常學習反而會遺忘自己學習過的知識,就像那句老話「學如逆水行舟,不進則退」。

Read More »學習知識究竟為什麼會遺忘:何為遺忘曲線?

整合 Speculative Decoding 和 KV Cache 之實作筆記

前言

Speculative Decoding 和 KV Cache 都是 Transformers 可以應用的加速技巧;前者是利用一個推理速度較快的 draft model 推測性地生成多個後續的解碼結果並讓希望加速的 target model 進行一次性驗證藉此節省自迴歸解碼的開銷,後者則是應用了 Transformer 因果注意力(Causal Attention)機制中過往 Token 不會看到未來的 Token 的特性,將過去部份 Token 的計算結果保存下來,節省了每次推理時的重複計算。

Read More »整合 Speculative Decoding 和 KV Cache 之實作筆記