Clay

Proximal Policy Optimization（PPO）筆記

Clay
2025-05-052025-05-05
AI, Machine Learning

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Clay
2025-04-162025-04-16
AI, Machine Learning, Papers

目前 LLM 的推理時，大部分的時間都卡在需要『逐一生成 Token』的這一環節，這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token，就必須要讀取整個模型的權重，而實際的浮點數運算量相對較小，導致 GPU 的計算能力未能充分發揮。

Clay
2025-04-112025-04-11
AI, Machine Learning

Cogito V1 是最近在 Reddit 上看到的效果很好的模型，同事們也在更早一天推薦了我，抱著體驗一下的心態放到了手邊的 RAG 任務上，效果相當驚豔 —— 最主要的是它在有查詢出相關參考資料時，不太會出現幻覺、並能好好統整多筆資料進行回答；這在我之前測試的模型當中，只有 Gemma-3 能在不經過微調的情況下給我相似的感受。

Clay
2025-03-252025-03-25
AI, Machine Learning, Papers

最近依然還是在看加速推理的東西，奈何手邊一直在忙工作的事情沒來得及發出來呢；今天要介紹的加速推理架構是稱為 Medusa 的經典多頭解碼模型。

Clay
2025-03-122025-03-12
AI, Papers

今天 Gemma 3 開源了，由於工作上一直以來選用 Gemma 2 作為佈署模型，也在改進、微調 Gemma 2 上費了心力，不能免俗地對 Gemma 3 更加專注，也快速瀏覽拜讀了這篇技術報告。

Clay
2025-03-102025-03-14
AI, Machine Learning, Papers

S1 論文核心內容

Test-Time Scaling 現在是拓展 LLM 性能的一個熱門方案，藉由在模型回答問題前，先經過一番『思考』整理，進而回答出更準確的答案。

Clay
2025-02-262025-02-26
C++, LeetCode, Python

層歸一化（LayerNorm）理論思考筆記

Clay
2025-02-242025-02-26
Machine Learning

之前有在閱讀模型架構原始碼時，有嘗試寫過 LayerNorm 的實現（[Machine Learning] LayerNorm 層歸一化筆記），但當時的實作也僅只於按照公式復現；最近在複習架構設計時，對於 LayerNorm 有了更深入的思考，故筆記於此。

Clay
2025-02-172025-02-17
LeetCode

題目

You have n tiles, where each tile has one letter tiles[i] printed on it.

Return the number of possible non-empty sequences of letters you can make using the letters printed on those tiles.

Clay
2025-02-062025-02-06
隨筆

前言

一直以來，我都努力讓自己保持著學習的狀態，雖然有時會因為工作的忙碌、朋友的邀約...... 導致當天回家後只感到疲累，玩了會兒 PS5 就草草洗澡上床睡覺。這樣的日子雖然輕鬆又愜意，但內心深處總擔心著不經常學習反而會遺忘自己學習過的知識，就像那句老話「學如逆水行舟，不進則退」。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Clay

Proximal Policy Optimization（PPO）筆記

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

使用 Iterated Distillation and Amplification (IDA) 訓練的 Cogito 的個人解讀

[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

[論文閱讀] Gemma 3 Technical Report

[論文閱讀] s1: Simple test-time scaling

S1 論文核心內容

LeetCode: 1749. Maximum Absolute Sum of Any Subarray 解題紀錄

層歸一化（LayerNorm）理論思考筆記

LeetCode: 1079. Letter Tile Possibilities 解題紀錄

題目

學習知識究竟為什麼會遺忘：何為遺忘曲線？

前言