Clay

學習知識究竟為什麼會遺忘：何為遺忘曲線？

Clay
2025-02-062025-02-06
隨筆

前言

一直以來，我都努力讓自己保持著學習的狀態，雖然有時會因為工作的忙碌、朋友的邀約…… 導致當天回家後只感到疲累，玩了會兒 PS5 就草草洗澡上床睡覺。這樣的日子雖然輕鬆又愜意，但內心深處總擔心著不經常學習反而會遺忘自己學習過的知識，就像那句老話「學如逆水行舟，不進則退」。

整合 Speculative Decoding 和 KV Cache 之實作筆記

Clay
2024-12-172024-12-17
AI, Machine Learning, PyTorch

前言

Speculative Decoding 和 KV Cache 都是 Transformers 可以應用的加速技巧；前者是利用一個推理速度較快的 draft model 推測性地生成多個後續的解碼結果並讓希望加速的 target model 進行一次性驗證藉此節省自迴歸解碼的開銷，後者則是應用了 Transformer 因果注意力（Causal Attention）機制中過往 Token 不會看到未來的 Token 的特性，將過去部份 Token 的計算結果保存下來，節省了每次推理時的重複計算。

Kangaroo 加速推理架構實現筆記

Clay
2024-12-092024-12-10
AI, Machine Learning

前言

Kangaroo 是一種引入了可訓練的適配器（Adapter）層的 Self-Speculative Decoding 實現，我最近幾週都在嘗試微調其 Adapter，有了一些初步成果，故紀錄於此。

KL Divergence 和 Cross Entropy 的差異與比較

Clay
2024-12-022024-12-03
Machine Learning

前言

最近在實作論文 Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting 時，對於其所採用 Cross Entropy Loss 來讓 draft model 和 target model 的機率分佈輸出越像越好這件事，產生了一個疑惑：為什麼不使用 KL Divergence 呢？

布魯爾定理（Brewer’s/CAP Theorem）筆記

Clay
2024-11-262024-11-26
Computer

最近在看分散式系統的筆記，希望能對當前這一年所建立的系統進行反思，審視有什麼可以改進的點，就在這時被人推薦看看 CAP 定理，一看之下覺得滿直覺的，就順手紀錄於此。

LeetCode: 108. Convert Sorted Array to Binary Search Tree 解題紀錄

Clay
2024-11-252024-11-25
C++, LeetCode, Python

題目

Given an integer array nums where the elements are sorted in ascending order, convert it to a height-balanced binary search tree.

Speculative Decoding 時採用目標模型（Target Model）的信心閾值來決定是否啟用草稿推測

Clay
2024-11-212024-11-22
AI, Machine Learning, PyTorch

目前我看的許多加速推理技巧，如 Speculative Decoding 等等方式，大多數都是採用把 draft model 信心分數設定一個閾值（threshold）來決定現在要解碼多少個 draft tokens、再交由 target model 進行驗證，以此來減少 draft model 在低信心程度的情況下額外多推測的時間開銷。

使用 HuggingFace `transformers` 套件中模型的 `assistant_model` 方法來進行 Speculative Decoding 的加速

Clay
2024-11-182024-11-18
AI, Machine Learning

最近嘗試實作了許多推測性解碼（Speculative Decoding）的加速方法，而 HuggingFace 的 transformers 套件中自然也有對應的加速方法 assistant_model，今天就趁這個機會一起紀錄下來。

Self-Speculative Decoding 完整實作: LayerSkip Model, Bayesian Optimization, and Adaptive Draft-Exiting Mechanism（附 gemma-2-9b-it 實驗結果）

Clay
2024-11-172024-11-17
AI, Machine Learning, Python, PyTorch

在過去的一週裡，我抽空按照論文 Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding 的思路嘗試復現了一遍自推測性解碼（Self-Speculative Decoding），包含以下模組：

跳層解碼的 Decoder-only Transformer 模型（主要以 Llama 和 Gemma-2 兩種架構為主）
自適應草稿離開機制
貝氏優化探索最佳跳層策略（尋找怎樣的搭配才會是最好的草稿模型）
Self-Speculative Decoding —— 完成只靠模型自身的加速

[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

Clay
2024-11-142024-11-14
AI, Machine Learning, Papers

本篇論文重點

量化、剪枝、蒸餾同樣可以加速，但得面對與原始模型不同的輸出分佈、重新訓練的開銷等等問題
原先的 Speculative Decoding 面對的問題則為我們需要使用額外的記憶體空間去驅動 draft model（草稿模型），而 Self-Speculative Decoding 僅使用了自身部份神經網路作為 draft model
自適應草稿脫離機制（Adaptive Draft-Exiting Mechanism）可以基於自動調整信心分數閾值來自動調整草稿模型的推測 tokens 數量

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31