Papers

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Clay
2025-04-162025-04-16
AI, Machine Learning, Papers

目前 LLM 的推理時，大部分的時間都卡在需要『逐一生成 Token』的這一環節，這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token，就必須要讀取整個模型的權重，而實際的浮點數運算量相對較小，導致 GPU 的計算能力未能充分發揮。

[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Clay
2025-03-252025-03-25
AI, Machine Learning, Papers

最近依然還是在看加速推理的東西，奈何手邊一直在忙工作的事情沒來得及發出來呢；今天要介紹的加速推理架構是稱為 Medusa 的經典多頭解碼模型。

[論文閱讀] Gemma 3 Technical Report

Clay
2025-03-122025-03-12
AI, Papers

今天 Gemma 3 開源了，由於工作上一直以來選用 Gemma 2 作為佈署模型，也在改進、微調 Gemma 2 上費了心力，不能免俗地對 Gemma 3 更加專注，也快速瀏覽拜讀了這篇技術報告。

[論文閱讀] s1: Simple test-time scaling

Clay
2025-03-102025-03-14
AI, Machine Learning, Papers

S1 論文核心內容

Test-Time Scaling 現在是拓展 LLM 性能的一個熱門方案，藉由在模型回答問題前，先經過一番『思考』整理，進而回答出更準確的答案。

[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

Clay
2024-11-142024-11-14
AI, Machine Learning, Papers

本篇論文重點

量化、剪枝、蒸餾同樣可以加速，但得面對與原始模型不同的輸出分佈、重新訓練的開銷等等問題
原先的 Speculative Decoding 面對的問題則為我們需要使用額外的記憶體空間去驅動 draft model（草稿模型），而 Self-Speculative Decoding 僅使用了自身部份神經網路作為 draft model
自適應草稿脫離機制（Adaptive Draft-Exiting Mechanism）可以基於自動調整信心分數閾值來自動調整草稿模型的推測 tokens 數量

[論文閱讀] Fast Inference from Transformers via Speculative Decoding

Clay
2024-11-032024-11-07
AI, Machine Learning, Papers

Abstract – 摘要

在自迴歸模型（Auto-regressive Model）解碼時，如果需要解碼 K 個詞元（Tokens），則需要跑 K 次流程，而這正是當前大型語言模型的推理時間瓶頸所在。

[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION

Clay
2024-10-152024-10-16
AI, Machine Learning, Papers

以下是這篇論文的一些重點摘要：

[論文閱讀] Lifting the Curse of Multilinguality by Pre-training Modular Transformers

Clay
2024-08-132024-08-19
AI, Machine Learning

Cross-lingual Modular (X-Mod) 是一個有趣的語言模型架構，透過模組化不同語言的參數作為模組單元（Module Unit）組裝在模型中，好讓語言模型在新增全新語言時，可以使用獨立的參數進行微調，而（比較）不會出現災難性遺忘的窘境。

[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Clay
2024-06-032024-11-26
Machine Learning, Python

前言

這是華為諾亞方舟實驗室所提出加速框架，本質上是把原先投機解碼（speculative decoding）中所使用的小模型由大模型的淺層網路取代，並再由額外訓練的適配器（adapter）加上模型本身的解碼頭去生成推測的 token，再由大模型去進行驗證，並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。

[論文閱讀] Mistral 7B 技術報告

Clay
2024-04-022024-07-25
Machine Learning

介紹

Mistral 7B 是 2023 年 09 月 27 日所提出的大型語言模型（Large Language Model, LLM），由同名的 Mistral AI 團隊訓練而成並將其權重開源釋出。有趣的是，它所採用的授權是相當自由的 Apache 2.0，不像 Llama 2 採用了自己的 Llama 授權條款，所以是真正意義上的『開源』（Llama 授權需要在服務量達到七億時跟 Meta AI 討論授權問題）。

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30