Papers

[論文閱讀] Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Clay
2025-04-162025-04-16
AI, Machine Learning, Papers

目前 LLM 的推理時，大部分的時間都卡在需要『逐一生成 Token』的這一環節，這顯示了當前 GPU 記憶體的瓶頸 —— 我們每次讓模型解碼出一個 Token，就必須要讀取整個模型的權重，而實際的浮點數運算量相對較小，導致 GPU 的計算能力未能充分發揮。

[論文閱讀] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Clay
2025-03-252025-03-25
AI, Machine Learning, Papers

最近依然還是在看加速推理的東西，奈何手邊一直在忙工作的事情沒來得及發出來呢；今天要介紹的加速推理架構是稱為 Medusa 的經典多頭解碼模型。

[論文閱讀] Gemma 3 Technical Report

Clay
2025-03-122025-03-12
AI, Papers

今天 Gemma 3 開源了，由於工作上一直以來選用 Gemma 2 作為佈署模型，也在改進、微調 Gemma 2 上費了心力，不能免俗地對 Gemma 3 更加專注，也快速瀏覽拜讀了這篇技術報告。

[論文閱讀] s1: Simple test-time scaling

Clay
2025-03-102025-03-14
AI, Machine Learning, Papers

S1 論文核心內容

Test-Time Scaling 現在是拓展 LLM 性能的一個熱門方案，藉由在模型回答問題前，先經過一番『思考』整理，進而回答出更準確的答案。

[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

Clay
2024-11-142024-11-14
AI, Machine Learning, Papers

本篇論文重點

量化、剪枝、蒸餾同樣可以加速，但得面對與原始模型不同的輸出分佈、重新訓練的開銷等等問題
原先的 Speculative Decoding 面對的問題則為我們需要使用額外的記憶體空間去驅動 draft model（草稿模型），而 Self-Speculative Decoding 僅使用了自身部份神經網路作為 draft model
自適應草稿脫離機制（Adaptive Draft-Exiting Mechanism）可以基於自動調整信心分數閾值來自動調整草稿模型的推測 tokens 數量

[論文閱讀] Fast Inference from Transformers via Speculative Decoding

Clay
2024-11-032024-11-07
AI, Machine Learning, Papers

Abstract – 摘要

在自迴歸模型（Auto-regressive Model）解碼時，如果需要解碼 K 個詞元（Tokens），則需要跑 K 次流程，而這正是當前大型語言模型的推理時間瓶頸所在。

[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION

Clay
2024-10-152024-10-16
AI, Machine Learning, Papers

以下是這篇論文的一些重點摘要：

[論文閱讀] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Clay
2023-11-22
Papers

前言

RAG-based LLM 是當前使用大型語言模型（Large Language Model, LLM）的一種知名架構，也就是通過『檢索』，來給模型提供訓練時所沒有的先驗知識，讓模型能夠在得知特定資訊的情況下進行問題的回答。

[論文閱讀] QLoRA: Efficient Finetuning of Quantized LLMs

Clay
2023-09-192023-09-21
Papers

前言

大模型的浪潮自從 2022 年 11 月 ChatGPT 的發布後便一發不可收拾，直到現在開源的大型語言模型（Large Language Model）的量級還在不斷增大，比方說 LLaMA-2-70B、以及 Falcon-180B 等等。

大型語言模型的性能自然是相當優秀的，可是往往需要耗費大量且價格昂貴的 GPU 記憶體，這使得一些邊緣運算裝置根本就不可能讓模型進行推理（inference） —— 更遑論訓練、微調自己的模型了。