Skip to content

Papers

[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

本篇論文重點

  • 量化、剪枝、蒸餾同樣可以加速,但得面對與原始模型不同的輸出分佈、重新訓練的開銷等等問題
  • 原先的 Speculative Decoding 面對的問題則為我們需要使用額外的記憶體空間去驅動 draft model(草稿模型),而 Self-Speculative Decoding 僅使用了自身部份神經網路作為 draft model
  • 自適應草稿脫離機制(Adaptive Draft-Exiting Mechanism)可以基於自動調整信心分數閾值來自動調整草稿模型的推測 tokens 數量
Read More »[論文閱讀] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

[論文閱讀] Lifting the Curse of Multilinguality by Pre-training Modular Transformers

Cross-lingual Modular (X-Mod) 是一個有趣的語言模型架構,透過模組化不同語言的參數作為模組單元Module Unit)組裝在模型中,好讓語言模型在新增全新語言時,可以使用獨立的參數進行微調,而(比較)不會出現災難性遺忘的窘境。

Read More »[論文閱讀] Lifting the Curse of Multilinguality by Pre-training Modular Transformers

[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

前言

這是華為諾亞方舟實驗室所提出加速框架,本質上是把原先投機解碼(speculative decoding)中所使用的小模型由大模型的淺層網路取代,並再由額外訓練的適配器(adapter)加上模型本身的解碼頭去生成推測的 token,再由大模型去進行驗證,並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。

Read More »[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

[論文閱讀] Mistral 7B 技術報告

介紹

Mistral 7B 是 2023 年 09 月 27 日所提出的大型語言模型(Large Language Model, LLM),由同名的 Mistral AI 團隊訓練而成並將其權重開源釋出。有趣的是,它所採用的授權是相當自由的 Apache 2.0,不像 Llama 2 採用了自己的 Llama 授權條款,所以是真正意義上的『開源』(Llama 授權需要在服務量達到七億時跟 Meta AI 討論授權問題)。

Read More »[論文閱讀] Mistral 7B 技術報告