KV Cache: 一種加速 Transformer 模型生成速度的暫存機制
在大型語言模型的解碼過程中,尤其是自迴歸模型(Auto-regressive model),勢必得一次次地解碼直到生成整個序列為止,在這之中存在著一些 cache 的技巧,能夠幫助模型減少計算量、提昇解碼速度;而這個技巧就被稱為 KV Cache。
Read More »KV Cache: 一種加速 Transformer 模型生成速度的暫存機制在大型語言模型的解碼過程中,尤其是自迴歸模型(Auto-regressive model),勢必得一次次地解碼直到生成整個序列為止,在這之中存在著一些 cache 的技巧,能夠幫助模型減少計算量、提昇解碼速度;而這個技巧就被稱為 KV Cache。
Read More »KV Cache: 一種加速 Transformer 模型生成速度的暫存機制在大家透過 LLM 架設各種服務時,是否會煩惱 LLM 經常生成一些不受控制的言論?最近我的工作正在專案收尾的緊要關頭,我使用了 Outlines 等工具用以約束 LLM 解碼,確實能控制模型生成符合我想項中的模式 —— 但我同事突然對我發出靈魂一問:那我想要它不生成某些詞彙該怎麼辦?
Read More »使用有限狀態機(FSM)和回滾(Rollback)機制控制 LLM 禁止生成禁止詞彙(Banned-Words)一直以來,我都只用個大概的公式去推估我的模型量級與我的 GPU VRAM 開銷之間關聯;畢竟這之間牽扯到的變數實在太多了,光是模型架構、層數、注意力機制實現、序列長度、Batch Size、訓練或推理採用的資料精度... 在在都影響我們最後計算的結果。
Read More »訓練、推理 AI 模型的 VRAM 開銷計算筆記今天我在吃飯時看到了一部影片(影片附於文末),影片中不像現在很多衝著 AI 這種新穎技術的科技頻道,一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來;而是仔細地,講解了從以前到現在,硬體的規格如何影響演算法(或者稱 AI 模型架構)。
Read More »一點思考:Transformer 在未來是否會被取代?之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky Optimization(KTO)的 LLM 微調方式(實際上跟 DPO 相似是一種價值觀對齊方式),因為其準備資料的格式比起 DPO 實在太方便了,目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。
Read More »KTOTrainer(Kahneman-Tversky Optimization Trainer)筆記ncdu
是一個基於 NCurses 的磁碟空間使用分析工具,主要用於檢視與管理磁碟空間;它提供了終端機介面來瀏覽目錄結構的方式、以此來快速瀏覽目錄結構,同時能夠顯示每個目錄或檔案的大小,方便使用者找到佔用大量空間的目錄和文件。
Locust 是一個開源的壓力測試工具,它能幫助我們模擬大量使用者對 Web 應用、API 服務進行負載測試;與傳統的壓力測試工具相比,Locust 具有可客製化、可擴展的優勢 —— 簡單來說,它支持 Python 作為腳本語言,根據我們 API 或網頁服務的不同應用場景來寫測試。
Read More »[Python] 使用 Locust 開源壓力測試框架進行壓力測試多模態大型語言模型(Multi-Modal Large Language Model)是一種不侷限於文字的語言模型,我知道這聽起來很衝突,不過這算是目前大家普遍接受的一種稱呼;而我今天想要紀錄的,就是該怎麼使用一個腳本就進行多模態模型的微調。
Read More »使用 SFTTrainer 微調多模態大型語言模型筆記(以 LLaVa-1.5 為例)今年以來,我因為工作的緣故,嘗試了自己跳下來進行資料的標註;這一標註之下,這才切身體會到的了訓練資料對於 AI 模型的影響有多麼徹底。
Read More »『人們所說的常識,只是年少時所學習到的偏見』—— AI 模型的訓練資料也是如此