10 月 2024

[Python] FastAPI 使用 Server-Sent Events (SSE) 進行串流回覆

Clay
2024-10-312024-11-01
Python

Last Updated on 2024-11-01 by Clay

最近建立了許多 Chatbot 的後台 API Server，一開始我是接收到使用者的訊息後回傳，將 LLM 的生成回覆一口氣顯示在前端界面，但這樣使用者體驗並不好；之後改成了 HTTP 串流，每生成一個 Token 就回傳前端界面，但後來發現在部份使用者的裝置上會發生黏包，所以最後改成了使用 WebSocket。

Clay
2024-10-302024-10-30
AI, Machine Learning

Last Updated on 2024-10-30 by Clay

在大型語言模型的解碼過程中，尤其是自迴歸模型（Auto-regressive model），勢必得一次次地解碼直到生成整個序列為止，在這之中存在著一些 cache 的技巧，能夠幫助模型減少計算量、提昇解碼速度；而這個技巧就被稱為 KV Cache。

Clay
2024-10-282024-10-28
AI, Machine Learning

Last Updated on 2024-10-28 by Clay

在大家透過 LLM 架設各種服務時，是否會煩惱 LLM 經常生成一些不受控制的言論？最近我的工作正在專案收尾的緊要關頭，我使用了 Outlines 等工具用以約束 LLM 解碼，確實能控制模型生成符合我想項中的模式 —— 但我同事突然對我發出靈魂一問：那我想要它不生成某些詞彙該怎麼辦？

Clay
2024-10-232024-10-23
AI, Machine Learning

Last Updated on 2024-10-23 by Clay

一直以來，我都只用個大概的公式去推估我的模型量級與我的 GPU VRAM 開銷之間關聯；畢竟這之間牽扯到的變數實在太多了，光是模型架構、層數、注意力機制實現、序列長度、Batch Size、訓練或推理採用的資料精度… 在在都影響我們最後計算的結果。

Clay
2024-10-212024-10-21
AI, 隨筆

Last Updated on 2024-10-21 by Clay

今天我在吃飯時看到了一部影片（影片附於文末），影片中不像現在很多衝著 AI 這種新穎技術的科技頻道，一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來；而是仔細地，講解了從以前到現在，硬體的規格如何影響演算法（或者稱 AI 模型架構）。

Clay
2024-10-182024-10-19
AI, Machine Learning

Last Updated on 2024-10-19 by Clay

之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky Optimization（KTO）的 LLM 微調方式（實際上跟 DPO 相似是一種價值觀對齊方式），因為其準備資料的格式比起 DPO 實在太方便了，目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。

Clay
2024-10-152024-10-16
AI, Machine Learning, Papers

Last Updated on 2024-10-16 by Clay

以下是這篇論文的一些重點摘要：

Clay
2024-10-112024-10-11
Linux

Last Updated on 2024-10-11 by Clay

ncdu 是一個基於 NCurses 的磁碟空間使用分析工具，主要用於檢視與管理磁碟空間；它提供了終端機介面來瀏覽目錄結構的方式、以此來快速瀏覽目錄結構，同時能夠顯示每個目錄或檔案的大小，方便使用者找到佔用大量空間的目錄和文件。

Clay
2024-10-092024-10-23
3 Comments
Python

Last Updated on 2024-10-23 by Clay

Locust 是一個開源的壓力測試工具，它能幫助我們模擬大量使用者對 Web 應用、API 服務進行負載測試；與傳統的壓力測試工具相比，Locust 具有可客製化、可擴展的優勢 —— 簡單來說，它支持 Python 作為腳本語言，根據我們 API 或網頁服務的不同應用場景來寫測試。

Clay
2024-10-072024-10-07
AI, Machine Learning, PyTorch

Last Updated on 2024-10-07 by Clay

多模態大型語言模型（Multi-Modal Large Language Model）是一種不侷限於文字的語言模型，我知道這聽起來很衝突，不過這算是目前大家普遍接受的一種稱呼；而我今天想要紀錄的，就是該怎麼使用一個腳本就進行多模態模型的微調。

10 月 2024

[Python] FastAPI 使用 Server-Sent Events (SSE) 進行串流回覆

KV Cache: 一種加速 Transformer 模型生成速度的暫存機制

使用有限狀態機（FSM）和回滾（Rollback）機制控制 LLM 禁止生成禁止詞彙（Banned-Words）

訓練、推理 AI 模型的 VRAM 開銷計算筆記

一點思考：Transformer 在未來是否會被取代？

KTOTrainer（Kahneman-Tversky Optimization Trainer）筆記

[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION

[Linux] ncdu 磁碟空間使用分析工具筆記

[Python] 使用 Locust 開源壓力測試框架進行壓力測試

使用 SFTTrainer 微調多模態大型語言模型筆記（以 LLaVa-1.5 為例）

2024 年 10 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31