一點思考:Transformer 在未來是否會被取代?
今天我在吃飯時看到了一部影片(影片附於文末),影片中不像現在很多衝著 AI 這種新穎技術的科技頻道,一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來;而是仔細地,講解了從以前到現在,硬體的規格如何影響演算法(或者稱 AI 模型架構)。
Read More »一點思考:Transformer 在未來是否會被取代?今天我在吃飯時看到了一部影片(影片附於文末),影片中不像現在很多衝著 AI 這種新穎技術的科技頻道,一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來;而是仔細地,講解了從以前到現在,硬體的規格如何影響演算法(或者稱 AI 模型架構)。
Read More »一點思考:Transformer 在未來是否會被取代?之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky Optimization(KTO)的 LLM 微調方式(實際上跟 DPO 相似是一種價值觀對齊方式),因為其準備資料的格式比起 DPO 實在太方便了,目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。
Read More »KTOTrainer(Kahneman-Tversky Optimization Trainer)筆記多模態大型語言模型(Multi-Modal Large Language Model)是一種不侷限於文字的語言模型,我知道這聽起來很衝突,不過這算是目前大家普遍接受的一種稱呼;而我今天想要紀錄的,就是該怎麼使用一個腳本就進行多模態模型的微調。
Read More »使用 SFTTrainer 微調多模態大型語言模型筆記(以 LLaVa-1.5 為例)今年以來,我因為工作的緣故,嘗試了自己跳下來進行資料的標註;這一標註之下,這才切身體會到的了訓練資料對於 AI 模型的影響有多麼徹底。
Read More »『人們所說的常識,只是年少時所學習到的偏見』—— AI 模型的訓練資料也是如此深度神經網路訓練、微調的過程中,最重要也最稀缺的資源讓我來說肯定是 GPU 的 VRAM,所以讓每一位元真正發揮它的能力是非常重要的事情。
Read More »深度學習中不同精度表示的差異 float32、float16、float8 和 bfloat16最近我透過微調 Gemma-2 獲得了一些應用的不錯結果,然而卻在佈署上客戶的設備時發生各式各樣的錯誤,搞得我焦頭爛額的,目前網路上還沒有一個比較系統化的疑難雜症排除,故紀錄於此。
Read More »使用 vLLM 在 V100 GPU 上加速推理 Gemma-2 疑難雜症排除在將大型語言模型(Large Language Model, LLM)應用於實際場景時,經常不僅僅是讓模型自由發揮、任意生成文句 —— 我們也可能會希望模型返回特定的結構,比方說做選擇題、或是給一個評分。在這樣的情況下,transformers 架構的模型可以直接使用 outlines 這個工具。
Read More »使用 Outlines 工具結構化模型的輸出現在 LLM 的服務已經涵蓋了各式各樣的領域,而提示注入(Prompt Injection)和越獄(Jailbreak)對 LLM 的威脅也是與日俱增,幾個月前甚至有客服 LLM 給了客戶錯誤的資訊導致權益受損呢(雖然那不是 Prompt 攻擊造成的)。
而 Microsoft 所開源的 BIPIA(Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models)評估方法,雖然已經是半年前的測試了,到現在也沒什麼大更新,但是應用在我手邊的任務中,仍不失為一個方便簡潔的測試方法。
Read More »使用 Microsoft BIPIA 框架評估 LLM 防禦能力Cross-lingual Modular (X-Mod) 是一個有趣的語言模型架構,透過模組化不同語言的參數作為模組單元(Module Unit)組裝在模型中,好讓語言模型在新增全新語言時,可以使用獨立的參數進行微調,而(比較)不會出現災難性遺忘的窘境。
Read More »[論文閱讀] Lifting the Curse of Multilinguality by Pre-training Modular Transformers