AI

[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION

Clay
2024-10-152024-10-16
AI, Machine Learning, Papers

以下是這篇論文的一些重點摘要：

使用 SFTTrainer 微調多模態大型語言模型筆記（以 LLaVa-1.5 為例）

Clay
2024-10-072024-10-07
AI, Machine Learning, PyTorch

多模態大型語言模型（Multi-Modal Large Language Model）是一種不侷限於文字的語言模型，我知道這聽起來很衝突，不過這算是目前大家普遍接受的一種稱呼；而我今天想要紀錄的，就是該怎麼使用一個腳本就進行多模態模型的微調。

an artist s illustration of artificial intelligence ai this image represents how machine learning is inspired by neuroscience and the human brain it was created by novoto studio as par

『人們所說的常識，只是年少時所學習到的偏見』—— AI 模型的訓練資料也是如此

Clay
2024-10-05
AI

今年以來，我因為工作的緣故，嘗試了自己跳下來進行資料的標註；這一標註之下，這才切身體會到的了訓練資料對於 AI 模型的影響有多麼徹底。

深度學習中不同精度表示的差異 float32、float16、float8 和 bfloat16

Clay
2024-09-202024-09-20
AI, Machine Learning

深度神經網路訓練、微調的過程中，最重要也最稀缺的資源讓我來說肯定是 GPU 的 VRAM，所以讓每一位元真正發揮它的能力是非常重要的事情。

使用 vLLM 在 V100 GPU 上加速推理 Gemma-2 疑難雜症排除

Clay
2024-09-132024-09-13
AI, Machine Learning

問題描述

最近我透過微調 Gemma-2 獲得了一些應用的不錯結果，然而卻在佈署上客戶的設備時發生各式各樣的錯誤，搞得我焦頭爛額的，目前網路上還沒有一個比較系統化的疑難雜症排除，故紀錄於此。

使用 Outlines 工具結構化模型的輸出

Clay
2024-09-022024-09-02
AI, Machine Learning

在將大型語言模型（Large Language Model, LLM）應用於實際場景時，經常不僅僅是讓模型自由發揮、任意生成文句 —— 我們也可能會希望模型返回特定的結構，比方說做選擇題、或是給一個評分。在這樣的情況下，transformers 架構的模型可以直接使用 outlines 這個工具。

使用 Microsoft BIPIA 框架評估 LLM 防禦能力

Clay
2024-08-292024-08-30
AI, Machine Learning

現在 LLM 的服務已經涵蓋了各式各樣的領域，而提示注入（Prompt Injection）和越獄（Jailbreak）對 LLM 的威脅也是與日俱增，幾個月前甚至有客服 LLM 給了客戶錯誤的資訊導致權益受損呢（雖然那不是 Prompt 攻擊造成的）。

而 Microsoft 所開源的 BIPIA（Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models）評估方法，雖然已經是半年前的測試了，到現在也沒什麼大更新，但是應用在我手邊的任務中，仍不失為一個方便簡潔的測試方法。

[論文閱讀] Lifting the Curse of Multilinguality by Pre-training Modular Transformers

Clay
2024-08-132024-08-19
AI, Machine Learning

Cross-lingual Modular (X-Mod) 是一個有趣的語言模型架構，透過模組化不同語言的參數作為模組單元（Module Unit）組裝在模型中，好讓語言模型在新增全新語言時，可以使用獨立的參數進行微調，而（比較）不會出現災難性遺忘的窘境。

HuggingFace Text Generation Inference (TGI) 筆記

Clay
2024-07-312024-07-31
AI, Machine Learning

介紹

HuggingFace 所提供的 TGI (Text Generation Inference) 是一個專門用來佈署、加速 LLM 推理服務的框架，以下是它的架構圖：

使用文字檢索圖像: ColPali 多模態模型簡介

Clay
2024-07-302024-07-31
AI, Machine Learning

介紹

從去年開始我就對多模態（Multi-Modal）的 AI 模型充滿了熱忱與好奇，因為我是堅定不移的 AGI 派，認為 AI 目前的潛力仍然遠遠沒有抵達天花板；而 AI 當前的一大瓶頸與研究方向，自然就是整合了多種不同的模態（文字、圖像、音訊…）的模型應用了。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31