使用 vLLM 進行大型語言模型(LLM)的高速推理
介紹
vLLM 是加州柏克萊分校所開發的一種大型語言模型(Large Language Model, LLM)加速推理框架。它主要是利用 PagedAttention 機制提高了 GPU VRAM 的使用率,並且這一方法無須更改模型的架構。
Read More »使用 vLLM 進行大型語言模型(LLM)的高速推理vLLM 是加州柏克萊分校所開發的一種大型語言模型(Large Language Model, LLM)加速推理框架。它主要是利用 PagedAttention 機制提高了 GPU VRAM 的使用率,並且這一方法無須更改模型的架構。
Read More »使用 vLLM 進行大型語言模型(LLM)的高速推理今天我替一台新的 MSI 筆電嘗試安裝 Ubuntu 來取代原本的系統,然而我在安裝程序來到需要選擇磁區的地方時出了錯誤。系統訊息提醒我,在當前的裝置上找不到任何硬碟。
Read More »[已解決][Linux] MSI 筆電安裝 Ubuntu 時找不到硬碟 - 可能由於 RAID (Intel RST) 引起的異常我雖然整天都在看 AI 的東西,但是 AI 中各式各樣的『架構』、『突破』、『理論』實在是太多太多了,很多東西我都是模模糊糊地知道個大概,了解了觀念就放在一邊。大部分徹地深入的認識,通通都是等到實戰時,必須自己跳下去親手改架構時才會領悟。
Read More »[Machine Learning] LLM 架構視覺化教學網站 LLM Visualization 分享黏滯位(sticky bit)是一個 Unix 與 Unix-like 系統中的一個有趣的應用,它是一個特殊的權限設定,來提供檔案或文件更加細緻的操作。比方說,大家想必都對文件權限很熟悉吧?分別是 rwx(讀取、寫入、可執行)等三種不同的權限。而黏滯位則更進一步,設定了檔案『刪除』與『重新命名』的權利。
Read More »[Linux] 權限中黏滯位(sticky bit)的解釋(chmod 1777)在 2023 年初,PyTorch 的 2.0 版本新增了一個 torch.compile()
的新功能,讓我們能夠在模型訓練/推理時能夠進一步提昇速度。與混合精度訓練的協同工作,經常能使我的訓練速度提昇一倍左右。
今天我在讀取已經被 torch.compile()
之後儲存起來的模型權重,發現模型權重是使用 OrderedDict 資料結構儲存著,而這種結構本身是有序序列,換言之它的資料內容是需要嚴格遵守排序的。
Neo4j 是一個圖形資料庫(Graph Database),跟一般傳統的資料庫相比,圖形資料庫的重點是『圖』,也就是節點(實體/Entity)之間的關係與連接。每個節點可以代表一個對象(如人、事物、地點...),而邊則表示節點之間的關係(如朋友、擁有、位於...)
Read More »Neo4j 圖形資料庫(Graph Database)安裝與透過 Python 調用RAG-based LLM 是當前使用大型語言模型(Large Language Model, LLM)的一種知名架構,也就是通過『檢索』,來給模型提供訓練時所沒有的先驗知識,讓模型能夠在得知特定資訊的情況下進行問題的回答。
Read More »[論文閱讀] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection雖然 Linux 號稱鮮少有駭客散佈病毒,但實際上,Linux 做為穩定的伺服器或開發環境依然是非常有價值、非常具有經濟效益的作業系統 —— 所以雖然相比 Windows 數量較少,但 Linux 還是存在許多惡意軟體或駭客攻擊的。
Read More »[Linux] 開源防毒軟體 ClamAV 的安裝與使用