PyTorch

[已解決] Mistral 經過 SFTTrainer 微調後不會輸出 eos_token `<|im_end|>`

Clay
2023-12-312024-02-20
Machine Learning, PyTorch

問題描述

HuggingFace 之前曾經發表過文章表示現在的 LLM最好是依照 ChatML 格式去訓練，在一般情況下，會按照 system、user、assistant 的三種不同角色來進行生成，格式如下：

Direct Preference Optimization (DPO) 訓練方法筆記

Clay
2023-12-262024-02-29
Machine Learning, Python, PyTorch

介紹

DPO（Direct Preference Optimization, 直接偏好優化）是一種取代 RLHF（Reinforcement Learning from Human Feedback, 基於人類反饋的強化學習）的微調方式。眾所皆知，大型語言模型在經過非監督式學習後能夠學習到大量的知識與理解能力（有些研究者認為是『壓縮並保存』了知識在神經網路權重中）；在監督式學習後學會了流暢地回應我們的問題，或者說是學會了『對話』的能力。

[PyTorch] 將模型刪除後，釋放 GPU / CPU 的記憶體空間

Clay
2023-12-122023-12-12
Python, PyTorch

問題描述

昨晚，我在改進一段將模型融合的程式碼時，由於個人設備資源不足，我採取分層合併的方法，一次只取一層的記憶體進行合併，以此減少系統同時保存的模型記憶體大小。然而，我發現模型雖然在 GPU 中的記憶體很容易被刪除、但是 CPU 中的記憶體被回收是十分不容易的。這涉及到了 Python 的資源回收器的設計。

使用 vLLM 進行大型語言模型（LLM）的高速推理

Clay
2023-12-102023-12-14
Machine Learning, Python, PyTorch

介紹

vLLM 是加州柏克萊分校所開發的一種大型語言模型（Large Language Model, LLM）加速推理框架。它主要是利用 PagedAttention 機制提高了 GPU VRAM 的使用率，並且這一方法無須更改模型的架構。

[已解決][PyTorch] 編譯（compile）後模型權重多出 “_orig_mod” 的前綴問題

Clay
2023-12-032023-12-04
Machine Learning, Python, PyTorch

問題描述

在 2023 年初，PyTorch 的 2.0 版本新增了一個 torch.compile() 的新功能，讓我們能夠在模型訓練/推理時能夠進一步提昇速度。與混合精度訓練的協同工作，經常能使我的訓練速度提昇一倍左右。

[PyTorch] 遍歷模型每一層神經網路筆記

Clay
2023-09-122023-09-12
Machine Learning, PyTorch

介紹

最近在因緣際會下，有了簡單改一些模型架構的機會，於是便趁這個機會好好地摸索了下 PyTorch 中模型神經網路層的遍歷打印方式。

an artist s illustration of artificial intelligence ai this image represents how machine learning is inspired by neuroscience and the human brain it was created by novoto studio as par

[論文閱讀] The Forward-Forward Algorithm: Some Preliminary Investigation

Clay
2023-09-042023-09-04
Machine Learning

介紹

論文連結： https://arxiv.org/abs/2212.13345

本篇研究工作的作者是鼎鼎大名的深度學習之父 Geoffrey Hinton，最初撰寫本篇論文時仍是 Google Brain 的研究員（於 2023 年離開）。

ImageBind：能轉換多模態向量的模型使用心得筆記

Clay
2023-05-292023-05-29
Machine Learning

前言

最近的 Meta AI 真的是強到不行，似乎一瞬間站穩了 AI 研發巨擘的地位，而且還是樣樣開源的頂級標竿。從影像領域的能切割物件的 Segment Anything、到公開大型語言模型（Large Language Model）同時也是基石模型（fundational model）的 LLaMA（引起眾羊駝之亂的就是它！）、到最近能轉換 6 種模態（modals）的 ImageBind 跟語音模型計畫（MMS）…… 只能說像我這種平凡人要努力跟上怎麼去使用都很費勁，更遑論試圖追逐他們的技術了。