Machine Learning

[Machine Learning] LLM 架構視覺化教學網站 LLM Visualization 分享

我雖然整天都在看 AI 的東西，但是 AI 中各式各樣的『架構』、『突破』、『理論』實在是太多太多了，很多東西我都是模模糊糊地知道個大概，了解了觀念就放在一邊。大部分徹地深入的認識，通通都是等到實戰時，必須自己跳下去親手改架構時才會領悟。

在 2023 年初，PyTorch 的 2.0 版本新增了一個 torch.compile() 的新功能，讓我們能夠在模型訓練/推理時能夠進一步提昇速度。與混合精度訓練的協同工作，經常能使我的訓練速度提昇一倍左右。

RAG-based LLM 是當前使用大型語言模型（Large Language Model, LLM）的一種知名架構，也就是通過『檢索』，來給模型提供訓練時所沒有的先驗知識，讓模型能夠在得知特定資訊的情況下進行問題的回答。

變分自動編碼器（Variational AutoEncoder, VAE) 是自動編碼器（AutoEncoder, AE）的進階變體，架構與原本的自動編碼器相似，同樣都是由編碼器（Encoder）和解碼器（Decoder）所組成。

CuPy 是一個開源的 GPU 加速數值計算函式庫，專為深度學習以及科學計算而設計。它和 Python 中著名的 NumPy 套件有許多相同的使用方法與函式，但更進一步能夠在 GPU 上執行運算。簡單來說，例如矩陣運算等能夠利用 GPU 平行化計算的用途，CuPy 能夠實現一定程度的加速。

現在的生成式模型越來越厲害的，各個獨立研究人員也都部署起了一個又一個的開源大型語言模型（LLMs）。但是在使用大型語言模型做推理、生成回覆時，要是真要去等待一個比較長的輸出，那是真的挺花時間的。

大模型的浪潮自從 2022 年 11 月 ChatGPT 的發布後便一發不可收拾，直到現在開源的大型語言模型（Large Language Model）的量級還在不斷增大，比方說 LLaMA-2-70B、以及 Falcon-180B 等等。

大型語言模型的性能自然是相當優秀的，可是往往需要耗費大量且價格昂貴的 GPU 記憶體，這使得一些邊緣運算裝置根本就不可能讓模型進行推理（inference） —— 更遑論訓練、微調自己的模型了。

最近在因緣際會下，有了簡單改一些模型架構的機會，於是便趁這個機會好好地摸索了下 PyTorch 中模型神經網路層的遍歷打印方式。

本篇研究工作的作者是鼎鼎大名的深度學習之父 Geoffrey Hinton，最初撰寫本篇論文時仍是 Google Brain 的研究員（於 2023 年離開）。

我們經常會在機器學習中聽到『KL 散度』（Kullback Libler Divergence）這個詞，而 KL 散度其實就是評估兩個機率分佈 P 和 Q 之間『差異性』的一個評估值。