[Machine Learning] LLM 架構視覺化教學網站 LLM Visualization 分享

Last Updated on 2023-12-06 by Clay

介紹

我雖然整天都在看 AI 的東西，但是 AI 中各式各樣的『架構』、『突破』、『理論』實在是太多太多了，很多東西我都是模模糊糊地知道個大概，了解了觀念就放在一邊。大部分徹地深入的認識，通通都是等到實戰時，必須自己跳下去親手改架構時才會領悟。

最近這一年來很紅的『大型語言模型』（Large Language Model, LLM）也正是如此。我自然知道大部分都是 decoder-only 架構，少部份是 encoder-decoder 架構，並了解幾乎都是 auto-regressive model。

但是要我突然介紹 Llama 2 的架構？或許我還可以憑著記憶告訴你它對於本來的 Transformer 做了哪些改動。

要我突然介紹 Mistral 的特別之處？我也可以說說滑動窗口注意力機制（SAW）其實早就有了， Mistral 強大的秘訣可能在高品質的資料集……

但要我細說模型的詳細架構，資料從輸入的那一刻起抵達最後的 LM head 輸出的過程？天哪！我可能可以給你個流程圖，但是沒有 Google，我連詳細的模型架構圖都畫不出來。

而就在今天，同事分享給了我一個很酷的網站：LLM Visualization (bbycroft.net)

這是一個經典 GPT 架構的 3D 化圖示網站！除了有詳細的 3D 模型架構外，作者甚至做了一系列的教學，可以透過點擊畫面左側的解說播放鍵，讓 3D 模型架構動起來，模擬好像真的資料輸入進模型後模型開始處理這些資料。

不僅讓人對模型架構一目了然，也能輕鬆搞懂這些不同的模型究竟做了哪些事情。

除此之外，由於他是 1:1 還原原本模型的量級的，所以你可以橫向對比，看到在能夠一覽無遺 GPT-3（175B 的參數量）時，現在上方圖示所看到的 nano-gpt 簡直就像砂礫一般渺小！

我試著跑過了幾個範例的動畫，感覺有了一些不錯的收穫。另外，以後我終於可以把這個網站丟到我家人或是朋友的臉上，告訴他們我每天都在跟這些東西打交道了。