Skip to content

[Machine Learning] LLM 架構視覺化教學網站 LLM Visualization 分享

介紹

我雖然整天都在看 AI 的東西,但是 AI 中各式各樣的『架構』、『突破』、『理論』實在是太多太多了,很多東西我都是模模糊糊地知道個大概,了解了觀念就放在一邊。大部分徹地深入的認識,通通都是等到實戰時,必須自己跳下去親手改架構時才會領悟。

最近這一年來很紅的『大型語言模型』(Large Language Model, LLM)也正是如此。我自然知道大部分都是 decoder-only 架構,少部份是 encoder-decoder 架構,並了解幾乎都是 auto-regressive model。

但是要我突然介紹 Llama 2 的架構?或許我還可以憑著記憶告訴你它對於本來的 Transformer 做了哪些改動。

要我突然介紹 Mistral 的特別之處?我也可以說說滑動窗口注意力機制(SAW)其實早就有了, Mistral 強大的秘訣可能在高品質的資料集……

但要我細說模型的詳細架構,資料從輸入的那一刻起抵達最後的 LM head 輸出的過程?天哪!我可能可以給你個流程圖,但是沒有 Google,我連詳細的模型架構圖都畫不出來。

而就在今天,同事分享給了我一個很酷的網站:LLM Visualization (bbycroft.net)

這是一個經典 GPT 架構的 3D 化圖示網站!除了有詳細的 3D 模型架構外,作者甚至做了一系列的教學,可以透過點擊畫面左側的解說播放鍵,讓 3D 模型架構動起來,模擬好像真的資料輸入進模型後模型開始處理這些資料。

不僅讓人對模型架構一目了然,也能輕鬆搞懂這些不同的模型究竟做了哪些事情。

除此之外,由於他是 1:1 還原原本模型的量級的,所以你可以橫向對比,看到在能夠一覽無遺 GPT-3(175B 的參數量)時,現在上方圖示所看到的 nano-gpt 簡直就像砂礫一般渺小!

我試著跑過了幾個範例的動畫,感覺有了一些不錯的收穫。另外,以後我終於可以把這個網站丟到我家人或是朋友的臉上,告訴他們我每天都在跟這些東西打交道了。


References


Read More

Leave a Reply