Last Updated on 2024-10-21 by Clay
今天我在吃飯時看到了一部影片(影片附於文末),影片中不像現在很多衝著 AI 這種新穎技術的科技頻道,一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來;而是仔細地,講解了從以前到現在,硬體的規格如何影響演算法(或者稱 AI 模型架構)。
他的觀點:Transformer 很有可能被取代
以下可以算是我對他的訪談所做的一個筆記,裡面參雜了一些我的個人理解,有誤還請不吝指出,感謝!
在計算機架構被提出時,馮諾伊曼架構(Von Neumann architecture)指導了將儲存裝置、記憶體與中央處理器(CPU)分開的概念,一旦當程序需要被執行時,再將其載入記憶體,由中央處理器進行計算。
然而在如今邁入 AI 時代的現在,我們通常會使用 GPU 去進行 AI 模型架構的儲存與計算;但有意思的是,我們耗費大量時間的計算與推理,其實都發生在資料從 GPU HBM 搬遷進 GPU SRAM 的過程,而非真正意義上的計算。
這就是為什麼 FlashAttention 改變了計算邏輯的順序,就可以提高我們感受到的模型計算效率:實際上 FlashAttention 改變的是 AI 模型權重(weights)搬遷的請求數。
所以我們進入 AI 真正要落地應用的時代(我感覺我們現在正在其前夕了),『儲存模型權重』、『進行模型矩陣運算』的這兩塊硬體裝置很有可能是不應該再區分的了,也就是所謂的『存算一體』架構。我們把 AI 模型儲存進的位置,不單單是記憶體,同時也是計算裝置,我們把在不同硬體之間搬遷的時間省下來。
這個構想很久之前就有人提出了,我直到最近才想清楚這麼做的價值是多麼巨大,慚愧。
好,回到我們的重點:Transformer 是否會被取代?訪談者認為,一直以來都是我們配合著硬體去設計演算法提昇效率,所以在『存算一體』的架構興起後,也會有取代 Transformer 的新架構出現,這是未來的趨勢。
在我的感覺中,他講的 Transformer 會被取代或許更多指的是自迴歸模型(Auto-regressive Model)會被取代?那到時候我們會看到什樣的模型呢?
我反覆思考了許久,不確定什麼樣的模型架構才是適合『存算一體』的新型態,這也是因為我對存算一體架構『能做到的事情』與『瓶頸』並沒有那麼熟悉,但可以確定的是,只要是『矩陣運算』形式的計算機程式基本都會一起得道昇天。
我更多想到的,是現在的模型架構,有哪些是為了計算效率所做出的妥協呢?之前我才剛看了一篇論文,裡面提到了現在所使用的 Causal Attention 其實是非必要的,其實可以使用 Encoder 架構來做 Auto-regression 任務(我的筆記如下:[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION)。
當然,我並不是說 Transformer 架構在未來一定存在;事實上,我傾向現在 Transformer 的許多模型可能會有所變化,可能替換掉某些 Transformer 的元件、也有可能把 Transformer 的元件移動給其他模型架構。
不過總歸來講,與 AI 訓練、推理等等領域相比,我在硬體上的鑽研實在是不夠,或許該好好找時間,把量子計算、光子計算、存算一體、腦機計算… 等等熱門領域都仔細理解一下了。