Skip to content

一點思考:Transformer 在未來是否會被取代?

Last Updated on 2024-10-21 by Clay

今天我在吃飯時看到了一部影片(影片附於文末),影片中不像現在很多衝著 AI 這種新穎技術的科技頻道,一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來;而是仔細地,講解了從以前到現在,硬體的規格如何影響演算法(或者稱 AI 模型架構)。


他的觀點:Transformer 很有可能被取代

以下可以算是我對他的訪談所做的一個筆記,裡面參雜了一些我的個人理解,有誤還請不吝指出,感謝!

在計算機架構被提出時,馮諾伊曼架構Von Neumann architecture)指導了將儲存裝置、記憶體與中央處理器(CPU)分開的概念,一旦當程序需要被執行時,再將其載入記憶體,由中央處理器進行計算。

引用自 Wikipedia: https://zh.wikipedia.org/zh-tw/%E5%86%AF%E8%AF%BA%E4%BC%8A%E6%9B%BC%E7%BB%93%E6%9E%84#/media/File:Von_Neumann_Architecture.svg

然而在如今邁入 AI 時代的現在,我們通常會使用 GPU 去進行 AI 模型架構的儲存與計算;但有意思的是,我們耗費大量時間的計算與推理,其實都發生在資料從 GPU HBM 搬遷進 GPU SRAM 的過程,而非真正意義上的計算。

這就是為什麼 FlashAttention 改變了計算邏輯的順序,就可以提高我們感受到的模型計算效率:實際上 FlashAttention 改變的是 AI 模型權重(weights)搬遷的請求數。

引用自 https://github.com/Dao-AILab/flash-attention/blob/main/assets/flashattn_banner.jpg

所以我們進入 AI 真正要落地應用的時代(我感覺我們現在正在其前夕了),『儲存模型權重』、『進行模型矩陣運算』的這兩塊硬體裝置很有可能是不應該再區分的了,也就是所謂的『存算一體』架構。我們把 AI 模型儲存進的位置,不單單是記憶體,同時也是計算裝置,我們把在不同硬體之間搬遷的時間省下來

這個構想很久之前就有人提出了,我直到最近才想清楚這麼做的價值是多麼巨大,慚愧。

好,回到我們的重點:Transformer 是否會被取代?訪談者認為,一直以來都是我們配合著硬體去設計演算法提昇效率,所以在『存算一體』的架構興起後,也會有取代 Transformer 的新架構出現,這是未來的趨勢。

在我的感覺中,他講的 Transformer 會被取代或許更多指的是自迴歸模型(Auto-regressive Model)會被取代?那到時候我們會看到什樣的模型呢?

我反覆思考了許久,不確定什麼樣的模型架構才是適合『存算一體』的新型態,這也是因為我對存算一體架構『能做到的事情』與『瓶頸』並沒有那麼熟悉,但可以確定的是,只要是『矩陣運算』形式的計算機程式基本都會一起得道昇天。

我更多想到的,是現在的模型架構,有哪些是為了計算效率所做出的妥協呢?之前我才剛看了一篇論文,裡面提到了現在所使用的 Causal Attention 其實是非必要的,其實可以使用 Encoder 架構來做 Auto-regression 任務(我的筆記如下:[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION)。

當然,我並不是說 Transformer 架構在未來一定存在;事實上,我傾向現在 Transformer 的許多模型可能會有所變化,可能替換掉某些 Transformer 的元件、也有可能把 Transformer 的元件移動給其他模型架構。

不過總歸來講,與 AI 訓練、推理等等領域相比,我在硬體上的鑽研實在是不夠,或許該好好找時間,把量子計算、光子計算、存算一體、腦機計算... 等等熱門領域都仔細理解一下了。


References


Read More

Tags:

Leave a Reply