一點思考：Transformer 在未來是否會被取代？

Last Updated on 2024-10-21 by Clay

今天我在吃飯時看到了一部影片（影片附於文末），影片中不像現在很多衝著 AI 這種新穎技術的科技頻道，一上來就把 AI、經濟、取代人類等等議題一股腦地拋出來；而是仔細地，講解了從以前到現在，硬體的規格如何影響演算法（或者稱 AI 模型架構）。

他的觀點：Transformer 很有可能被取代

以下可以算是我對他的訪談所做的一個筆記，裡面參雜了一些我的個人理解，有誤還請不吝指出，感謝！

在計算機架構被提出時，馮諾伊曼架構（Von Neumann architecture）指導了將儲存裝置、記憶體與中央處理器（CPU）分開的概念，一旦當程序需要被執行時，再將其載入記憶體，由中央處理器進行計算。

引用自 Wikipedia: https://zh.wikipedia.org/zh-tw/%E5%86%AF%E8%AF%BA%E4%BC%8A%E6%9B%BC%E7%BB%93%E6%9E%84#/media/File:Von_Neumann_Architecture.svg

然而在如今邁入 AI 時代的現在，我們通常會使用 GPU 去進行 AI 模型架構的儲存與計算；但有意思的是，我們耗費大量時間的計算與推理，其實都發生在資料從 GPU HBM 搬遷進 GPU SRAM 的過程，而非真正意義上的計算。

這就是為什麼 FlashAttention 改變了計算邏輯的順序，就可以提高我們感受到的模型計算效率：實際上 FlashAttention 改變的是 AI 模型權重（weights）搬遷的請求數。

引用自 https://github.com/Dao-AILab/flash-attention/blob/main/assets/flashattn_banner.jpg

所以我們進入 AI 真正要落地應用的時代（我感覺我們現在正在其前夕了），『儲存模型權重』、『進行模型矩陣運算』的這兩塊硬體裝置很有可能是不應該再區分的了，也就是所謂的『存算一體』架構。我們把 AI 模型儲存進的位置，不單單是記憶體，同時也是計算裝置，我們把在不同硬體之間搬遷的時間省下來。

這個構想很久之前就有人提出了，我直到最近才想清楚這麼做的價值是多麼巨大，慚愧。

好，回到我們的重點：Transformer 是否會被取代？訪談者認為，一直以來都是我們配合著硬體去設計演算法提昇效率，所以在『存算一體』的架構興起後，也會有取代 Transformer 的新架構出現，這是未來的趨勢。

在我的感覺中，他講的 Transformer 會被取代或許更多指的是自迴歸模型（Auto-regressive Model）會被取代？那到時候我們會看到什樣的模型呢？

我反覆思考了許久，不確定什麼樣的模型架構才是適合『存算一體』的新型態，這也是因為我對存算一體架構『能做到的事情』與『瓶頸』並沒有那麼熟悉，但可以確定的是，只要是『矩陣運算』形式的計算機程式基本都會一起得道昇天。

我更多想到的，是現在的模型架構，有哪些是為了計算效率所做出的妥協呢？之前我才剛看了一篇論文，裡面提到了現在所使用的 Causal Attention 其實是非必要的，其實可以使用 Encoder 架構來做 Auto-regression 任務（我的筆記如下：[論文閱讀] ENTP: ENCODER-ONLY NEXT TOKEN PREDICTION）。

當然，我並不是說 Transformer 架構在未來一定存在；事實上，我傾向現在 Transformer 的許多模型可能會有所變化，可能替換掉某些 Transformer 的元件、也有可能把 Transformer 的元件移動給其他模型架構。

不過總歸來講，與 AI 訓練、推理等等領域相比，我在硬體上的鑽研實在是不夠，或許該好好找時間，把量子計算、光子計算、存算一體、腦機計算... 等等熱門領域都仔細理解一下了。

References

『人們所說的常識，只是年少時所學習到的偏見』—— AI 模型的訓練資料也是如此

一點思考：Transformer 在未來是否會被取代？

他的觀點：Transformer 很有可能被取代

References

Read More

Leave a Reply取消回覆

一點思考：Transformer 在未來是否會被取代？

他的觀點：Transformer 很有可能被取代

References

Read More

分享此文：

Leave a Reply取消回覆