Last Updated on 2021-07-06 by Clay
GRU (Gate Recurrent Unit),我個人並不確定其是否存在著中文譯名。它與 LSTM 同樣為 RNN (循環神經網路) 的變體,也與 LSTM 同樣旨在解決 RNN 當中存在著的梯度問題。
與 1997 年提出的 LSTM 相比,2014 年提出的 GRU 明顯新得多。在實際使用上,我觀察到 (體感上) GRU 比 LSTM 訓速度更快,而且分數也沒有比較差 (至少觀察不出來)。
那麼以下,我就按照 GRU 神經元中數值流動的流向進行紀錄。
GRU 架構
基本上進入神經元的輸入只有兩種:由訓練資料輸入的特徵 Xt、以及前一個神經元傳入的 ht-1 (若是 h0 則預設為全零向量) —— 然後由三條路徑組成了最後輸出路徑。
基本上公式跟圖解的看法與 LSTM 的看法一模一樣 (我會附上連結於文末),但是可以發現計算簡單許多。
References
- https://jhui.github.io/2017/03/15/RNN-LSTM-GRU/
- https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be
- https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21