關於 GRU 的圖解概論筆記

Last Updated on 2021-07-06 by Clay

GRU (Gate Recurrent Unit)，我個人並不確定其是否存在著中文譯名。它與 LSTM 同樣為 RNN (循環神經網路) 的變體，也與 LSTM 同樣旨在解決 RNN 當中存在著的梯度問題。

與 1997 年提出的 LSTM 相比，2014 年提出的 GRU 明顯新得多。在實際使用上，我觀察到 (體感上) GRU 比 LSTM 訓速度更快，而且分數也沒有比較差 (至少觀察不出來)。

那麼以下，我就按照 GRU 神經元中數值流動的流向進行紀錄。

GRU 架構

基本上進入神經元的輸入只有兩種：由訓練資料輸入的特徵 Xt、以及前一個神經元傳入的 ht-1 (若是 h0 則預設為全零向量) —— 然後由三條路徑組成了最後輸出路徑。

基本上公式跟圖解的看法與 LSTM 的看法一模一樣 (我會附上連結於文末)，但是可以發現計算簡單許多。