Skip to content

關於 GRU 的圖解概論筆記

GRU (Gate Recurrent Unit),我個人並不確定其是否存在著中文譯名。它與 LSTM 同樣為 RNN (循環神經網路) 的變體,也與 LSTM 同樣旨在解決 RNN 當中存在著的梯度問題。

與 1997 年提出的 LSTM 相比,2014 年提出的 GRU 明顯新得多。在實際使用上,我觀察到 (體感上) GRU 比 LSTM 訓速度更快,而且分數也沒有比較差 (至少觀察不出來)。

那麼以下,我就按照 GRU 神經元中數值流動的流向進行紀錄。


GRU 架構

基本上進入神經元的輸入只有兩種:由訓練資料輸入的特徵 Xt、以及前一個神經元傳入的 ht-1 (若是 h0 則預設為全零向量) —— 然後由三條路徑組成了最後輸出路徑。

基本上公式跟圖解的看法與 LSTM 的看法一模一樣 (我會附上連結於文末),但是可以發現計算簡單許多。


References


Read More

Leave a Reply