Skip to content

PyTorch

[PyTorch] 將模型刪除後,釋放 GPU / CPU 的記憶體空間

問題描述

昨晚,我在改進一段將模型融合的程式碼時,由於個人設備資源不足,我採取分層合併的方法,一次只取一層的記憶體進行合併,以此減少系統同時保存的模型記憶體大小。然而,我發現模型雖然在 GPU 中的記憶體很容易被刪除、但是 CPU 中的記憶體被回收是十分不容易的。這涉及到了 Python 的資源回收器的設計。

Read More »[PyTorch] 將模型刪除後,釋放 GPU / CPU 的記憶體空間

[已解決][PyTorch] 編譯(compile)後模型權重多出 "_orig_mod" 的前綴問題

問題描述

在 2023 年初,PyTorch 的 2.0 版本新增了一個 torch.compile() 的新功能,讓我們能夠在模型訓練/推理時能夠進一步提昇速度。與混合精度訓練的協同工作,經常能使我的訓練速度提昇一倍左右。

Read More »[已解決][PyTorch] 編譯(compile)後模型權重多出 "_orig_mod" 的前綴問題

[已解決] RuntimeError: CUDA error: device kernel image is invalid - CUDA kernel errors might be asynchronously reported at some other API call...

問題描述

最近我的某項工作就是把之前的舊專案使用 PyTorch Lightning 重構成新的訓練環節,並確保分數並沒有太大變化。其中,在我將某項二分類專案重構後,試跑出現了以下錯誤:

Read More »[已解決] RuntimeError: CUDA error: device kernel image is invalid - CUDA kernel errors might be asynchronously reported at some other API call...

[PyTorch] 保存優化器(optimizer)來接續訓練模型

我一直以來都希望能夠保存 PyTorch 訓練模型時所使用的優化器optimizer),以便能夠在模型結束訓練之後,繼續往下訓練;一般來說,如果是要做遷移學習、微調模型(fine-tune),那麼並不需要特別將上一次訓練的優化器保存下來。

Read More »[PyTorch] 保存優化器(optimizer)來接續訓練模型
Exit mobile version