Skip to content

Blog

[Python] 使用 ShuffleSplit() 進行 cross-validation

Cross-validation (交叉驗證) 是機器學習中『切割資料』的一個重要的觀念。簡單來說,當我們訓練一個模型時,我們通常會將資料分成『訓練資料』(Training data) 和『測試資料』(Test data),然後我們使用訓練資料訓練模型、並使用模型從來沒見過的測試資料評估模型的好壞。

Read More »[Python] 使用 ShuffleSplit() 進行 cross-validation

[Linux] sh 和 bash 之間的差異

在我們操作 Linux 系統的時候,我們經常會使用 "sh" 這個指令來執行一些副檔名為 .sh 的檔案,這些 .sh 的檔案都是所謂的 Shell script,也就是在 Linux 系統當中常見的腳本檔案,透過在腳本中撰寫指令,並使用解釋器執行,就能完成各式各樣的功能,比方說資料處理、自動化執行、管理系統資源 ...... 而且寫成腳本檔之後就可以在有需求的時候直接執行,不用再重複編寫指令。

Read More »[Linux] sh 和 bash 之間的差異

[PyTorch] nn.Embedding() 讀取 Gensim 預訓練模型權重方法筆記

使用 PyTorch 搭建關於自然語言處理相關任務的人,想必都對 PyTorch 當中的 nn.Embedding() 不陌生。nn.Embedding() 是 PyTorch 當中的一個嵌入層,可以讓我們將不同的詞編號之後放入,並產生一組我們可以任意指定的向量回傳。

Read More »[PyTorch] nn.Embedding() 讀取 Gensim 預訓練模型權重方法筆記