Skip to content

Machine Learning

[Python] 使用 ShuffleSplit() 進行 cross-validation

Cross-validation (交叉驗證) 是機器學習中『切割資料』的一個重要的觀念。簡單來說,當我們訓練一個模型時,我們通常會將資料分成『訓練資料』(Training data) 和『測試資料』(Test data),然後我們使用訓練資料訓練模型、並使用模型從來沒見過的測試資料評估模型的好壞。

Read More »[Python] 使用 ShuffleSplit() 進行 cross-validation

[PyTorch] nn.Embedding() 讀取 Gensim 預訓練模型權重方法筆記

使用 PyTorch 搭建關於自然語言處理相關任務的人,想必都對 PyTorch 當中的 nn.Embedding() 不陌生。nn.Embedding() 是 PyTorch 當中的一個嵌入層,可以讓我們將不同的詞編號之後放入,並產生一組我們可以任意指定的向量回傳。

Read More »[PyTorch] nn.Embedding() 讀取 Gensim 預訓練模型權重方法筆記

[PyTorch] 如何使用 Hugging Face 所提供的 Transformers —— 以 BERT 為例

2018 年年底,以 BERT 為首等 Transformer 模型席捲了各大 NLP 競賽的排行榜,並幾乎都有著相當優異的表現。一直以來我都對 BERT 等 Transformer 模型充滿了興趣,故今天便開始動手紀錄該如何使用 Hugging Face 所開發的 Transformers 套件。

Read More »[PyTorch] 如何使用 Hugging Face 所提供的 Transformers —— 以 BERT 為例