Skip to content

Blog

[PyTorch] 如何使用 Hugging Face 所提供的 Transformers —— 以 BERT 為例

2018 年年底,以 BERT 為首等 Transformer 模型席捲了各大 NLP 競賽的排行榜,並幾乎都有著相當優異的表現。一直以來我都對 BERT 等 Transformer 模型充滿了興趣,故今天便開始動手紀錄該如何使用 Hugging Face 所開發的 Transformers 套件。

Read More »[PyTorch] 如何使用 Hugging Face 所提供的 Transformers —— 以 BERT 為例

[NLP] BLEU 計算相似度

BLEU 是一種評估文字相似度的演算法,經常用於評估『機器翻譯』與『人工翻譯』之間的相似度。最近由於有比對文句之間相似度與否的需求,故在他人推薦之夏稍微研究了一下 BLEU 的原理,同時試用了 NLTK 中提供的 BLEU 函式。

Read More »[NLP] BLEU 計算相似度

[工具] CP950 轉換 Unicode 編碼的工具推薦: convertz

一直以來當我在使用 Python 進行程式開發的時候,若是處理文檔,經常會遇到他人從 Windows 上編輯的檔案直接丟到我 Linux 的伺服器上等待著接受處理。

但這種時候,最討厭的是一打開文件裡面全都是亂碼。畢竟 Windows 的電腦預設的中文編碼為 Big-5,也就是 cp950,而在 Linux 上幾乎全都是預設 Unicode 的編碼。

Read More »[工具] CP950 轉換 Unicode 編碼的工具推薦: convertz