Skip to content

Blog

[NLP] BLEU 計算相似度

BLEU 是一種評估文字相似度的演算法,經常用於評估『機器翻譯』與『人工翻譯』之間的相似度。最近由於有比對文句之間相似度與否的需求,故在他人推薦之夏稍微研究了一下 BLEU 的原理,同時試用了 NLTK 中提供的 BLEU 函式。

Read More »[NLP] BLEU 計算相似度

[工具] CP950 轉換 Unicode 編碼的工具推薦: convertz

一直以來當我在使用 Python 進行程式開發的時候,若是處理文檔,經常會遇到他人從 Windows 上編輯的檔案直接丟到我 Linux 的伺服器上等待著接受處理。

但這種時候,最討厭的是一打開文件裡面全都是亂碼。畢竟 Windows 的電腦預設的中文編碼為 Big-5,也就是 cp950,而在 Linux 上幾乎全都是預設 Unicode 的編碼。

Read More »[工具] CP950 轉換 Unicode 編碼的工具推薦: convertz