Skip to content

24 9 月, 2019

[NLP][Python] 透過 opencc-python-reimplemented 套件來使用中文繁簡轉換工具 OpenCC

Last Updated on 2021-03-31 by Clay

在處理各式各樣的 NLP 任務當中,難免會遇到有工具針對繁體、或簡體特別適合的情況 —— 畢竟這可能跟訓練語料有關。這時候,我們很有可能會需要能自動幫我們轉換中文簡繁的工具。而在 Python 當中,我覺得最方便的工具非 OpenCC 莫屬。

Read More »[NLP][Python] 透過 opencc-python-reimplemented 套件來使用中文繁簡轉換工具 OpenCC

[NLP][Python] 透過 ckiptagger 來使用繁體中文斷詞的最佳工具 CKIP

Last Updated on 2021-03-30 by Clay

在繁體中文的自然語言處理(NLP)當中,CKIP 無疑是斷詞最精準、最負盛名的工具。這項工具是由台灣中研院資訊所、語言所於民國 75 年成立的中文語言言小組所開發,也在多個中文斷詞的比賽當中得過獎項。

之前由於 CKIP 一直沒有開源,導致需要前往官方的 Demo 網站試用( https://ckip.iis.sinica.edu.tw/demo/ ),或者是寄信取得授權,可以使用下載版的 CKIP 一個月,看是要直接使用 bat 檔,或是使用 Python 另外調用。

Read More »[NLP][Python] 透過 ckiptagger 來使用繁體中文斷詞的最佳工具 CKIP