NLP

自然語言處理

Cosine Similarity (餘弦相似度) 的計算方法及程式碼

Cosine Similarity (餘弦相似度) 是在計算文本相似度時相當常見的一種計算方法，原理也相當易懂，基本上就是計算『兩向量』之間的 Cosine 夾角。

在自然語言處理 (NLP) 的任務中，純文字的資料型態本身是相當難以進行處理的，尤其是在機器學習的任務當中。

試想：今天我們輸入圖像進行分類的訓練，我們可以使用『像素值』代表圖片的特徵進入模型當中進行訓練。但是文字呢？

Word Embedding (詞嵌入) 是自然語言處理 (NLP) 當中經常會使用到的一種『技術』，其核心概念為『將文字轉成數值型態』。這有什麼好處呢？比如說在類神經網路的模型訓練當中，我們沒有辦法直接將『文字』帶入其中進行運算，畢竟類神經網路的基礎建立在神經元通過權重運算輸出結果。

說到『文字雲』(word cloud)，是一個我在研究自然語言處理（NLP）時常常會聽到的名詞。我本來一直以為就是計算詞的頻率，並將『頻率高的字顯示得比較大』而已——其實不然，光是組成的形狀、字該擺放的樣式都是學問，沒有我想得那麼簡單。

說實話，我好久沒用到這個工具了，最近突然有這種需要，便挖出以前研究過的程式碼，並開始尋找是否有我當初沒有測試過的功能，順便紀錄成筆記。

有時候會想，若是當初有像現在這樣紀錄筆記該有多好，能夠留點東西給自己、方便查詢。

HanLp 的全名為 Han Language Processing，根據 Github 的 README 介紹，其由『大快搜尋』開發並且開源於網路上。

HanLP 提供了各式各樣的功能，包括：

以上眾多的功能，我想我肯定還有漏掉的部份。

如果想要參閱這個工具的 Github，請看這邊： https://github.com/hankcs/HanLP

如果想要在線上直接試用這個工具，你也可以去他們在線演示的網站： http://hanlp.com/

以下，我會展示該如何透過 Python 去呼叫這個工具，來完成一些自然語言處理的工作。

在處理各式各樣的 NLP 任務當中，難免會遇到有工具針對繁體、或簡體特別適合的情況 —— 畢竟這可能跟訓練語料有關。這時候，我們很有可能會需要能自動幫我們轉換中文簡繁的工具。而在 Python 當中，我覺得最方便的工具非 OpenCC 莫屬。

在繁體中文的自然語言處理（NLP）當中，CKIP 無疑是斷詞最精準、最負盛名的工具。這項工具是由台灣中研院資訊所、語言所於民國 75 年成立的中文語言言小組所開發，也在多個中文斷詞的比賽當中得過獎項。

之前由於 CKIP 一直沒有開源，導致需要前往官方的 Demo 網站試用（ https://ckip.iis.sinica.edu.tw/demo/ ），或者是寄信取得授權，可以使用下載版的 CKIP 一個月，看是要直接使用 bat 檔，或是使用 Python 另外調用。

『斷詞』（或者你習慣講『分詞』）的重要性在中文 NLP 當中幾乎可說是無人不知、無人不曉。若是今天我們要進行中文的句法分析，試想：若是我們連句子當中有哪些『詞』都不知道，只知道有什麼樣的『字』存在於句子中，那我們該如何去分析這個句子？

於是在進行中文處理時，『斷詞』的工作可謂是必不可少。
當然，搞不好往後的中文分析都是使用深度學習，到了那一天或許也不再需要斷詞啦，不過現階段還是要的。

NLTK 全文是 “Nature Language Tool Kit” (NLTK)，是 Python 中一個經典的、專門用於進行自然語言處理的工具。

雖然也能進行部份中文的處理，但是對於中文的支援度自然沒有英文來得好，故今天的範例全部都將由處理英文語料來示範。