Cosine Similarity (餘弦相似度) 的計算方法及程式碼
Cosine Similarity (餘弦相似度) 是在計算文本相似度時相當常見的一種計算方法,原理也相當易懂,基本上就是計算『兩向量』之間的 Cosine 夾角。
Read More »Cosine Similarity (餘弦相似度) 的計算方法及程式碼自然語言處理
Cosine Similarity (餘弦相似度) 是在計算文本相似度時相當常見的一種計算方法,原理也相當易懂,基本上就是計算『兩向量』之間的 Cosine 夾角。
Read More »Cosine Similarity (餘弦相似度) 的計算方法及程式碼在自然語言處理 (NLP) 的任務中,純文字的資料型態本身是相當難以進行處理的,尤其是在機器學習的任務當中。
試想:今天我們輸入圖像進行分類的訓練,我們可以使用『像素值』代表圖片的特徵進入模型當中進行訓練。但是文字呢?
Read More »[Python] 使用 Gensim 套件將文字轉成向量(Word2Vec)Word Embedding (詞嵌入) 是自然語言處理 (NLP) 當中經常會使用到的一種『技術』,其核心概念為『將文字轉成數值型態』。這有什麼好處呢?比如說在類神經網路的模型訓練當中,我們沒有辦法直接將『文字』帶入其中進行運算,畢竟類神經網路的基礎建立在神經元通過權重運算輸出結果。
Read More »[NLP] Word Embedding 筆記說到『文字雲』(word cloud),是一個我在研究自然語言處理(NLP)時常常會聽到的名詞。我本來一直以為就是計算詞的頻率,並將『頻率高的字顯示得比較大』而已——其實不然,光是組成的形狀、字該擺放的樣式都是學問,沒有我想得那麼簡單。
Read More »[Python] 使用 wordcloud 套件快速產生文字雲說實話,我好久沒用到這個工具了,最近突然有這種需要,便挖出以前研究過的程式碼,並開始尋找是否有我當初沒有測試過的功能,順便紀錄成筆記。
有時候會想,若是當初有像現在這樣紀錄筆記該有多好,能夠留點東西給自己、方便查詢。
Read More »[NLP][Python] 中文自然語言分析的工具: THULACHanLp 的全名為 Han Language Processing,根據 Github 的 README 介紹,其由『大快搜尋』開發並且開源於網路上。
HanLP 提供了各式各樣的功能,包括:
以上眾多的功能,我想我肯定還有漏掉的部份。
如果想要參閱這個工具的 Github,請看這邊: https://github.com/hankcs/HanLP
如果想要在線上直接試用這個工具,你也可以去他們在線演示的網站: http://hanlp.com/
以下,我會展示該如何透過 Python 去呼叫這個工具,來完成一些自然語言處理的工作。
Read More »[NLP][Python] 有許多功能的自然語言處理工具: HanLP在處理各式各樣的 NLP 任務當中,難免會遇到有工具針對繁體、或簡體特別適合的情況 —— 畢竟這可能跟訓練語料有關。這時候,我們很有可能會需要能自動幫我們轉換中文簡繁的工具。而在 Python 當中,我覺得最方便的工具非 OpenCC 莫屬。
Read More »[NLP][Python] 透過 opencc-python-reimplemented 套件來使用中文繁簡轉換工具 OpenCC在繁體中文的自然語言處理(NLP)當中,CKIP 無疑是斷詞最精準、最負盛名的工具。這項工具是由台灣中研院資訊所、語言所於民國 75 年成立的中文語言言小組所開發,也在多個中文斷詞的比賽當中得過獎項。
之前由於 CKIP 一直沒有開源,導致需要前往官方的 Demo 網站試用( https://ckip.iis.sinica.edu.tw/demo/ ),或者是寄信取得授權,可以使用下載版的 CKIP 一個月,看是要直接使用 bat 檔,或是使用 Python 另外調用。
Read More »[NLP][Python] 透過 ckiptagger 來使用繁體中文斷詞的最佳工具 CKIP『斷詞』(或者你習慣講『分詞』)的重要性在中文 NLP 當中幾乎可說是無人不知、無人不曉。若是今天我們要進行中文的句法分析,試想:若是我們連句子當中有哪些『詞』都不知道,只知道有什麼樣的『字』存在於句子中,那我們該如何去分析這個句子?
於是在進行中文處理時,『斷詞』的工作可謂是必不可少。
當然,搞不好往後的中文分析都是使用深度學習,到了那一天或許也不再需要斷詞啦,不過現階段還是要的。
NLTK 全文是 “Nature Language Tool Kit” (NLTK),是 Python 中一個經典的、專門用於進行自然語言處理的工具。
雖然也能進行部份中文的處理,但是對於中文的支援度自然沒有英文來得好,故今天的範例全部都將由處理英文語料來示範。
Read More »[NLP][Python] 英文自然語言處理的經典工具 NLTK