[NLP][Python] 使用 FastText 訓練詞向量
FastText 是由 Facebook AI Research Lab (FAIR) 所開發的『詞嵌入』以及『文本分類』,支援 294 種語言,並且使用類神經網路訓練詞嵌入模型。
Read More »[NLP][Python] 使用 FastText 訓練詞向量FastText 是由 Facebook AI Research Lab (FAIR) 所開發的『詞嵌入』以及『文本分類』,支援 294 種語言,並且使用類神經網路訓練詞嵌入模型。
Read More »[NLP][Python] 使用 FastText 訓練詞向量Cosine Similarity (餘弦相似度) 是在計算文本相似度時相當常見的一種計算方法,原理也相當易懂,基本上就是計算『兩向量』之間的 Cosine 夾角。
Read More »Cosine Similarity (餘弦相似度) 的計算方法及程式碼在自然語言處理 (NLP) 的任務中,純文字的資料型態本身是相當難以進行處理的,尤其是在機器學習的任務當中。
試想:今天我們輸入圖像進行分類的訓練,我們可以使用『像素值』代表圖片的特徵進入模型當中進行訓練。但是文字呢?
Read More »[Python] 使用 Gensim 套件將文字轉成向量(Word2Vec)Word Embedding (詞嵌入) 是自然語言處理 (NLP) 當中經常會使用到的一種『技術』,其核心概念為『將文字轉成數值型態』。這有什麼好處呢?比如說在類神經網路的模型訓練當中,我們沒有辦法直接將『文字』帶入其中進行運算,畢竟類神經網路的基礎建立在神經元通過權重運算輸出結果。
Read More »[NLP] Word Embedding 筆記說到『文字雲』(word cloud),是一個我在研究自然語言處理(NLP)時常常會聽到的名詞。我本來一直以為就是計算詞的頻率,並將『頻率高的字顯示得比較大』而已——其實不然,光是組成的形狀、字該擺放的樣式都是學問,沒有我想得那麼簡單。
Read More »[Python] 使用 wordcloud 套件快速產生文字雲說實話,我好久沒用到這個工具了,最近突然有這種需要,便挖出以前研究過的程式碼,並開始尋找是否有我當初沒有測試過的功能,順便紀錄成筆記。
有時候會想,若是當初有像現在這樣紀錄筆記該有多好,能夠留點東西給自己、方便查詢。
Read More »[NLP][Python] 中文自然語言分析的工具: THULACHanLp 的全名為 Han Language Processing,根據 Github 的 README 介紹,其由『大快搜尋』開發並且開源於網路上。
HanLP 提供了各式各樣的功能,包括:
以上眾多的功能,我想我肯定還有漏掉的部份。
如果想要參閱這個工具的 Github,請看這邊: https://github.com/hankcs/HanLP
如果想要在線上直接試用這個工具,你也可以去他們在線演示的網站: http://hanlp.com/
以下,我會展示該如何透過 Python 去呼叫這個工具,來完成一些自然語言處理的工作。
Read More »[NLP][Python] 有許多功能的自然語言處理工具: HanLP在處理各式各樣的 NLP 任務當中,難免會遇到有工具針對繁體、或簡體特別適合的情況 —— 畢竟這可能跟訓練語料有關。這時候,我們很有可能會需要能自動幫我們轉換中文簡繁的工具。而在 Python 當中,我覺得最方便的工具非 OpenCC 莫屬。
Read More »[NLP][Python] 透過 opencc-python-reimplemented 套件來使用中文繁簡轉換工具 OpenCC在繁體中文的自然語言處理(NLP)當中,CKIP 無疑是斷詞最精準、最負盛名的工具。這項工具是由台灣中研院資訊所、語言所於民國 75 年成立的中文語言言小組所開發,也在多個中文斷詞的比賽當中得過獎項。
之前由於 CKIP 一直沒有開源,導致需要前往官方的 Demo 網站試用( https://ckip.iis.sinica.edu.tw/demo/ ),或者是寄信取得授權,可以使用下載版的 CKIP 一個月,看是要直接使用 bat 檔,或是使用 Python 另外調用。
Read More »[NLP][Python] 透過 ckiptagger 來使用繁體中文斷詞的最佳工具 CKIP『斷詞』(或者你習慣講『分詞』)的重要性在中文 NLP 當中幾乎可說是無人不知、無人不曉。若是今天我們要進行中文的句法分析,試想:若是我們連句子當中有哪些『詞』都不知道,只知道有什麼樣的『字』存在於句子中,那我們該如何去分析這個句子?
於是在進行中文處理時,『斷詞』的工作可謂是必不可少。
當然,搞不好往後的中文分析都是使用深度學習,到了那一天或許也不再需要斷詞啦,不過現階段還是要的。