[NLP][Python] 使用 FastText 訓練詞向量
FastText 是由 Facebook AI Research Lab (FAIR) 所開發的『詞嵌入』以及『文本分類』,支援 294 種語言,並且使用類神經網路訓練詞嵌入模型。
Read More »[NLP][Python] 使用 FastText 訓練詞向量FastText 是由 Facebook AI Research Lab (FAIR) 所開發的『詞嵌入』以及『文本分類』,支援 294 種語言,並且使用類神經網路訓練詞嵌入模型。
Read More »[NLP][Python] 使用 FastText 訓練詞向量一直以來,我都想要寫一篇爬蟲的心得文,描述下 Regular Expression、IP 設置、User-Agent …… 等等經常會用到的各種工具或小知識。一方面是因為當初寫 Blog 的初衷便是想要紀錄下自己學習的過程、一方面則是因為現在花了很多時間進行爬蟲的工作,怕將來若是比較少做,就會慢慢淡忘現在比較熟練的爬蟲技能。
Read More »[Python] 使用 Selenium 進行 Google 搜尋引擎的爬蟲在我們使用 Python 讀取文件時、或者是我們在使用任何我們可能的編輯器打開文件時,偶爾會發生我們因為使用錯誤的編碼打開我們的文件,導致文件裡的文字呈現一片亂碼的狀態。
Read More »[Python] 使用 “chardet” 套件判斷文件的編碼在使用 Python 進行程式的撰寫時,有時候我們會希望我們印出的文字在終端機上能夠顯示出不同的顏色;一來這樣賞心悅目、二來可以區分不同的重點——例如我現在之所以會寫下這篇心得筆記來紀錄如何印出『不同顏色的文字』,就是因為在寫各種不同的測試腳本時,希望畫面上印出的資訊能夠區分不同的程式段落。
Read More »[Python] 在終端機中輸出有顏色的文字之前我曾經寫過《使用 wget 下載 Google 雲端硬碟的檔案》這篇文章,紀錄著如何使用 Linux 當中著名的 “wget” 指令下載已經給予公開權限的 Google 雲端硬碟檔案。現在這篇文章,則是打算紀錄起 Python 當中可以用來下載 Google 雲端硬碟檔案的套件 “gdown”。
Read More »[Python] 使用 gdown 套件來下載 Google 雲端硬碟的檔案今天突然間有了將『字型檔』以 PNG 格式的圖檔儲存的需求……雖然我不太明白為什麼會有這樣的需求,哈哈哈哈。不過既然都遇到這個問題,也確實在一番努力下找到答案了,那我就來簡單紀錄一下吧。
Read More »[Python] 使用 Pillow 套件將字型檔轉成 PNG 圖片『Google 搜尋趨勢』(Google Trends)是由 Google 提供的線上搜尋趨勢服務 (https://trends.google.com/trends/trendingsearches/daily),可以簡單地看出最近哪些『關鍵字』是熱門的。有時候,除了 Google 新聞 (Google News) 外,我也會看看 Google 搜尋趨勢,看看最近是否有熱門的事情發生。 (不過打開一看,最近滿滿的都是『武漢肺炎』…… 看來災情真的很嚴重啊,願所有人平安。)
Read More »[Python] 使用 pytrends 套件獲取 Google 搜尋趨勢的結果一般我們撰寫程式碼時,如果我們是使用 IDE 來開發程式,那麼我們通常都會注意到我們的程式碼是『高亮』(Highlight) 的。這是由於在 IDE 當中另外有著使用『正規表示式』(Regular Expression) 替 Keyword 上色的程式。
Read More »[Python] 使用 Pygments 套件將程式語言 keyword 加上顏色無論是何種程式語言,在進行資料處理的時候,常常都會選擇 Json 這樣的資料格式。
Read More »[Python] 使用 ujson 套件提昇 Json 檔處理速度在自然語言處理 (NLP) 的任務中,純文字的資料型態本身是相當難以進行處理的,尤其是在機器學習的任務當中。
試想:今天我們輸入圖像進行分類的訓練,我們可以使用『像素值』代表圖片的特徵進入模型當中進行訓練。但是文字呢?
Read More »[Python] 使用 Gensim 套件將文字轉成向量(Word2Vec)