Skip to content

Clay

[已解決] Python SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-5: truncated \UXXXXXXXX escape

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-5: truncated \UXXXXXXXX escape


SyntaxError 是 Python 中一個表示『語法錯誤』的訊息、 unicodeescape 指的是 Unicode 編碼的跳脫字元 (escape) 。這樣一來,是不是比較好理解上面這個錯誤訊息了呢?沒錯,那就是你在 Python 中出現了關於 Unicode 編碼的 SyntaxError (語法錯誤)!

Read More »[已解決] Python SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-5: truncated \UXXXXXXXX escape

如何使用 Google Colab 提供的免費 GPU

Google Colab 的全名為 Google Colaboratory, 顧名思義,是個由 Google 所提供的服務。Colab 最大的優點在於它提供了後台的免費 GPU,雖然有著一天只能使用十二小時的時限、以及訓練太長的模型會被認為是在做加密貨幣的挖掘而被 ban 調 —— 但總體而言,Colab 仍然是手邊沒有 GPU 的人們最適合進行機器學習的平台。

Colab 是一個線上 Python 執行平台,其底層的運作方法與著名的 Jupyter notebook 十分相像。

Read More »如何使用 Google Colab 提供的免費 GPU

[Keras] 使用 CNN 進行 MNIST 的手寫數字辨識

Mnist 是一個經典的手寫數字資料集,裡面的數字分別有從 0 到 9,共 10 種數字。今天我們的任務便是使用經典的 Keras 來搭建 CNN 的分類模型,以此來製作一個數字的分類器。

基本上原理的部份我想全部都留在『原理篇』裡面來闡述,今天就直接上 Code 吧!

Read More »[Keras] 使用 CNN 進行 MNIST 的手寫數字辨識

[NLP][Python] 有許多功能的自然語言處理工具: HanLP

HanLp 的全名為 Han Language Processing,根據 Github 的 README 介紹,其由『大快搜尋』開發並且開源於網路上。

HanLP 提供了各式各樣的功能,包括:

  • 中文斷詞
  • 詞性標記
  • 命名實體識別
  • 關鍵字抽取
  • 自動摘要
  • 拼音轉換
  • 簡繁轉換
  • 文本推薦
  • 文本分類
  • Word2Vec
  • 語料庫工具

以上眾多的功能,我想我肯定還有漏掉的部份。

如果想要參閱這個工具的 Github,請看這邊: https://github.com/hankcs/HanLP

如果想要在線上直接試用這個工具,你也可以去他們在線演示的網站: http://hanlp.com/

以下,我會展示該如何透過 Python 去呼叫這個工具,來完成一些自然語言處理的工作。

Read More »[NLP][Python] 有許多功能的自然語言處理工具: HanLP

[NLP][Python] 透過 opencc-python-reimplemented 套件來使用中文繁簡轉換工具 OpenCC

在處理各式各樣的 NLP 任務當中,難免會遇到有工具針對繁體、或簡體特別適合的情況 —— 畢竟這可能跟訓練語料有關。這時候,我們很有可能會需要能自動幫我們轉換中文簡繁的工具。而在 Python 當中,我覺得最方便的工具非 OpenCC 莫屬。

Read More »[NLP][Python] 透過 opencc-python-reimplemented 套件來使用中文繁簡轉換工具 OpenCC

[NLP][Python] 透過 ckiptagger 來使用繁體中文斷詞的最佳工具 CKIP

在繁體中文的自然語言處理(NLP)當中,CKIP 無疑是斷詞最精準、最負盛名的工具。這項工具是由台灣中研院資訊所、語言所於民國 75 年成立的中文語言言小組所開發,也在多個中文斷詞的比賽當中得過獎項。

之前由於 CKIP 一直沒有開源,導致需要前往官方的 Demo 網站試用( https://ckip.iis.sinica.edu.tw/demo/ ),或者是寄信取得授權,可以使用下載版的 CKIP 一個月,看是要直接使用 bat 檔,或是使用 Python 另外調用。

Read More »[NLP][Python] 透過 ckiptagger 來使用繁體中文斷詞的最佳工具 CKIP

[NLP][Python] 中文斷詞最方便的開源工具之一: Jieba

『斷詞』(或者你習慣講『分詞』)的重要性在中文 NLP 當中幾乎可說是無人不知、無人不曉。若是今天我們要進行中文的句法分析,試想:若是我們連句子當中有哪些『詞』都不知道,只知道有什麼樣的『字』存在於句子中,那我們該如何去分析這個句子?

於是在進行中文處理時,『斷詞』的工作可謂是必不可少。
當然,搞不好往後的中文分析都是使用深度學習,到了那一天或許也不再需要斷詞啦,不過現階段還是要的。

Read More »[NLP][Python] 中文斷詞最方便的開源工具之一: Jieba