Blog

[工具] CP950 轉換 Unicode 編碼的工具推薦: convertz

一直以來當我在使用 Python 進行程式開發的時候，若是處理文檔，經常會遇到他人從 Windows 上編輯的檔案直接丟到我 Linux 的伺服器上等待著接受處理。

但這種時候，最討厭的是一打開文件裡面全都是亂碼。畢竟 Windows 的電腦預設的中文編碼為 Big-5，也就是 cp950，而在 Linux 上幾乎全都是預設 Unicode 的編碼。

今天，當我正寫好了一個深度學習的分類模型的程式碼、正準備要開始訓練時，我的程式發生了一個相當少見的錯誤訊息 (這兩年來我覺得我幾乎看過了大部分的 Python 錯誤訊息 ...)。

SyntaxError: non-default argument follows default argument

今天我想要紀錄一個常見的問題，但是其解決方法其實非常少見。簡單來講，我的報錯顯示如下：

RuntimeError: CUDA out of memory. Tried to allocate 2.0 GiB.

在我使用 PyTorch 搭建模型的過程中，經常會在處理資料時，對於如何將資料『串接』感到不知所措。

使用 PyTorch 框架搭建一個模型是一件十分方便簡易的事情。但是除了單純地搭建模型、訓練模型之外，我們也可以透過 PyTorch 框架，將已經訓練好的模型輸出其神經網路的『權重』、或是只單單擷取出其中一層『模型層』。

Python 是非常適合用於『數據分析』的程式語言，乾淨簡潔的語法、各式各樣豐富的套件，讓我們幾乎可以使用 Python 完成任何我們想要的功能 —— 而我們只需要把對應的套件找出來！

Embedding，在中文中經常被譯作『嵌入』，在 NLP 領域中通常指的是將『文字』轉換成『數值』的這個動作 —— 畢竟文字是所謂不連續的資料，也是電腦所無法處理的資料。

今天我在使用 PyTorch 當中的 nn.Embedding 時，由於我誤會了 nn.Embedding 的使用方法，故出現了以下報錯：

Clips 全名為 C Language Integrated Production System，是一種所謂的『專家系統』，也是人工智慧的分枝，早年應用在航空等領域 —— 當然近年來提到人工智慧，大多數人都會聯想到神經網路。

今天伺服器所在的區域突如其來地停了電，在供電正常了以後，我連忙將被緊急中止的伺服器重新開機 (沒有裝 UPS ...)。基本上所有的裝置都好好的，就只有一台主機無法順利啟動，一直出現以下報錯：