Last Updated on 2021-08-01 by Clay
一直以來當我在使用 Python 進行程式開發的時候,若是處理文檔,經常會遇到他人從 Windows 上編輯的檔案直接丟到我 Linux 的伺服器上等待著接受處理。
但這種時候,最討厭的是一打開文件裡面全都是亂碼。畢竟 Windows 的電腦預設的中文編碼為 Big-5,也就是 cp950,而在 Linux 上幾乎全都是預設 Unicode 的編碼。
使用 Python 讀取並轉換當然是一個好選擇,不過有時候,就算使用了 cp950 編碼,也仍然有一些文字呈現亂碼的狀態。
然而,我們會發現,在 Windows 的電腦上使用 Notepad++ 一看,這裡卻又沒有問題。
Notepad++ 轉換出來的當然可以是漂亮的 Unicode 編碼,但是我們總不能每篇文章都丟進 Notepad++ 裡面轉啊!因此,我找到了一個相當棒的工具,轉換功能與 Notepad++ 相比不遑多讓,那就是今天我要推薦的工具 —— convertZ。
ConvertZ 介紹
convertZ 是一項已經有點歷史的免費工具,其工作原理為調用了 Windows 內建的轉換程序接口,不過可惜的是,據說原作者的網址已經死掉了,目前很難找到當初發布的地方。
不過慶幸的是,現在網路上仍然流傳著許多的備份,相信拿關鍵字去 Google 一定可以迅速找到,在這裡我就不隨意提供連結了。
開啟之後,會看到一長條的程式,總有種民間開發的感覺 XDD
開啟之後,會有如下這樣的圖形化界面。
圖形化界面其實也已經相當詳細了,畢竟都還有中文的解說在左下角。其使用的基本流程為在左上方按鈕選擇要轉換的目錄,ConvertZ 會將目錄底下所有的 txt 檔案都讀取進來,並準備轉換。
實際上轉換的部份,像是我一直很掛念的 cp950 轉換成 Unicode 就沒有預設在右半部,而是要點擊『進階選項』才會看到。
都選擇好之後選擇『開始轉換』,程式就會自動將你選擇目錄底下的文字檔通通進行轉換了。
現在我使用 Python 讀取轉換好的檔案進來,除了一些雜訊之外,全都是標準的中文了: