[NLP] BLEU 計算相似度
BLEU 是一種評估文字相似度的演算法,經常用於評估『機器翻譯』與『人工翻譯』之間的相似度。最近由於有比對文句之間相似度與否的需求,故在他人推薦之夏稍微研究了一下 BLEU 的原理,同時試用了 NLTK 中提供的 BLEU 函式。
Read More »[NLP] BLEU 計算相似度BLEU 是一種評估文字相似度的演算法,經常用於評估『機器翻譯』與『人工翻譯』之間的相似度。最近由於有比對文句之間相似度與否的需求,故在他人推薦之夏稍微研究了一下 BLEU 的原理,同時試用了 NLTK 中提供的 BLEU 函式。
Read More »[NLP] BLEU 計算相似度AutoEncoder,中文直譯的話就是『自動編碼器』,也經常被簡稱為 AE,是無監督式學習 (Unsupervised Learning) 的神經網路,基本上不需要有『標記』的資料。
Read More »[Machine Learning] AutoEncoder 基本介紹 (附 PyTorch 程式碼)這是一個比較奇怪的問題:
RuntimeError: Attempting to deserialize object on CUDA
device 3 but torch.cuda.device_count() is 1.
Read More »[已解決][PyTorch] RuntimeError: Attempting to deserialize object on CUDA device 3 but torch.cuda.device_count() is 1.Python 雖然是個熱門、簡單又優雅的程式語言,可是其執行的效能卻一直為其他程式語言的使用者所詬病。所以在像是『資料前處理』這方面,熟練地使用多執行緒、多行程就是一件非常重要的事情。
Read More »[Python] 進程池 Pool 的使用方法及進度條顯示一直以來當我在使用 Python 進行程式開發的時候,若是處理文檔,經常會遇到他人從 Windows 上編輯的檔案直接丟到我 Linux 的伺服器上等待著接受處理。
但這種時候,最討厭的是一打開文件裡面全都是亂碼。畢竟 Windows 的電腦預設的中文編碼為 Big-5,也就是 cp950,而在 Linux 上幾乎全都是預設 Unicode 的編碼。
Read More »[工具] CP950 轉換 Unicode 編碼的工具推薦: convertz今天,當我正寫好了一個深度學習的分類模型的程式碼、正準備要開始訓練時,我的程式發生了一個相當少見的錯誤訊息 (這兩年來我覺得我幾乎看過了大部分的 Python 錯誤訊息 ...)。
SyntaxError: non-default argument follows default argument
Read More »[已解決] SyntaxError: non-default argument follows default argument今天我想要紀錄一個常見的問題,但是其解決方法其實非常少見。簡單來講,我的報錯顯示如下:
RuntimeError: CUDA out of memory. Tried to allocate 2.0 GiB.
Read More »[已解決][PyTorch] RuntimeError: CUDA out of memory. Tried to allocate 2.0 GiB在我使用 PyTorch 搭建模型的過程中,經常會在處理資料時,對於如何將資料『串接』感到不知所措。
Read More »[PyTorch] 使用 torch.cat() 在 torch tensor 中實現如 List 資料結構中的 append() 操作使用 PyTorch 框架搭建一個模型是一件十分方便簡易的事情。但是除了單純地搭建模型、訓練模型之外,我們也可以透過 PyTorch 框架,將已經訓練好的模型輸出其神經網路的『權重』、或是只單單擷取出其中一層『模型層』。
Read More »[PyTorch] 提取模型權重或模型層的方法筆記Python 是非常適合用於『數據分析』的程式語言,乾淨簡潔的語法、各式各樣豐富的套件,讓我們幾乎可以使用 Python 完成任何我們想要的功能 —— 而我們只需要把對應的套件找出來!
Read More »[Python] 使用 matplotlib-venn 繪製文氏圖