[Python] 值得參考的 Coding Style 整理筆記
最近有個比較大一點的個人專案準備收尾,並準備交接給朋友接手,看他後續想要新增什麼樣的功能。有鑑於此,我開始考慮是否將程式碼做個徹底的整理。
Read More »[Python] 值得參考的 Coding Style 整理筆記最近有個比較大一點的個人專案準備收尾,並準備交接給朋友接手,看他後續想要新增什麼樣的功能。有鑑於此,我開始考慮是否將程式碼做個徹底的整理。
Read More »[Python] 值得參考的 Coding Style 整理筆記Cross-validation (交叉驗證) 是機器學習中『切割資料』的一個重要的觀念。簡單來說,當我們訓練一個模型時,我們通常會將資料分成『訓練資料』(Training data) 和『測試資料』(Test data),然後我們使用訓練資料訓練模型、並使用模型從來沒見過的測試資料評估模型的好壞。
Read More »[Python] 使用 ShuffleSplit() 進行 cross-validation在我們使用 PyTorch 搭建 RNN 與其各種變體 (比如 LSTM、GRU) 的模型時,若搭配 PyTorch 所提供的 Embedding 層當作模型第一層的嵌入層,那麼,我們經常會碰到不同長度序列的文章。
Read More »[PyTorch] 如何使用 pad_packed_sequence 和 pack_padded_sequence 調整可變長度序列批次之前我曾經紀錄過,如何使用 Python 的 Gensim 套件訓練一個 Word2Vec 模型,讓我們將『詞彙』轉成『向量』,而這些轉成的『向量』也並不是毫無道理,直觀理解上,是每一維度中包含著文本中的一個隱含主題 —— 至少人們是這樣希望模型學習到東西的。
Read More »[NLP][Python] 表示文件向量: Doc2Vec今天,當我在嘗試著自己使用 nn.Embedding() 拼接並計算句向量的時候,我在自己預先準備的 DataLoader 上得到了這樣的一個報錯:
Read More »[已解決][PyTorch] TypeError: expected Tensor as element 0 in argument 0, but got list在 Word 中,不論是編輯報告、心得、筆記 ...... 我們免不了經常在文章中同時使用中文與英文。然而,大部分的 Word 預設可以選擇的字型不外乎都只針對其中一種語言進行優化,導致另一種語言在同樣的格式下可能就沒那麼好看。
Read More »[Word] 將中文字型與英文字型分開設定 (適用於 Word 2019)有時候當文章寫得太長時,會造成查找資料上的困難,尤其是像我這種只是幫自己紀錄筆記下來的人 —— 有時候我明明知道自己紀錄了哪些資訊在哪篇文章中,可是只要一打開,卻又要花一小段時間去查找我究竟紀錄在哪段敘述中。
Read More »[WordPress] 製作目錄跳轉功能,無須透過外掛在我們操作 Linux 系統的時候,我們經常會使用 "sh" 這個指令來執行一些副檔名為 .sh 的檔案,這些 .sh 的檔案都是所謂的 Shell script,也就是在 Linux 系統當中常見的腳本檔案,透過在腳本中撰寫指令,並使用解釋器執行,就能完成各式各樣的功能,比方說資料處理、自動化執行、管理系統資源 ...... 而且寫成腳本檔之後就可以在有需求的時候直接執行,不用再重複編寫指令。
Read More »[Linux] sh 和 bash 之間的差異在 Linux 中我們可以透過編寫 Shell Script 完成各式各樣的功能程式,來讓我們擁有更好的使用體驗。今天我想要紀錄的,是在 Bash 中該如何使用 Dictionary、也就是所謂的雜湊表(hash table)。
Read More »[Linux] Shell script 使用 dictionary 的方法今天我在查看 Hugging Face 的 Transformers 套件官方 Document 時,赫然發現一個恐怖的事情 —— 使用 Transformers 時所調用的 from_pretrained(),在讀取預訓練進來的時候,整個模型的狀態是屬於 eval() 、也就是評估模式的。
Read More »[PyTorch] 確認模型的狀態屬於 train() 或是 eval()