[Machine Learning] 向量量化(Vector Quantization, VQ)筆記
我第一次聽到向量量化(Vector Quantization, VQ)是在做音訊處理的朋友的口中,因此模糊地得知了向量量化是一種用於資料特徵壓縮和特徵表示的技術;當然那時,我還不清楚這與像是 PCA 等等降維技巧有什麼不同。
Read More »[Machine Learning] 向量量化(Vector Quantization, VQ)筆記我第一次聽到向量量化(Vector Quantization, VQ)是在做音訊處理的朋友的口中,因此模糊地得知了向量量化是一種用於資料特徵壓縮和特徵表示的技術;當然那時,我還不清楚這與像是 PCA 等等降維技巧有什麼不同。
Read More »[Machine Learning] 向量量化(Vector Quantization, VQ)筆記TF-IDF (Term Frequency - Inverse Document Frequency) 是在文字探勘、自然語言處理當中相當著名的一種文字加權方法,能夠反映出『詞彙』對於『文件』的重要性。跟著名的 Word2Vec 同樣能夠將文字轉換成向量,以供電腦進行計算。
Read More »[NLP] 文字探勘中的 TF-IDF 技術Cross-validation (交叉驗證) 是機器學習中『切割資料』的一個重要的觀念。簡單來說,當我們訓練一個模型時,我們通常會將資料分成『訓練資料』(Training data) 和『測試資料』(Test data),然後我們使用訓練資料訓練模型、並使用模型從來沒見過的測試資料評估模型的好壞。
Read More »[Python] 使用 ShuffleSplit() 進行 cross-validation今天,在我使用 PyTorch 搭建模型時,突然間有了需要提交技術報告的需求 (?),於是乎我簡單地找了下將模型視覺化的工具: torchviz。
Read More »[已解決] graphviz.backend.ExecutableNotFound: failed to execute ['dot', '-Tpdf', '-O', 'Digraph.gv'], make sure the Graphviz executables are on your systems' PATH如果我們有『切資料』的需求 —— 比如說將資料切成 Training data (訓練資料) 以及 Test data (測試資料) ,我們便可以透過 Scikit-Learn 的 train_test_split() 這個函式來做到簡單的資料分割。
Read More »[Scikit-Learn] 使用 train_test_split() 切割資料我一直希望能寫個關於 Scikit-Learn 種種模型及使用方法的筆記,故先在這裡開了坑,等到日後有機會便補上內容 (2020/03/21 更新,我開始筆記 Scikit-Learn 的各種教學了,如文章末)。
Read More »[Scikit-Learn] 基本教學 (0): 介紹 scikit-learn