Machine Learning

[PyTorch] 使用 random_split() 函式切割資料集

在使用 PyTorch 搭建深度學習環境的時候，若是我們有著切割資料集的需求（比方說將訓練資料切出驗證資料），在將資料封裝成 PyTorch 的 dataset 物件時，我們便可以透過 PyTorch 內建的切割函式 —— random_split() 來做到切割資料集。

[PyTorch] 設置種子參數重現模型訓練結果

Clay
2020-09-262023-03-23
Machine Learning, PyTorch

PyTorch 是一個經常用於架構深度學習的框架，從名字就可以看出，是使用 Python 語法來調用的。PyTorch 封裝了各式各樣常用於深度學習的函式、神經網路、模型架構，使用上非常方便。

[已解決] FutureWarning: Passing (type, 1) or ‘1type’ as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / ‘(1,)type’. _np_qint8 = np.dtype([(“qint8”, np.int8, 1)])

Clay
2020-09-042021-10-14
Keras, Machine Learning, Packages, Python, Tensorflow

Tensorflow 可說是眾多深度學習框架當中最具知名度的（應該？），但是在我使用 Keras/Tensorflow 時，我經常會碰到以下這種關於 Numpy 版本的 FutureWarning：

Clay
2020-09-022024-08-07
Machine Learning, PyTorch

在剛開始接觸 PyTorch 這個框架時，為了逐漸掌握 PyTorch 搭建模型的方法，我閱讀、執行過許多官方教學文件上的範例程式。那個時候，經常能在範例程式當中見到 squeeze()、unsqueeze() 等函式，卻不太明白這兩個函式究竟有什麼樣的用途。

[NLP] 文字探勘中的 TF-IDF 技術

Clay
2020-08-012021-10-19
Machine Learning, NLP, Python, Scikit-Learn

TF-IDF (Term Frequency – Inverse Document Frequency) 是在文字探勘、自然語言處理當中相當著名的一種文字加權方法，能夠反映出『詞彙』對於『文件』的重要性。跟著名的 Word2Vec 同樣能夠將文字轉換成向量，以供電腦進行計算。

[PyTorch] 使用 view() 和 permute() 轉換維度

Clay
2020-07-252021-07-25
Machine Learning, Python, PyTorch

PyTorch 是一個基於 Python 的深度學習框架，我們可以藉由 PyTorch 所包裝好的模組、函式，輕易地實作我們想要實現的模型架構。而說到深度學習，就不得不提到使用 GPU 的平行化運算，提到 GPU 的平行化運算，就一定得說到我們得將輸入神經元的『維度』固定，好實現平行化運算。

[Python] 使用 ShuffleSplit() 進行 cross-validation

Clay
2020-07-172021-07-24
Machine Learning, Python, Scikit-Learn

Cross-validation (交叉驗證) 是機器學習中『切割資料』的一個重要的觀念。簡單來說，當我們訓練一個模型時，我們通常會將資料分成『訓練資料』(Training data) 和『測試資料』(Test data)，然後我們使用訓練資料訓練模型、並使用模型從來沒見過的測試資料評估模型的好壞。