安裝資料探勘、機器學習工具 Weka 筆記
過去我幾乎沒有使用 Weka 的經驗,但在因緣際會下,我有緣接觸了 Weka 這項適用於資料探勘、機器學習領域的工具,於是便簡單地紀錄在這裡。
Read More »安裝資料探勘、機器學習工具 Weka 筆記過去我幾乎沒有使用 Weka 的經驗,但在因緣際會下,我有緣接觸了 Weka 這項適用於資料探勘、機器學習領域的工具,於是便簡單地紀錄在這裡。
Read More »安裝資料探勘、機器學習工具 Weka 筆記搭建深度學習環境一直都不是一項簡單的事情,尤其是相當主流的 Nvidia 顯卡和 Tensorflow 的組合,其中版本的問題以及需要額外安裝的驅動、CUDA、cuDNN 就夠讓人頭疼了。而且主流的作業系統是 Linux 而非 Windows ,可以發現教學文明顯就少了些。
Read More »[Deep Learning] 在 Windows 上搭建 Tensorflow、CUDA、cuDNN 的訓練環境Early stopping 是一種應用於機器學習、深度學習的技巧,正如字面上的意思 —— 較早地停止。在進行監督式學習的過程中,這很有可能是一個找到模型收斂時機點的方法。
Read More »[PyTorch] 應用 Early stopping 技術讓模型在較好的收斂時間點停止訓練在使用 PyTorch 搭建深度學習環境的時候,若是我們有著切割資料集的需求(比方說將訓練資料切出驗證資料),在將資料封裝成 PyTorch 的 dataset 物件時,我們便可以透過 PyTorch 內建的切割函式 —— random_split()
來做到切割資料集。
PyTorch 是一個經常用於架構深度學習的框架,從名字就可以看出,是使用 Python 語法來調用的。PyTorch 封裝了各式各樣常用於深度學習的函式、神經網路、模型架構,使用上非常方便。
Read More »[PyTorch] 設置種子參數重現模型訓練結果Tensorflow 可說是眾多深度學習框架當中最具知名度的(應該?),但是在我使用 Keras/Tensorflow 時,我經常會碰到以下這種關於 Numpy 版本的 FutureWarning:
Read More »[已解決] FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version of numpy, it will be understood as (type, (1,)) / '(1,)type'. _np_qint8 = np.dtype([("qint8", np.int8, 1)])在剛開始接觸 PyTorch 這個框架時,為了逐漸掌握 PyTorch 搭建模型的方法,我閱讀、執行過許多官方教學文件上的範例程式。那個時候,經常能在範例程式當中見到 squeeze()
、unsqueeze()
等函式,卻不太明白這兩個函式究竟有什麼樣的用途。
TF-IDF (Term Frequency - Inverse Document Frequency) 是在文字探勘、自然語言處理當中相當著名的一種文字加權方法,能夠反映出『詞彙』對於『文件』的重要性。跟著名的 Word2Vec 同樣能夠將文字轉換成向量,以供電腦進行計算。
Read More »[NLP] 文字探勘中的 TF-IDF 技術PyTorch 是一個基於 Python 的深度學習框架,我們可以藉由 PyTorch 所包裝好的模組、函式,輕易地實作我們想要實現的模型架構。而說到深度學習,就不得不提到使用 GPU 的平行化運算,提到 GPU 的平行化運算,就一定得說到我們得將輸入神經元的『維度』固定,好實現平行化運算。
Read More »[PyTorch] 使用 view() 和 permute() 轉換維度Cross-validation (交叉驗證) 是機器學習中『切割資料』的一個重要的觀念。簡單來說,當我們訓練一個模型時,我們通常會將資料分成『訓練資料』(Training data) 和『測試資料』(Test data),然後我們使用訓練資料訓練模型、並使用模型從來沒見過的測試資料評估模型的好壞。
Read More »[Python] 使用 ShuffleSplit() 進行 cross-validation