PyTorch

[Machine Learning] 旋轉位置嵌入（Rotary Position Embedding, RoPE）筆記

Clay
2024-03-182024-03-18
Machine Learning, PyTorch

介紹

（備註：由於本篇文章自我個人 Hackmd 導入，所以有些符號跟 WordPress 顯示不對位，還請閱讀者多多包涵，Sorry～）

RoPE 是一種通過絕對位置編碼的方式，引入相對位置的資訊給自注意力機制（Self-Attention Mechanism）的位置嵌入。

[Machine Learning] RMSNorm 筆記

Clay
2024-03-142024-08-18
Machine Learning, PyTorch

RMSNorm 介紹

RMSNorm 是對於 LayerNorm 的一種改進，經常用於 Transformer 自注意力機制，旨在減輕梯度消失和梯度爆炸的問題，從而幫助模型更快收斂並提高性能。

[PyTorch] BERT 架構實現筆記

Clay
2024-03-082024-03-08
Machine Learning, PyTorch

前言

以前我的指導教授常常告訴我，不要僅僅只是使用別人的套件，一定要自己寫過才會有感覺。當時我沒有太多的時間去實現各種我感興趣的技術，光是拼出論文就已經竭盡全力了。但是直到現在仍時常回想教授的諄諄教誨，忍不住開始動手實現 BERT 這一經典架構的 encoder-only transformer 模型。

[Machine Learning] LayerNorm 層歸一化筆記

Clay
2024-03-072024-03-08
Machine Learning, PyTorch

LayerNorm 的工作原理如下：

計算均值（mean）和方差（variance）

$mean = \mu =\frac{\sum_{i=1}^{N}x_i}{N} \newline variance = \sigma^2 = \frac{\sum_{i=1}^{N}(x_{i}-\mu)^2}{N}$ Read More »

[已解決] RuntimeError: view size is not compatible with input tensor’s size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(…) instead.

Clay
2024-02-222024-02-22
Machine Learning, PyTorch

問題描述

在使用 PyTorch 進行深度學習模型的建設時，我們免不了一次又一次地調整神經層與輸入輸出的形狀，這顯然是每位 AI 工程師必經的道路 —— 而在 PyTorch 的形狀變換 view() 方法中，顯然存在一個有趣的小陷阱：

RuntimeError: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.

[已解決] 使用 SFTTrainer 時，如果訓練資料中存在多個 response_template，會從何處開始計算 loss

Clay
2024-02-192024-04-01
Machine Learning

問題描述

SFTTrainer 是 HuggingFace 所提供的一個進行 LLM 微調任務的訓練工具，可以快速調整多項超參數與細項配置在大型語言模型的微調任務中。其中，response_template 是訓練資料中我們必須傳遞的特殊字串模板，在這個模板字串後的所有內容，都會在訓練時參與 loss 的計算。