Machine Learning

Unsloth 加速微調開源項目筆記

Clay
2024-06-042024-06-04
Machine Learning, Python

介紹

這幾個月以來我一直受到 Unsloth 這個項目的照顧，主要是因為我的工作會有很大的一部分牽涉到大型語言模型（LLM）的微調，而微調 LLM 是非常耗時的，除了收集資料外最大的時間成本就是在永無止境地透過 GPU 微調模型。

[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Clay
2024-06-032024-11-26
Machine Learning, Python

前言

這是華為諾亞方舟實驗室所提出加速框架，本質上是把原先投機解碼（speculative decoding）中所使用的小模型由大模型的淺層網路取代，並再由額外訓練的適配器（adapter）加上模型本身的解碼頭去生成推測的 token，再由大模型去進行驗證，並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。

使用 snapshot_download 下載 HuggingFace Hub 上的模型

Clay
2024-04-172024-04-17
Linux, Machine Learning, Python

介紹

HuggingFace Model Hub 現在已經是無人不知、無人不曉的重要開源平台了，每天都有無數的人或組織上傳自己訓練出來的最新模型（包含文字、圖像、語音…… 等等不同領域）到這個平台上。可說是現在凡舉是個做 AI 相關工作的人，想必都會經常瀏覽 HuggingFace 他們的家的平台網站。

[論文閱讀] Mistral 7B 技術報告

Clay
2024-04-022024-07-25
Machine Learning

介紹

Mistral 7B 是 2023 年 09 月 27 日所提出的大型語言模型（Large Language Model, LLM），由同名的 Mistral AI 團隊訓練而成並將其權重開源釋出。有趣的是，它所採用的授權是相當自由的 Apache 2.0，不像 Llama 2 採用了自己的 Llama 授權條款，所以是真正意義上的『開源』（Llama 授權需要在服務量達到七億時跟 Meta AI 討論授權問題）。

[PyTorch] 使用 2.0+ 的 SDPA 提昇 Transformer 自注意力機制計算速度

SDPA 介紹

縮放點積注意力（Scaled Dot-Product Attention, SDPA）對於熟悉 Transformer 自注意力架構（Self-Attention）的人來說，恐怕馬上腦海中瞬間就閃過了：

$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$ Read More »

[Machine Learning] 旋轉位置嵌入（Rotary Position Embedding, RoPE）筆記

Clay
2024-03-182024-03-18
Machine Learning, PyTorch

介紹

（備註：由於本篇文章自我個人 Hackmd 導入，所以有些符號跟 WordPress 顯示不對位，還請閱讀者多多包涵，Sorry～）

RoPE 是一種通過絕對位置編碼的方式，引入相對位置的資訊給自注意力機制（Self-Attention Mechanism）的位置嵌入。

[Machine Learning] RMSNorm 筆記

Clay
2024-03-142024-08-18
Machine Learning, PyTorch

RMSNorm 介紹

RMSNorm 是對於 LayerNorm 的一種改進，經常用於 Transformer 自注意力機制，旨在減輕梯度消失和梯度爆炸的問題，從而幫助模型更快收斂並提高性能。

[Machine Learning] GELU 激活函數筆記

Clay
2024-03-122024-08-18
Machine Learning

高斯誤差線性單元（Gaussian Error Linear Unit, GELU）是一種機器學習中會使用到的激活函數。跟經典的 ReLU（Rectified Linear Unit）雖然相像卻有些地方不盡相同。

[PyTorch] BERT 架構實現筆記

Clay
2024-03-082024-03-08
Machine Learning, PyTorch

前言

以前我的指導教授常常告訴我，不要僅僅只是使用別人的套件，一定要自己寫過才會有感覺。當時我沒有太多的時間去實現各種我感興趣的技術，光是拼出論文就已經竭盡全力了。但是直到現在仍時常回想教授的諄諄教誨，忍不住開始動手實現 BERT 這一經典架構的 encoder-only transformer 模型。

[Machine Learning] LayerNorm 層歸一化筆記

Clay
2024-03-072024-03-08
Machine Learning, PyTorch

LayerNorm 的工作原理如下：

計算均值（mean）和方差（variance）

$mean = \mu =\frac{\sum_{i=1}^{N}x_i}{N} \newline variance = \sigma^2 = \frac{\sum_{i=1}^{N}(x_{i}-\mu)^2}{N}$ Read More »

« 上一頁
1
...
3
4
5
6
7
...
17
下一頁 »

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30