[Machine Learning] SiLU 激活函數筆記
介紹
SiLU (Sigmoid Linear Unit)激活函數,跟 Swish 函數十分相像,只差在一個可訓練的 beta 係數,現今也有許多大型語言模型(LLM)採用,主要是在一些探索使用非 ReLU 等激活函數的大型語言模型上,比方說經典的 Llama 架構。
Read More »[Machine Learning] SiLU 激活函數筆記SiLU (Sigmoid Linear Unit)激活函數,跟 Swish 函數十分相像,只差在一個可訓練的 beta 係數,現今也有許多大型語言模型(LLM)採用,主要是在一些探索使用非 ReLU 等激活函數的大型語言模型上,比方說經典的 Llama 架構。
Read More »[Machine Learning] SiLU 激活函數筆記這幾個月以來我一直受到 Unsloth 這個項目的照顧,主要是因為我的工作會有很大的一部分牽涉到大型語言模型(LLM)的微調,而微調 LLM 是非常耗時的,除了收集資料外最大的時間成本就是在永無止境地透過 GPU 微調模型。
Read More »Unsloth 加速微調開源項目筆記這是華為諾亞方舟實驗室所提出加速框架,本質上是把原先投機解碼(speculative decoding)中所使用的小模型由大模型的淺層網路取代,並再由額外訓練的適配器(adapter)加上模型本身的解碼頭去生成推測的 token,再由大模型去進行驗證,並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。
Read More »[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early ExitingHuggingFace Model Hub 現在已經是無人不知、無人不曉的重要開源平台了,每天都有無數的人或組織上傳自己訓練出來的最新模型(包含文字、圖像、語音...... 等等不同領域)到這個平台上。可說是現在凡舉是個做 AI 相關工作的人,想必都會經常瀏覽 HuggingFace 他們的家的平台網站。
Read More »使用 snapshot_download 下載 HuggingFace Hub 上的模型Mistral 7B 是 2023 年 09 月 27 日所提出的大型語言模型(Large Language Model, LLM),由同名的 Mistral AI 團隊訓練而成並將其權重開源釋出。有趣的是,它所採用的授權是相當自由的 Apache 2.0,不像 Llama 2 採用了自己的 Llama 授權條款,所以是真正意義上的『開源』(Llama 授權需要在服務量達到七億時跟 Meta AI 討論授權問題)。
Read More »[論文閱讀] Mistral 7B 技術報告縮放點積注意力(Scaled Dot-Product Attention, SDPA)對於熟悉 Transformer 自注意力架構(Self-Attention)的人來說,恐怕馬上腦海中瞬間就閃過了:
(備註:由於本篇文章自我個人 Hackmd 導入,所以有些符號跟 WordPress 顯示不對位,還請閱讀者多多包涵,Sorry~)
RoPE 是一種通過絕對位置編碼的方式,引入相對位置的資訊給自注意力機制(Self-Attention Mechanism)的位置嵌入。
Read More »[Machine Learning] 旋轉位置嵌入 (Rotary Position Embedding, RoPE)筆記RMSNorm 是對於 LayerNorm 的一種改進,經常用於 Transformer 自注意力機制,旨在減輕梯度消失和梯度爆炸的問題,從而幫助模型更快收斂並提高性能。
Read More »[Machine Learning] RMSNorm 筆記高斯誤差線性單元(Gaussian Error Linear Unit, GELU)是一種機器學習中會使用到的激活函數。跟經典的 ReLU(Rectified Linear Unit)雖然相像卻有些地方不盡相同。
Read More »[Machine Learning] GELU 激活函數筆記以前我的指導教授常常告訴我,不要僅僅只是使用別人的套件,一定要自己寫過才會有感覺。當時我沒有太多的時間去實現各種我感興趣的技術,光是拼出論文就已經竭盡全力了。但是直到現在仍時常回想教授的諄諄教誨,忍不住開始動手實現 BERT 這一經典架構的 encoder-only transformer 模型。
Read More »[PyTorch] BERT 架構實現筆記