[Machine Learning] SiLU 激活函數筆記
Last Updated on 2024-06-06 by Clay
介紹
SiLU (Sigmoid Linear Unit)激活函數,跟 Swish 函數十分相像,只差在一個可訓練的 beta 係數,現今也有許多大型語言模型(LLM)採用,主要是在一些探索使用非 ReLU 等激活函數的大型語言模型上,比方說經典的 Llama 架構。
Read More »[Machine Learning] SiLU 激活函數筆記Last Updated on 2024-06-06 by Clay
SiLU (Sigmoid Linear Unit)激活函數,跟 Swish 函數十分相像,只差在一個可訓練的 beta 係數,現今也有許多大型語言模型(LLM)採用,主要是在一些探索使用非 ReLU 等激活函數的大型語言模型上,比方說經典的 Llama 架構。
Read More »[Machine Learning] SiLU 激活函數筆記Last Updated on 2024-06-04 by Clay
這幾個月以來我一直受到 Unsloth 這個項目的照顧,主要是因為我的工作會有很大的一部分牽涉到大型語言模型(LLM)的微調,而微調 LLM 是非常耗時的,除了收集資料外最大的時間成本就是在永無止境地透過 GPU 微調模型。
Read More »Unsloth 加速微調開源項目筆記Last Updated on 2024-11-26 by Clay
這是華為諾亞方舟實驗室所提出加速框架,本質上是把原先投機解碼(speculative decoding)中所使用的小模型由大模型的淺層網路取代,並再由額外訓練的適配器(adapter)加上模型本身的解碼頭去生成推測的 token,再由大模型去進行驗證,並在拒絕推測 token 時由大模型所生成的機率分佈解碼結果取代 —— 這些操作與原先的 speculative decoding 其實沒有太大差別。
Read More »[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early ExitingLast Updated on 2024-06-02 by Clay
RESTful 設計風格(Representational State Transfer, REST)是一種用於設計網路應用程式的架構風格。它遵守著讓網路應用程式更加簡潔、可擴展和易於維護的準則去設計。
Read More »RESTful 筆記(附 Python FastAPI + CURL 範例)Last Updated on 2024-06-01 by Clay
在我們替手邊資料進行編號時,若是希望每筆資料都擁有獨一無二的編號、而非單純遞增的流水號,UUID 可說是最最常見的編號方式。
那麼,什麼是 UUID 呢?
Read More »通用唯一識別碼(Universally Unique Identifier, UUID)筆記