Last Updated on 2025-03-12 by Clay
今天 Gemma 3 開源了,由於工作上一直以來選用 Gemma 2 作為佈署模型,也在改進、微調 Gemma 2 上費了心力,不能免俗地對 Gemma 3 更加專注,也快速瀏覽拜讀了這篇技術報告。
Gemma 3 擁有 4 個量級:1B、4B、12B 和 27B;除了 1B 是 32K 的長度支援外,其他量級的上下文長度可支援到128K!另外,Gemma 3 也不再是單純的語言模型了,也加入額外的 Vision Tower,讓理解圖像變成了可支援的功能。
架構上仍然維持著 GQA,我個人有點希望是 MLA 就是了 XD

有趣的是,本來一層 Local Attention、一層 Global Attention 的混合架構,現在則是改成了 5 層 Local Attention 搭配 1 層 Global Attention,並且這是實驗測試中得出的最好的比例。

最後在不同量級上,同樣是採用蒸餾訓練(Knowledge Distillation, KD)的方式來學習,整體表現大幅超越前一代 Gemma 2,尤其是在數學領域方面(或許可以期待邏輯推理能力)。
論文章節重點
1. Introduction(簡介)
Gemma 3 是 Gemma 系列的最新版本,旨在能於一般設備如手機、筆電及高階 GPU 上運作,其引入了 SigLIP 視覺編碼器,將圖像編碼為固定大小向量 (256 tokens)。
同時改進上下文處理能力至 128K tokens,透過局部與全局 Attention 層交錯方式解決長上下文處理中的記憶體問題。
使用新穎的後訓練(Post-training)方式來提升數學、推理、編程、聊天及多語言任務的能力。
2. Model Architecture(模型架構)
Gemma 3 採用的核心架構是:
- 解碼器 Transformer 架構 (Decoder-only Transformer)。
- 採用 Grouped-Query Attention (GQA),RMSNorm 正規化。
- 引入 Local/Global Attention 交錯層,比例為每 5 層 Local Attention 對應 1 層 Global Attention,可有效降低記憶體需求。
- 增加 RoPE(旋轉位置編碼)頻率 以支持長上下文。
2.1 Vision Modality(視覺模態)
使用 SigLIP (400M) 作為視覺編碼器,輸入圖像為 896x896 像素。採用 Pan & Scan (P&S) 方法處理非方形圖片與高解析度圖片,可適應性裁剪圖像進行處理,提高圖像理解能力。
2.2 Pre-training(預訓練)
模型使用稍大的訓練量 (14T tokens for 27B),並且也仍然有運用資料過濾技術來移除敏感資訊及低品質數據 —— 這點真的非常重要,看了許多篇 LLM 的技術報告,各家研究團隊都會反覆強調過濾低品質資料。
也跟前面提到的一樣,在不同的小量級模型上,是採用『知識蒸餾』來讓小型模型能學習更大的教師模型的輸出分佈。
2.3 Quantization Aware Training(量化感知訓練)
Gemma 3 提供了量化版本的模型(int4、SFP8 等),透過少量步數(約 5000)微調模型以達到最佳效果。
2.4 Compute Infrastructure(計算基礎架構)
這章節我比較不感興趣...... 也不能說不感興趣,而是我比較沒機會用到 TPU XD
LLM了使用 Google 的 TPUv4、TPUv5e、TPUv5p 作為訓練基礎架構,並透過 Pathways、Jax、ZeRO-3 等技術進行模型訓練與優化。
2.5 Carbon Footprint(碳足跡)
(跳過)
3. Instruction-Tuning(指令微調)
使用改進的知識蒸餾及強化學習(如 BOND、WARM、WARP)進行指令微調,增強模型的數學、編碼、推理、多語言能力。
同時,再次同時,強調嚴格過濾微調資料,減少錯誤回答、毒性言論及幻覺生成問題。
4. Evaluation of Final Models(模型評估)
透過 LMSYS Chatbot Arena 及標準評測(MMLU, LiveCodeBench 等),Gemma 3 27B 在聊天評估中取得高分,優於許多更大的模型。
在各項基準測試中皆顯示出明顯提升(特別是數學與推理能力)。

5. Ablations(消融實驗)
- 局部與全局 Attention 層比例實驗:發現 5:1 比例對模型性能影響最小,同時降低記憶體負擔。
- 滑動窗口大小:1024 tokens 最佳,在性能與記憶體使用間取得平衡。
- 長上下文處理:透過調整 RoPE,可有效將上下文擴展至 128K tokens。
- 教師模型大小對學生模型的影響:短期使用較小教師模型較佳,長期則相反。
- 視覺編碼器解析度 與 Pan & Scan 處理技術明顯提升圖像任務表現。

6. Memorization and Privacy(記憶與隱私)
Gemma 3 在模型記憶方面明顯改善,極少複製訓練資料內容,未檢測到敏感個資外洩。
7. Responsibility, Safety, Security(安全性與責任)
- 嚴格遵循 Google 安全政策,預防模型產生有害內容,包含兒童保護、個資保護、仇恨言論防制等。
- 透過安全過濾與強化學習,確保模型符合安全規範。
- 評估化學、生物、核能等潛在風險,確認模型於相關領域的知識程度低,有效避免潛在危險。
在 Gemma 3 發布之後,很快地 Transformers 已經支援了、OLLAMA 也支援了 —— 我下班前看 vLLM 也正在積極開發中...... 等可以用 vLLM 跑之後預計趕快測試在我手邊的任務中!期待~
References
- https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
- https://huggingface.co/google/gemma-3-12b-it