Google DeepMind 在 2026 年 4 月 2 日發布的 Gemma 4,是目前「每參數智慧密度」最高的開源模型。31B Dense 版本在 LiveCodeBench v6 拿到 80.0%、AIME 2026 數學推理 89.2%,跟許多 600B 以上的閉源模型打得有來有回。更關鍵的是,它用 Apache 2.0 授權釋出,可以商用、可以改、可以再散布,沒有任何限制。這篇文章記錄我把 Gemma 4 接上 Claude Code 當後端模型的完整過程,以及實際寫程式的體驗。
Gemma 4 到底是什麼
Gemma 4 是 Google DeepMind 的第四代開放權重模型家族,基於跟 Gemini 3 相同的研究基礎打造。整個家族分四個尺寸:E2B(2.3B 有效參數)、E4B(4.5B)、26B A4B(MoE 架構,僅 3.8B 參數在推論時啟動)和 31B Dense。
前三代 Gemma 用的是 Google 自訂授權,對商業使用有一些模糊地帶。Gemma 4 直接改用 Apache 2.0,這在開源 AI 模型裡算最寬鬆的選擇。對比 Meta 的 Llama 4 自訂授權(超過一定用戶數有限制),Gemma 4 在法律面的清晰度高很多。
另一個大變化是原生多模態。Gemma 4 所有尺寸都支援文字和圖片輸入,邊緣版本(E2B、E4B)還支援語音。這是 Gemma 系列第一次把視覺和語音理解直接訓練進模型權重裡,而不是透過外掛管線接上去的。
跑分數據:31B 打趴 600B 對手的實際表現
先看硬數據。以下是 Gemma 4 31B Dense 跟主要競爭對手的比較:
| 基準測試 | Gemma 4 31B | Gemma 3 27B | Llama 4 | DeepSeek V4 |
|---|---|---|---|---|
| AIME 2026(數學推理) | 89.2% | 20.8% | 88.3% | 42.5% |
| LiveCodeBench v6(程式碼) | 80.0% | 29.1% | 77.1% | 52.0% |
| GPQA Diamond(研究所科學) | 84.3% | — | 82.3% | 58.6% |
| MMLU Pro(知識廣度) | 85.2% | — | — | — |
| τ2-bench(Agentic 零售) | 86.4% | — | 85.5% | 57.5% |
| Codeforces ELO | 2,150 | 110 | — | — |
| BigBench Extra Hard | 74.4% | 19.3% | — | — |
Gemma 3 到 Gemma 4 的跳躍幅度驚人。AIME 從 20.8% 到 89.2%,LiveCodeBench 從 29.1% 到 80.0%,Codeforces ELO 從 110 到 2,150。這不是漸進式改善,是世代級的飛躍。
在 Arena AI 文字排行榜上,Gemma 4 31B 排名全球開源模型第三(ELO 約 1452),26B A4B 排第六(約 1441)。兩者都打贏了許多參數量是它 20 倍的模型。
不過要注意幾個限制。AlphaSignal 的分析指出,跟頂級閉源模型比,GPT-5.2 和 Claude Opus 4.6 在 AIME 上接近滿分,只是它們用的算力遠遠超過 Gemma 4。GLM-5(Reasoning)在 BenchLM 拿到 82/100 排第一,Qwen3.5 397B 拿 77/100 排第二,Gemma 4 31B 是 73/100。在需要極端深度推理的場景,更大的模型還是有優勢。
26B MoE vs 31B Dense:該選哪個
26B A4B 用的是 Mixture-of-Experts 架構。總參數 25.2B,但每次推論只啟動 3.8B。好處是記憶體需求低很多(4-bit 量化約需 16-18 GB),推論速度在批次處理時比 31B 快不少。
實際表現差距不大:AIME 88.3% vs 89.2%,LiveCodeBench 77.1% vs 80.0%,GPQA Diamond 82.3% vs 84.3%。大部分場景下 26B 就夠了。
Hacker News 上有開發者測試發現,跑在雙 RTX 3090 上,Gemma 26B 的表現優於 Qwen 35B,但 Qwen 27B 又打贏 Gemma 31B。MoE 架構在「效能/資源比」上的優勢確實存在。不過 τ2-bench 的 agentic 測試結果顯示,26B A4B 只拿到 68%,遠低於 Qwen 同級的 81%。如果你的用途是重度工具呼叫和多步推理,31B Dense 或 Qwen 可能更適合。
硬體需求參考(來自 Unsloth 文件):
| 型號 | 4-bit | 8-bit | BF16 |
|---|---|---|---|
| E2B | 4 GB | 5-8 GB | 10 GB |
| E4B | 5.5-6 GB | 9-12 GB | 16 GB |
| 26B A4B | 16-18 GB | 28-30 GB | 52 GB |
| 31B | 17-20 GB | 34-38 GB | 62 GB |
M1/M2/M3/M4 MacBook 的統一記憶體可以直接跑。16 GB 的 MacBook Air 可以跑 26B A4B 的 4-bit 量化版。有開發者在 iPhone 17 Pro 上用 MLX 跑 E2B,速度大概 40 tok/s。
接上 Claude Code 的完整設定
Claude Code 是 Anthropic 的命令列程式開發助手。預設連 Anthropic 的 API,但它支援任何 OpenAI 相容端點。把 Gemma 4 透過 Ollama 跑起來之後,只要設三個環境變數就能切換:
export ANTHROPIC_BASE_URL=http://localhost:11434/v1
export ANTHROPIC_API_KEY=ollama
export ANTHROPIC_MODEL=gemma4:31b
ANTHROPIC_API_KEY 的值隨便填,因為 Ollama 不需要認證,但 Claude Code 要求這個變數不能是空的。設完之後啟動 claude,所有請求就會轉到本機的 Gemma 4。
如果不想在本機跑(31B 需要至少 17 GB 記憶體),Ollama 現在有雲端選項。透過跟 NVIDIA 合作的 Blackwell GPU 基礎設施,一行指令就能在雲端跑:
ollama launch claude --model gemma4:31b-cloud
另一個選擇是用 LiteLLM 當中間層,這樣切換模型更方便:
pip install litellm
litellm --model ollama/gemma4:31b --port 8000
也有開發者用 llama-server 搭配 TurboQuant 量化,在單張 RTX 4090 上跑 Gemma 4 26B 配 262K context。GitHub 上的 gemma4-turboquant-bench 專案有完整設定文件。
實際寫程式的體驗
接上之後跑了幾類任務:
日常程式碼生成——寫 React component、API endpoint、資料庫 query 這些標準工作,Gemma 4 31B 的品質大概是雲端模型的 85-90%。對大部分開發者的日常需求來說夠用了。
除錯和重構——中等複雜度的 bug 可以處理,但碰到跨多個檔案的架構問題或微妙的並發錯誤,品質落差就比較明顯。這跟 Hacker News 上開發者的回饋一致。
Agentic 工作流——這裡要注意。Gemma 4 26B 的 τ2-bench agentic 測試只有 68%,而且 26B MoE 在 tool-use 鏈太長的時候容易失控。gemma4-turboquant-bench 的開發者特別在 CLAUDE.md 裡加了限制:一次只能呼叫一個工具、禁止多步規劃,避免超出模型的規劃能力。
成本面——這可能是最有感的差異。Claude Code Pro 月費 USD 100(約 NTD 3,200,000 ÷ 100 = 約 NTD 3,200),Cursor 月費 USD 20-40。用 Gemma 4 本地跑,token 成本是零。即使走 API,Lightning AI 上 Gemma 4 31B 的定價是每百萬 token USD 0.20(輸入 USD 0.14),跟 Claude 的 API 定價差了一到兩個數量級。
有開發者花了一整天用 Gemma 4 取代付費工具,結論是:簡單任務(寫 boilerplate、跑測試、解釋錯誤訊息)完全可以用 Gemma 4 處理;複雜任務(全專案重構、架構決策)還是需要雲端模型。
跟 OpenClaw 的整合
OpenClaw 生態系也快速跟上。Ollama 的提供者外掛可以自動偵測本機的 Ollama 實例(http://127.0.0.1:11434),設定 Gemma 4 之後就能在 OpenClaw 裡用免費的本地模型。
有人拍了一支影片叫「Google Just Made OpenClaw Free」,示範在 MacBook Air M4 16GB 上跑 OpenClaw + Gemma 4 的全流程,獲得超過 1,100 個讚。Latent.Space 的 AI News 也報導了這個趨勢:Ollama 在雲端上線 Gemma 4(跑在 NVIDIA Blackwell GPU 上),讓 OpenClaw 和 Claude-style 工作流不需要自己架伺服器。
Gemma 4 的社群微調生態
Gemma 4 發布一週內,Hugging Face 上已經出現值得注意的微調版本。TeichAI 發布了 gemma-4-31B-it-Claude-Opus-Distill,用 Claude Opus 4.6 的高推理強度輸出做監督式微調,目標是把 Claude 的推理模式「蒸餾」進 Gemma 4 的架構裡。他們用 Unsloth 做記憶體和算力最佳化,訓練資料來自高品質推理軌跡。
Google 官方統計,自第一代 Gemma 發布以來,開發者下載次數超過 4 億次,社群建立了超過 10 萬個微調變體。Gemma 4 發布不到一週就突破 200 萬下載。
開源 AI 的競爭格局
Gemma 4 的 Apache 2.0 授權在開源 AI 圈引發了授權討論。VentureBeat 的報導提到一個有趣的反向趨勢:部分中國 AI 實驗室(特別是阿里巴巴最新的 Qwen 模型)正在從完全開放的釋出模式收回,Google 反而走向更開放。
目前開源程式開發模型的主要競爭者:
| 模型 | 參數量 | 授權 | LiveCodeBench v6 | 特色 |
|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 80.0% | 原生多模態、函數呼叫 |
| Llama 4 | MoE | 自訂授權 | 77.1% | 超長 context window |
| Qwen3.5 397B | 397B | 部分限制 | — | 極端推理能力 |
| DeepSeek V4 | — | 開源 | 52.0% | IMO/IOI/ICPC 2026 金牌 |
| GLM-5 | — | 開源 | — | BenchLM 排名第一 |
對開發者來說,實際選擇取決於用途。如果你需要一個免費、可在消費級硬體上跑、授權完全乾淨的程式開發模型,Gemma 4 目前是最均衡的選擇。如果你需要極端深度推理(數學競賽等級),GLM-5 或 DeepSeek V3.2-Speciale 可能更合適。如果你需要最長的 context window,Llama 4 Scout 有優勢。
我的判斷
Gemma 4 跑在 Claude Code 上,對大概七成的日常程式開發工作來說夠用了。剩下三成需要深度架構推理或複雜多檔案重構的場景,還是得切回 Claude Sonnet 或 GPT-5 等級的雲端模型。
最聰明的做法是混合部署:日常用 Gemma 4 本地跑(零成本、資料不出機器),碰到硬問題再切到雲端。OpenClaw 和 Claude Code 都支援快速切換模型,這個工作流已經很成熟了。
對企業來說,Apache 2.0 授權移除了最大的法務障礙。你可以把 Gemma 4 部署在內部伺服器上,接上 Claude Code 的 agent 框架,敏感程式碼完全不需要離開公司網路。這對金融業和醫療業等有資料落地需求的產業特別有價值。
Gemma 4 跟 Claude Code 搭配的效果好嗎?
效果取決於任務類型。日常程式碼生成(React 元件、API、資料庫查詢)品質大約是 Claude Sonnet 的 85-90%。複雜架構決策和多檔案重構的品質落差較明顯。建議日常用 Gemma 4 本地跑省成本,硬問題切雲端模型。
Gemma 4 31B 需要什麼硬體?
4-bit 量化版需要 17-20 GB 記憶體(RAM + VRAM 或統一記憶體)。M2/M3/M4 MacBook Pro 16GB 版本可以勉強跑,24GB 或以上會比較順。NVIDIA RTX 4090(24GB VRAM)可以跑。如果記憶體不夠,26B MoE 版本只需 16-18 GB,效能只差 2-3 個百分點。
Gemma 4 是真正的開源嗎?
Gemma 4 用 Apache 2.0 授權,這是目前最寬鬆的開源授權之一。模型權重可以自由下載、商用、修改、再散布,沒有用戶數限制。不過訓練資料和完整訓練程式碼沒有公開,嚴格來說是「開放權重」(open-weight)而非完全開源。
Gemma 4 跟 Llama 4 怎麼選?
兩者都是 2025-2026 年的頂級開源多模態模型。Gemma 4 的優勢在授權(Apache 2.0 vs Llama 自訂授權)和原生語音支援。Llama 4 的 Scout 版本有更長的 context window。在程式開發基準測試上,Gemma 4 31B 略勝 Llama 4(LiveCodeBench 80.0% vs 77.1%)。
用 Gemma 4 完全取代付費 AI 程式工具可行嗎?
短期內不完全可行。Gemma 4 可以覆蓋大部分簡單到中等複雜度的工作,但在需要深度推理的場景(全專案重構、複雜除錯、架構設計),跟 Claude Code Pro 或 Cursor 的原生模型還有 10-15% 的品質差距。最實際的做法是混合部署,用免費本地模型處理日常工作,硬問題再用付費服務。
引用來源
- Google DeepMind — Gemma 4 官方頁面
- Unsloth — Gemma 4 Hardware Requirements & Local Setup
- NVIDIA Developer Blog — Bringing AI Closer to the Edge with Gemma 4
- Gemma 4 本地部署完整指南:PC 與 Mac 最佳硬體配置、推論速度實測與 OpenClaw Agent 整合
- Gemma 4 31B 本地部署實戰: Mac Studio 512GB 跑 OpenClaw 完整指南
- 史上最強開源 AI?Gemma 4 本地部署實戰:26B 模型變身私人管家
Author Insight
我們團隊在 Gemma 4 發布第二天就把它接上 Claude Code 做內部測試。坦白說,對大部分日常的 Vibe Coding 工作來說,Gemma 4 31B 的品質已經讓人不太願意掏 Claude Code Pro 的月費了。但碰到需要跨五六個檔案做重構的場景,品質落差一下就出來了,特別是在理解複雜的依賴關係和副作用這塊。
我比較看好的是混合部署模式。拿 Gemma 4 跑在本機處理八成的快速任務(寫測試、生成 boilerplate、解釋報錯),剩下兩成真正需要深度推理的工作再切到 Claude。這樣一來,月費支出大概可以砍掉六七成,而且敏感程式碼不用離開公司網路。
如果你在評估 AI 程式開發工具的導入策略,或想了解 Gemma 4 在你的技術棧裡怎麼跑,歡迎跟 Tenten 團隊預約諮詢。
