用 Gemma 4 跑 Claude Code：Google 免費開源模型實測，31B 參數打趴 600B 對手

Q: Gemma 4 跟 Claude Code 搭配的效果好嗎？

日常程式碼生成品質大約是 Claude Sonnet 的 85-90%。複雜架構決策和多檔案重構品質落差較明顯。建議日常用 Gemma 4 本地跑省成本，硬問題切雲端模型。

Q: Gemma 4 31B 需要什麼硬體？

4-bit 量化版需要 17-20 GB 記憶體。M2/M3/M4 MacBook Pro 24GB 可順暢運行，NVIDIA RTX 4090 也可以。26B MoE 版本只需 16-18 GB。

Q: Gemma 4 是真正的開源嗎？

Gemma 4 用 Apache 2.0 授權，模型權重可自由下載、商用、修改、再散布。訓練資料未公開，嚴格說是開放權重而非完全開源。

Q: Gemma 4 跟 Llama 4 怎麼選？

Gemma 4 授權更寬鬆（Apache 2.0），有原生語音支援，LiveCodeBench 略勝（80.0% vs 77.1%）。Llama 4 有更長 context window。

Q: 用 Gemma 4 完全取代付費 AI 程式工具可行嗎？

短期內不完全可行。Gemma 4 覆蓋大部分中等複雜度工作，但深度推理場景與付費工具仍有 10-15% 品質差距。建議混合部署。

Google DeepMind 在 2026 年 4 月 2 日發布的 Gemma 4，是目前「每參數智慧密度」最高的開源模型。31B Dense 版本在 LiveCodeBench v6 拿到 80.0%、AIME 2026 數學推理 89.2%，跟許多 600B 以上的閉源模型打得有來有回。更關鍵的是，它用 Apache 2.0 授權釋出，可以商用、可以改、可以再散布，沒有任何限制。這篇文章記錄我把 Gemma 4 接上 Claude Code 當後端模型的完整過程，以及實際寫程式的體驗。

Gemma 4 到底是什麼

Gemma 4 是 Google DeepMind 的第四代開放權重模型家族，基於跟 Gemini 3 相同的研究基礎打造。整個家族分四個尺寸：E2B（2.3B 有效參數）、E4B（4.5B）、26B A4B（MoE 架構，僅 3.8B 參數在推論時啟動）和 31B Dense。

前三代 Gemma 用的是 Google 自訂授權，對商業使用有一些模糊地帶。Gemma 4 直接改用 Apache 2.0，這在開源 AI 模型裡算最寬鬆的選擇。對比 Meta 的 Llama 4 自訂授權（超過一定用戶數有限制），Gemma 4 在法律面的清晰度高很多。

另一個大變化是原生多模態。Gemma 4 所有尺寸都支援文字和圖片輸入，邊緣版本（E2B、E4B）還支援語音。這是 Gemma 系列第一次把視覺和語音理解直接訓練進模型權重裡，而不是透過外掛管線接上去的。

跑分數據：31B 打趴 600B 對手的實際表現

先看硬數據。以下是 Gemma 4 31B Dense 跟主要競爭對手的比較：

基準測試	Gemma 4 31B	Gemma 3 27B	Llama 4	DeepSeek V4
AIME 2026（數學推理）	89.2%	20.8%	88.3%	42.5%
LiveCodeBench v6（程式碼）	80.0%	29.1%	77.1%	52.0%
GPQA Diamond（研究所科學）	84.3%	—	82.3%	58.6%
MMLU Pro（知識廣度）	85.2%	—	—	—
τ2-bench（Agentic 零售）	86.4%	—	85.5%	57.5%
Codeforces ELO	2,150	110	—	—
BigBench Extra Hard	74.4%	19.3%	—	—

Gemma 3 到 Gemma 4 的跳躍幅度驚人。AIME 從 20.8% 到 89.2%，LiveCodeBench 從 29.1% 到 80.0%，Codeforces ELO 從 110 到 2,150。這不是漸進式改善，是世代級的飛躍。

在 Arena AI 文字排行榜上，Gemma 4 31B 排名全球開源模型第三（ELO 約 1452），26B A4B 排第六（約 1441）。兩者都打贏了許多參數量是它 20 倍的模型。

不過要注意幾個限制。AlphaSignal 的分析指出，跟頂級閉源模型比，GPT-5.2 和 Claude Opus 4.6 在 AIME 上接近滿分，只是它們用的算力遠遠超過 Gemma 4。GLM-5（Reasoning）在 BenchLM 拿到 82/100 排第一，Qwen3.5 397B 拿 77/100 排第二，Gemma 4 31B 是 73/100。在需要極端深度推理的場景，更大的模型還是有優勢。

26B MoE vs 31B Dense：該選哪個

26B A4B 用的是 Mixture-of-Experts 架構。總參數 25.2B，但每次推論只啟動 3.8B。好處是記憶體需求低很多（4-bit 量化約需 16-18 GB），推論速度在批次處理時比 31B 快不少。

實際表現差距不大：AIME 88.3% vs 89.2%，LiveCodeBench 77.1% vs 80.0%，GPQA Diamond 82.3% vs 84.3%。大部分場景下 26B 就夠了。

Hacker News 上有開發者測試發現，跑在雙 RTX 3090 上，Gemma 26B 的表現優於 Qwen 35B，但 Qwen 27B 又打贏 Gemma 31B。MoE 架構在「效能/資源比」上的優勢確實存在。不過 τ2-bench 的 agentic 測試結果顯示，26B A4B 只拿到 68%，遠低於 Qwen 同級的 81%。如果你的用途是重度工具呼叫和多步推理，31B Dense 或 Qwen 可能更適合。

硬體需求參考（來自 Unsloth 文件）：

型號	4-bit	8-bit	BF16
E2B	4 GB	5-8 GB	10 GB
E4B	5.5-6 GB	9-12 GB	16 GB
26B A4B	16-18 GB	28-30 GB	52 GB
31B	17-20 GB	34-38 GB	62 GB

M1/M2/M3/M4 MacBook 的統一記憶體可以直接跑。16 GB 的 MacBook Air 可以跑 26B A4B 的 4-bit 量化版。有開發者在 iPhone 17 Pro 上用 MLX 跑 E2B，速度大概 40 tok/s。

接上 Claude Code 的完整設定

Claude Code 是 Anthropic 的命令列程式開發助手。預設連 Anthropic 的 API，但它支援任何 OpenAI 相容端點。把 Gemma 4 透過 Ollama 跑起來之後，只要設三個環境變數就能切換：

export ANTHROPIC_BASE_URL=http://localhost:11434/v1
export ANTHROPIC_API_KEY=ollama
export ANTHROPIC_MODEL=gemma4:31b

ANTHROPIC_API_KEY 的值隨便填，因為 Ollama 不需要認證，但 Claude Code 要求這個變數不能是空的。設完之後啟動 claude，所有請求就會轉到本機的 Gemma 4。

如果不想在本機跑（31B 需要至少 17 GB 記憶體），Ollama 現在有雲端選項。透過跟 NVIDIA 合作的 Blackwell GPU 基礎設施，一行指令就能在雲端跑：

ollama launch claude --model gemma4:31b-cloud

另一個選擇是用 LiteLLM 當中間層，這樣切換模型更方便：

pip install litellm
litellm --model ollama/gemma4:31b --port 8000

也有開發者用 llama-server 搭配 TurboQuant 量化，在單張 RTX 4090 上跑 Gemma 4 26B 配 262K context。GitHub 上的 gemma4-turboquant-bench 專案有完整設定文件。

實際寫程式的體驗

接上之後跑了幾類任務：

日常程式碼生成——寫 React component、API endpoint、資料庫 query 這些標準工作，Gemma 4 31B 的品質大概是雲端模型的 85-90%。對大部分開發者的日常需求來說夠用了。

除錯和重構——中等複雜度的 bug 可以處理，但碰到跨多個檔案的架構問題或微妙的並發錯誤，品質落差就比較明顯。這跟 Hacker News 上開發者的回饋一致。

Agentic 工作流——這裡要注意。Gemma 4 26B 的 τ2-bench agentic 測試只有 68%，而且 26B MoE 在 tool-use 鏈太長的時候容易失控。gemma4-turboquant-bench 的開發者特別在 CLAUDE.md 裡加了限制：一次只能呼叫一個工具、禁止多步規劃，避免超出模型的規劃能力。

成本面——這可能是最有感的差異。Claude Code Pro 月費 USD 100（約 NTD 3,200,000 ÷ 100 = 約 NTD 3,200），Cursor 月費 USD 20-40。用 Gemma 4 本地跑，token 成本是零。即使走 API，Lightning AI 上 Gemma 4 31B 的定價是每百萬 token USD 0.20（輸入 USD 0.14），跟 Claude 的 API 定價差了一到兩個數量級。

有開發者花了一整天用 Gemma 4 取代付費工具，結論是：簡單任務（寫 boilerplate、跑測試、解釋錯誤訊息）完全可以用 Gemma 4 處理；複雜任務（全專案重構、架構決策）還是需要雲端模型。

跟 OpenClaw 的整合

OpenClaw 生態系也快速跟上。Ollama 的提供者外掛可以自動偵測本機的 Ollama 實例（http://127.0.0.1:11434），設定 Gemma 4 之後就能在 OpenClaw 裡用免費的本地模型。

有人拍了一支影片叫「Google Just Made OpenClaw Free」，示範在 MacBook Air M4 16GB 上跑 OpenClaw + Gemma 4 的全流程，獲得超過 1,100 個讚。Latent.Space 的 AI News 也報導了這個趨勢：Ollama 在雲端上線 Gemma 4（跑在 NVIDIA Blackwell GPU 上），讓 OpenClaw 和 Claude-style 工作流不需要自己架伺服器。

Gemma 4 的社群微調生態

Gemma 4 發布一週內，Hugging Face 上已經出現值得注意的微調版本。TeichAI 發布了 gemma-4-31B-it-Claude-Opus-Distill，用 Claude Opus 4.6 的高推理強度輸出做監督式微調，目標是把 Claude 的推理模式「蒸餾」進 Gemma 4 的架構裡。他們用 Unsloth 做記憶體和算力最佳化，訓練資料來自高品質推理軌跡。

Google 官方統計，自第一代 Gemma 發布以來，開發者下載次數超過 4 億次，社群建立了超過 10 萬個微調變體。Gemma 4 發布不到一週就突破 200 萬下載。

開源 AI 的競爭格局

Gemma 4 的 Apache 2.0 授權在開源 AI 圈引發了授權討論。VentureBeat 的報導提到一個有趣的反向趨勢：部分中國 AI 實驗室（特別是阿里巴巴最新的 Qwen 模型）正在從完全開放的釋出模式收回，Google 反而走向更開放。

目前開源程式開發模型的主要競爭者：

模型	參數量	授權	LiveCodeBench v6	特色
Gemma 4 31B	31B	Apache 2.0	80.0%	原生多模態、函數呼叫
Llama 4	MoE	自訂授權	77.1%	超長 context window
Qwen3.5 397B	397B	部分限制	—	極端推理能力
DeepSeek V4	—	開源	52.0%	IMO/IOI/ICPC 2026 金牌
GLM-5	—	開源	—	BenchLM 排名第一

對開發者來說，實際選擇取決於用途。如果你需要一個免費、可在消費級硬體上跑、授權完全乾淨的程式開發模型，Gemma 4 目前是最均衡的選擇。如果你需要極端深度推理（數學競賽等級），GLM-5 或 DeepSeek V3.2-Speciale 可能更合適。如果你需要最長的 context window，Llama 4 Scout 有優勢。

我的判斷

Gemma 4 跑在 Claude Code 上，對大概七成的日常程式開發工作來說夠用了。剩下三成需要深度架構推理或複雜多檔案重構的場景，還是得切回 Claude Sonnet 或 GPT-5 等級的雲端模型。

最聰明的做法是混合部署：日常用 Gemma 4 本地跑（零成本、資料不出機器），碰到硬問題再切到雲端。OpenClaw 和 Claude Code 都支援快速切換模型，這個工作流已經很成熟了。

對企業來說，Apache 2.0 授權移除了最大的法務障礙。你可以把 Gemma 4 部署在內部伺服器上，接上 Claude Code 的 agent 框架，敏感程式碼完全不需要離開公司網路。這對金融業和醫療業等有資料落地需求的產業特別有價值。

Gemma 4 跟 Claude Code 搭配的效果好嗎？

效果取決於任務類型。日常程式碼生成（React 元件、API、資料庫查詢）品質大約是 Claude Sonnet 的 85-90%。複雜架構決策和多檔案重構的品質落差較明顯。建議日常用 Gemma 4 本地跑省成本，硬問題切雲端模型。

Gemma 4 31B 需要什麼硬體？

4-bit 量化版需要 17-20 GB 記憶體（RAM + VRAM 或統一記憶體）。M2/M3/M4 MacBook Pro 16GB 版本可以勉強跑，24GB 或以上會比較順。NVIDIA RTX 4090（24GB VRAM）可以跑。如果記憶體不夠，26B MoE 版本只需 16-18 GB，效能只差 2-3 個百分點。

Gemma 4 是真正的開源嗎？

Gemma 4 用 Apache 2.0 授權，這是目前最寬鬆的開源授權之一。模型權重可以自由下載、商用、修改、再散布，沒有用戶數限制。不過訓練資料和完整訓練程式碼沒有公開，嚴格來說是「開放權重」（open-weight）而非完全開源。

Gemma 4 跟 Llama 4 怎麼選？

兩者都是 2025-2026 年的頂級開源多模態模型。Gemma 4 的優勢在授權（Apache 2.0 vs Llama 自訂授權）和原生語音支援。Llama 4 的 Scout 版本有更長的 context window。在程式開發基準測試上，Gemma 4 31B 略勝 Llama 4（LiveCodeBench 80.0% vs 77.1%）。

用 Gemma 4 完全取代付費 AI 程式工具可行嗎？

短期內不完全可行。Gemma 4 可以覆蓋大部分簡單到中等複雜度的工作，但在需要深度推理的場景（全專案重構、複雜除錯、架構設計），跟 Claude Code Pro 或 Cursor 的原生模型還有 10-15% 的品質差距。最實際的做法是混合部署，用免費本地模型處理日常工作，硬問題再用付費服務。

引用來源

Author Insight

我們團隊在 Gemma 4 發布第二天就把它接上 Claude Code 做內部測試。坦白說，對大部分日常的 Vibe Coding 工作來說，Gemma 4 31B 的品質已經讓人不太願意掏 Claude Code Pro 的月費了。但碰到需要跨五六個檔案做重構的場景，品質落差一下就出來了，特別是在理解複雜的依賴關係和副作用這塊。

我比較看好的是混合部署模式。拿 Gemma 4 跑在本機處理八成的快速任務（寫測試、生成 boilerplate、解釋報錯），剩下兩成真正需要深度推理的工作再切到 Claude。這樣一來，月費支出大概可以砍掉六七成，而且敏感程式碼不用離開公司網路。

如果你在評估 AI 程式開發工具的導入策略，或想了解 Gemma 4 在你的技術棧裡怎麼跑，歡迎跟 Tenten 團隊預約諮詢。

Hey, I'm Skye, and I believe every creator deserves the tools to turn their imagination into reality.