Ollama MLX M5 Max 本地 AI 實測:MacBook Pro 跑 35B Coding Agent 的現實條件
Ollama MLX M5 Max 的重點,是 Apple Silicon 本地推論第一次有了可驗證的 35B coding agent 效能基準。
Apple M5 Max 最高支援 128 GB 統一記憶體與 614 GB/s 記憶體頻寬;Ollama 0.19 preview 在 M5 Max 上以 Qwen3.5-35B-A3B NVFP4 測試,公布 1,810 tokens/s prefill 與 112 tokens/s decode,並稱 int4 可達 1,851 tokens/s prefill、134 tokens/s decode。
這價值,不在開箱一台 128 GB MacBook Pro,而在展示本地模型開始接近「可操作 repo、可呼叫工具、可改框架版本」的工作狀態。作者先測小模型,再切到 Ollama 推薦的 Qwen3.5 35B NVFP4,最後讓 agent 讀取一個私有 .NET repo,判斷缺少 ASP.NET Core 8,並把專案改到 .NET 10 後執行。這是一段實測影片,不是嚴格實驗;本文會把影片中的秒數視為示範者環境結果,把官方公開資料當作判斷基準。
先把可查證資料釘住
| 面向 | 官方資料 | 對本地 AI 的意義 |
|---|---|---|
| M5 Max 統一記憶體 | 最高 128 GB | 可容納 35B 級模型與較長上下文 |
| M5 Max 記憶體頻寬 | 最高 614 GB/s | 大模型推論同時受 CPU 與記憶體搬運成本影響 |
| M5 Max LLM prompt processing | 比 M1 Max 最高快 6.7 倍 | Apple 把 LLM 直接放進效能敘事 |
| M5 Max AI image generation | 比 M1 Max 最高快 8 倍 | 逐字稿的「8 倍 AI」應限定在 Apple 測試情境 |
| Ollama 0.19 prefill | 1,810 tokens/s,0.18 為 1,154 tokens/s | 官方測得約 57% 提升 |
| Ollama 0.19 decode | 112 tokens/s,0.18 為 58 tokens/s | 官方測得約 93% 提升 |
| Ollama int4 預告 | 1,851 tokens/s prefill、134 tokens/s decode | 仍屬 Ollama 對 0.19 的 preview 敘述 |
| .NET 10 | Microsoft 已提供 ASP.NET Core Runtime 10.0.x | 影片中的 .NET 10 遷移具備平台現實性 |
MLX 為什麼會讓 Ollama 在 Mac 上變快
MLX 是 Apple 開源的機器學習陣列框架,設計重點是 Apple Silicon 的統一記憶體。Apple 的 MLX 研究頁說,MLX 的運算可以在 CPU 或 GPU 上執行,不需要反覆搬移記憶體;這對 LLM 推論很關鍵,因為 prompt processing 與生成速度常被記憶體頻寬、KV cache 與量化格式牽動。
Ollama 的 2026 年 3 月 30 日 blog 說,Ollama on Apple Silicon 在 preview 中改以 MLX 為基礎,並在 M5、M5 Pro、M5 Max 上使用 GPU Neural Accelerators 加速 TTFT 與 tokens per second。它也明確把情境指向 OpenClaw、Claude Code、OpenCode 與 Codex 這類 coding agent。
這裡要補一句冷靜話:MLX 讓底層推論更快,不代表每個 agent 任務都會等比例變快。Agent 的總時間還包含讀檔、搜尋、工具呼叫、編譯、測試、人工批准與錯誤復原。影片中 35B 模型能快速回應很有代表性,但真正要量測的是完整任務時間,而非單次聊天速度。
NVFP4 是效能故事,不是 Apple 晶片原生格式
逐字稿提到 NVIDIA 的 NVFP4。這點容易誤讀:NVFP4 是 NVIDIA 為 Blackwell 世代低精度推論提出的 4-bit 浮點格式;Ollama 說它現在使用 NVFP4 格式,以維持模型準確度並降低推論工作負載的記憶體頻寬與儲存需求。換句話說,這是模型量化與推論格式的故事,不是說 MacBook Pro 裡有 NVIDIA GPU。
這個策略有商業意義。若同一個模型格式能在雲端生產環境與本地端測試中更接近,開發者可用 Mac 做更多早期驗證,再把高併發或高可靠性工作交給雲端。對軟體團隊而言,本地 Mac 變成 private AI workstation,不必把每個 prompt、repo 片段與初稿都送到雲端。
影片實測真正展示了什麼
作者展示三段工作。第一段是聊天:小模型回答問候語,Gemma 4 4B 顯示 2.6 秒思考,Qwen3.5 9B 顯示 18.1 秒。這組比較不能當 benchmark,因為 prompt、模型設定、採樣參數與 UI 顯示方式都未固定。
第二段是 coding prompt:要求生成 C# Selenium、Page Object Model、lazy pattern 與 DI 程式碼。作者認為 Gemma 4 很快,但輸出品質不夠好;Qwen3.5 35B NVFP4 的回答更接近可用。這符合模型規模與 coding tuning 的直覺,但仍應以固定測試集驗證。
第三段最值得看:作者讓本地模型接到 coding agent,請它讀取私有 .NET repo,回答「這個 repository 是什麼」,再嘗試執行應用程式。Agent 發現缺少 ASP.NET Core 8,作者要求改成 .NET 10,模型讀取 .csproj 並修改。Microsoft 已提供 .NET 10 與 ASP.NET Core 10.0 runtime,因此這個改版方向不是空想;但正式專案仍要檢查 NuGet 套件、breaking changes、測試與部署環境。
本地 coding agent 的商業結構
本地推論把 token 成本轉成硬體折舊、電力、維護與治理成本。以 Apple 官方價格看,14 吋 M5 Max MacBook Pro 美國定價從 USD 3,599 起,16 吋從 USD 3,899 起;若配置 128 GB 統一記憶體與高容量 SSD,實際成本會更高。以匯率粗估,USD 3,599 約 NTD 115,000,USD 3,899 約 NTD 125,000。
| 成本面向 | 本地 M5 Max + Ollama | 雲端模型 API |
|---|---|---|
| 初始成本 | 高,需要採購高階 Mac | 低,通常從訂閱或 API 開始 |
| 每次任務成本 | 電力與設備折舊 | token、API、平台月費 |
| 資料控制 | repo 與逐字稿可留在本機 | 依供應商條款與設定 |
| 維護責任 | 自己處理模型、版本、相容性 | 供應商處理大部分推論基礎設施 |
| 適合任務 | 高頻改稿、repo 探索、原型、內部摘要 | 高可靠推理、多模態、團隊共享、尖峰負載 |
我會把這台機器定位成「高頻個人 AI 開發工作站」,不是雲端 API 的替代品。若團隊每天需要大量整理逐字稿、讀 repo、生成測試、改內部工具,本地端的邊際成本很有吸引力。若任務需要最新旗艦模型、多人稽核、集中權限控管與 SLA,雲端仍是主力。
風險:速度越快,越不能跳過審查
本地模型會讓人產生一種錯覺:資料在自己電腦裡,就比較安全。真正的風險在工具權限。當 agent 能讀檔、改檔、執行指令與呼叫外部工具時,它已經成為具備行動能力的軟體。
Ollama 的 Claude Code 整合文件也直接說,Claude Code 可以讀取、修改並執行工作目錄中的程式碼,開放模型可透過 Ollama 的 Anthropic-compatible API 使用。這使得本地模型有機會接上 agentic coding,但也要求更清楚的工作目錄、權限、版本控制與人工確認流程。
實務上,我會先訂四條規則。第一,所有本地 agent 任務都在獨立 repo 或 worktree 執行。第二,預設不給憑證、金流、客戶資料與 production 寫入權限。第三,每次修改後要跑測試或至少跑 build。第四,agent 可以建議改 .NET 版本,但不能只因為它說可以就合併。
FAQ
Ollama MLX M5 Max 跑 35B 模型的條件
適合做本地測試與高頻工作流。Apple M5 Max 最高支援 128 GB 統一記憶體,Ollama 也要求使用 Qwen3.5-35B-A3B preview 時 Mac 需要超過 32 GB 統一記憶體。企業仍要量測自己的任務集,尤其是工具呼叫與長上下文。
影片中的 8 倍 AI 效能是否正確?
方向正確,但要限定情境。Apple 官方說 M5 Pro 與 M5 Max 相對 M1 models 有最高 8 倍 AI performance;在 M5 Max 具體面向中,Apple 列出 AI image generation 比 M1 Max 最高快 8 倍,LLM prompt processing 比 M1 Max 最高快 6.7 倍。
NVFP4 在 Mac 上代表什麼?
NVFP4 代表 Ollama 使用 NVIDIA 的 4-bit 浮點格式來保存模型品質並降低記憶體與儲存壓力,不代表 MacBook Pro 使用 NVIDIA GPU。它讓本地測試與雲端推論格式更接近,這對開發者工作流有價值。
本地 coding agent 與 Claude Code / Codex 的取捨
不能直接畫等號。本地模型可以降低高頻任務成本,並提高資料控制;Claude Code、Codex 與其他雲端工具仍有模型能力、工具整合、團隊管理與雲端可用性的優勢。務實做法是混合路由:低風險高頻任務本地跑,高價值決策與複雜推理交給雲端。
權威引用
- Apple Newsroom — Apple introduces MacBook Pro with all-new M5 Pro and M5 Max
- Apple Support — MacBook Pro (14-inch, M5 Pro or M5 Max) Tech Specs
- Apple Open Source — MLX
- Apple Machine Learning Research — Exploring LLMs with MLX and the Neural Accelerators in the M5 GPU
Author Insight
我會把這支影片視為本地 AI 工作站成熟度的訊號。過去 Mac 跑本地模型多半是興趣、隱私或離線備援;Ollama + MLX + M5 Max 讓它開始碰到真實工作:讀 repo、改設定、跑應用程式,甚至承接部分 agentic coding。
術語表
| 術語 | 本文用法 |
|---|---|
| Ollama MLX M5 Max | 指 Ollama 0.19 preview 在 Apple M5 Max 上使用 MLX 加速本地模型推論的組合 |
| MLX | Apple 開源的機器學習陣列框架,針對 Apple Silicon 統一記憶體最佳化 |
| Qwen3.5-35B-A3B NVFP4 | Ollama preview 使用的 Qwen3.5 35B 級 coding 模型與量化格式 |
| Prefill | 模型處理 prompt 與上下文的階段 |
| Decode | 模型逐 token 生成輸出的階段 |
| NVFP4 | NVIDIA 提出的 4-bit 浮點格式,用於低精度推論 |
| 統一記憶體 | Apple Silicon 讓 CPU、GPU 等單元共用的記憶體架構 |
| Coding agent | 能讀取程式碼、呼叫工具、修改檔案並執行測試的 AI 工具 |
