實測 M5 Max 跑 35B AI 模型！Ollama 加上 MLX 效能竟然飆到這種地步？

Ollama MLX M5 Max 本地 AI 實測：MacBook Pro 跑 35B Coding Agent 的現實條件

Ollama MLX M5 Max 的重點，是 Apple Silicon 本地推論第一次有了可驗證的 35B coding agent 效能基準。

Apple M5 Max 最高支援 128 GB 統一記憶體與 614 GB/s 記憶體頻寬；Ollama 0.19 preview 在 M5 Max 上以 Qwen3.5-35B-A3B NVFP4 測試，公布 1,810 tokens/s prefill 與 112 tokens/s decode，並稱 int4 可達 1,851 tokens/s prefill、134 tokens/s decode。

這價值，不在開箱一台 128 GB MacBook Pro，而在展示本地模型開始接近「可操作 repo、可呼叫工具、可改框架版本」的工作狀態。作者先測小模型，再切到 Ollama 推薦的 Qwen3.5 35B NVFP4，最後讓 agent 讀取一個私有 .NET repo，判斷缺少 ASP.NET Core 8，並把專案改到 .NET 10 後執行。這是一段實測影片，不是嚴格實驗；本文會把影片中的秒數視為示範者環境結果，把官方公開資料當作判斷基準。

先把可查證資料釘住

面向	官方資料	對本地 AI 的意義
M5 Max 統一記憶體	最高 128 GB	可容納 35B 級模型與較長上下文
M5 Max 記憶體頻寬	最高 614 GB/s	大模型推論同時受 CPU 與記憶體搬運成本影響
M5 Max LLM prompt processing	比 M1 Max 最高快 6.7 倍	Apple 把 LLM 直接放進效能敘事
M5 Max AI image generation	比 M1 Max 最高快 8 倍	逐字稿的「8 倍 AI」應限定在 Apple 測試情境
Ollama 0.19 prefill	1,810 tokens/s，0.18 為 1,154 tokens/s	官方測得約 57% 提升
Ollama 0.19 decode	112 tokens/s，0.18 為 58 tokens/s	官方測得約 93% 提升
Ollama int4 預告	1,851 tokens/s prefill、134 tokens/s decode	仍屬 Ollama 對 0.19 的 preview 敘述
.NET 10	Microsoft 已提供 ASP.NET Core Runtime 10.0.x	影片中的 .NET 10 遷移具備平台現實性

MLX 為什麼會讓 Ollama 在 Mac 上變快

MLX 是 Apple 開源的機器學習陣列框架，設計重點是 Apple Silicon 的統一記憶體。Apple 的 MLX 研究頁說，MLX 的運算可以在 CPU 或 GPU 上執行，不需要反覆搬移記憶體；這對 LLM 推論很關鍵，因為 prompt processing 與生成速度常被記憶體頻寬、KV cache 與量化格式牽動。

Ollama 的 2026 年 3 月 30 日 blog 說，Ollama on Apple Silicon 在 preview 中改以 MLX 為基礎，並在 M5、M5 Pro、M5 Max 上使用 GPU Neural Accelerators 加速 TTFT 與 tokens per second。它也明確把情境指向 OpenClaw、Claude Code、OpenCode 與 Codex 這類 coding agent。

這裡要補一句冷靜話：MLX 讓底層推論更快，不代表每個 agent 任務都會等比例變快。Agent 的總時間還包含讀檔、搜尋、工具呼叫、編譯、測試、人工批准與錯誤復原。影片中 35B 模型能快速回應很有代表性，但真正要量測的是完整任務時間，而非單次聊天速度。

NVFP4 是效能故事，不是 Apple 晶片原生格式

逐字稿提到 NVIDIA 的 NVFP4。這點容易誤讀：NVFP4 是 NVIDIA 為 Blackwell 世代低精度推論提出的 4-bit 浮點格式；Ollama 說它現在使用 NVFP4 格式，以維持模型準確度並降低推論工作負載的記憶體頻寬與儲存需求。換句話說，這是模型量化與推論格式的故事，不是說 MacBook Pro 裡有 NVIDIA GPU。

這個策略有商業意義。若同一個模型格式能在雲端生產環境與本地端測試中更接近，開發者可用 Mac 做更多早期驗證，再把高併發或高可靠性工作交給雲端。對軟體團隊而言，本地 Mac 變成 private AI workstation，不必把每個 prompt、repo 片段與初稿都送到雲端。

影片實測真正展示了什麼

作者展示三段工作。第一段是聊天：小模型回答問候語，Gemma 4 4B 顯示 2.6 秒思考，Qwen3.5 9B 顯示 18.1 秒。這組比較不能當 benchmark，因為 prompt、模型設定、採樣參數與 UI 顯示方式都未固定。

第二段是 coding prompt：要求生成 C# Selenium、Page Object Model、lazy pattern 與 DI 程式碼。作者認為 Gemma 4 很快，但輸出品質不夠好；Qwen3.5 35B NVFP4 的回答更接近可用。這符合模型規模與 coding tuning 的直覺，但仍應以固定測試集驗證。

第三段最值得看：作者讓本地模型接到 coding agent，請它讀取私有 .NET repo，回答「這個 repository 是什麼」，再嘗試執行應用程式。Agent 發現缺少 ASP.NET Core 8，作者要求改成 .NET 10，模型讀取 .csproj 並修改。Microsoft 已提供 .NET 10 與 ASP.NET Core 10.0 runtime，因此這個改版方向不是空想；但正式專案仍要檢查 NuGet 套件、breaking changes、測試與部署環境。

本地 coding agent 的商業結構

本地推論把 token 成本轉成硬體折舊、電力、維護與治理成本。以 Apple 官方價格看，14 吋 M5 Max MacBook Pro 美國定價從 USD 3,599 起，16 吋從 USD 3,899 起；若配置 128 GB 統一記憶體與高容量 SSD，實際成本會更高。以匯率粗估，USD 3,599 約 NTD 115,000，USD 3,899 約 NTD 125,000。

成本面向	本地 M5 Max + Ollama	雲端模型 API
初始成本	高，需要採購高階 Mac	低，通常從訂閱或 API 開始
每次任務成本	電力與設備折舊	token、API、平台月費
資料控制	repo 與逐字稿可留在本機	依供應商條款與設定
維護責任	自己處理模型、版本、相容性	供應商處理大部分推論基礎設施
適合任務	高頻改稿、repo 探索、原型、內部摘要	高可靠推理、多模態、團隊共享、尖峰負載

我會把這台機器定位成「高頻個人 AI 開發工作站」，不是雲端 API 的替代品。若團隊每天需要大量整理逐字稿、讀 repo、生成測試、改內部工具，本地端的邊際成本很有吸引力。若任務需要最新旗艦模型、多人稽核、集中權限控管與 SLA，雲端仍是主力。

風險：速度越快，越不能跳過審查

本地模型會讓人產生一種錯覺：資料在自己電腦裡，就比較安全。真正的風險在工具權限。當 agent 能讀檔、改檔、執行指令與呼叫外部工具時，它已經成為具備行動能力的軟體。

Ollama 的 Claude Code 整合文件也直接說，Claude Code 可以讀取、修改並執行工作目錄中的程式碼，開放模型可透過 Ollama 的 Anthropic-compatible API 使用。這使得本地模型有機會接上 agentic coding，但也要求更清楚的工作目錄、權限、版本控制與人工確認流程。

實務上，我會先訂四條規則。第一，所有本地 agent 任務都在獨立 repo 或 worktree 執行。第二，預設不給憑證、金流、客戶資料與 production 寫入權限。第三，每次修改後要跑測試或至少跑 build。第四，agent 可以建議改 .NET 版本，但不能只因為它說可以就合併。

FAQ

Ollama MLX M5 Max 跑 35B 模型的條件

適合做本地測試與高頻工作流。Apple M5 Max 最高支援 128 GB 統一記憶體，Ollama 也要求使用 Qwen3.5-35B-A3B preview 時 Mac 需要超過 32 GB 統一記憶體。企業仍要量測自己的任務集，尤其是工具呼叫與長上下文。

影片中的 8 倍 AI 效能是否正確？

方向正確，但要限定情境。Apple 官方說 M5 Pro 與 M5 Max 相對 M1 models 有最高 8 倍 AI performance；在 M5 Max 具體面向中，Apple 列出 AI image generation 比 M1 Max 最高快 8 倍，LLM prompt processing 比 M1 Max 最高快 6.7 倍。

NVFP4 在 Mac 上代表什麼？

NVFP4 代表 Ollama 使用 NVIDIA 的 4-bit 浮點格式來保存模型品質並降低記憶體與儲存壓力，不代表 MacBook Pro 使用 NVIDIA GPU。它讓本地測試與雲端推論格式更接近，這對開發者工作流有價值。

本地 coding agent 與 Claude Code / Codex 的取捨

不能直接畫等號。本地模型可以降低高頻任務成本，並提高資料控制；Claude Code、Codex 與其他雲端工具仍有模型能力、工具整合、團隊管理與雲端可用性的優勢。務實做法是混合路由：低風險高頻任務本地跑，高價值決策與複雜推理交給雲端。

權威引用

Author Insight

我會把這支影片視為本地 AI 工作站成熟度的訊號。過去 Mac 跑本地模型多半是興趣、隱私或離線備援；Ollama + MLX + M5 Max 讓它開始碰到真實工作：讀 repo、改設定、跑應用程式，甚至承接部分 agentic coding。

術語表

術語	本文用法
Ollama MLX M5 Max	指 Ollama 0.19 preview 在 Apple M5 Max 上使用 MLX 加速本地模型推論的組合
MLX	Apple 開源的機器學習陣列框架，針對 Apple Silicon 統一記憶體最佳化
Qwen3.5-35B-A3B NVFP4	Ollama preview 使用的 Qwen3.5 35B 級 coding 模型與量化格式
Prefill	模型處理 prompt 與上下文的階段
Decode	模型逐 token 生成輸出的階段
NVFP4	NVIDIA 提出的 4-bit 浮點格式，用於低精度推論
統一記憶體	Apple Silicon 讓 CPU、GPU 等單元共用的記憶體架構
Coding agent	能讀取程式碼、呼叫工具、修改檔案並執行測試的 AI 工具

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare