MiniMax M3:全能型開源 AI 模型的崛起與效能解析
TL;DR: MiniMax M3 是一款整合多模態與長文本處理能力的開源權重模型。它採用 MiniMax Sparse Attention(MSA)架構,支援高達 100 萬 token 的上下文窗口。實測數據指出,M3 在多項程式開發與邏輯推理基準中超越或逼近 GPT-5.5 與 Claude 4.7 Opus,非常適合需要複雜代理任務與長週期專案的開發者。
核心架構與多模態突破
多數模型在後期才加入視覺功能,但 M3 從訓練初期便同步處理文字與影像。這種原生多模態設計使其展現出高度的空間理解與版面推理能力。在表單填寫測試中,M3 能夠精確解析字距與排版,將資訊放置於空白影像的正確座標上。
M3 的另一項優勢在於大規模硬體層級優化。在 Nvidia Hopper 架構的測試中,給定一份任務描述與無法執行的 Triton 骨架程式碼,M3 在 24 小時內自主執行 147 次優化與將近 2,000 次工具呼叫。此作業使硬體使用率從 7.6% 提升至 71.3%,實現 9.4 倍的速度提升,且全程無人工介入。
MiniMax M3 agent orchestration 的真正亮點,不在單次寫程式能力,而在 2026 年 6 月 1 日發布後呈現出的工具呼叫節制、流程監控能力與多 agent 任務穩定度。 依照作者這次個人實測,M3 在 worker 與 orchestrator 兩種角色都完成任務;但在影片選幀、靜幀判斷與多模態剪輯場景裡,它仍沒有達到 Codex 產出的標準答案。
這篇定位為工作現場紀錄,而非公開排行榜。一位內容創作者兼開發者,把 MiniMax M3、DeepSeek V4 Pro、Qwen 3.6 27B、Mimo 2.5 Pro、Kimi K2.6 放進自己的開發與影片製作流程裡,看模型能不能真的把事情做完。
外部事實先放清楚。MiniMax 官方部落格顯示,M3 於 2026 年 6 月 1 日發布,官方主張包含 1M context、MiniMax Sparse Attention(MSA)、native multimodality、coding 與 agentic task。官方同頁列出的測試數字包括 SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。這些是官方測試,不等於作者個人場景的結論。
這次測試其實問了三個問題
作者設計了三個場景。第一,M3 作為 worker,被 Codex 派任務修 bug。第二,M3 作為 orchestrator,自己編排多 agent 工作流程。第三,把影片轉成 film strip,再要求模型從膠卷式圖片裡挑選關鍵靜幀,合成內容創作需要的片段。
這三題的難度遞增。修 bug 看的是單一任務完成度;編排流程看的是規劃、監控、糾偏與提交節點;影片選幀看的是多模態理解能不能轉成可用剪輯結果。
| 測試場景 | M3 表現 | 主要對照 | 作者判斷 |
|---|---|---|---|
| Worker 修 bug | 全部模型通過 | DeepSeek、Qwen、Mimo | M3 工具呼叫少,效率好 |
| Orchestrator 建 film strip skill | 完成 5 節點流程 | DeepSeek、Qwen、Mimo、Kimi | M3 勝出,流程較穩 |
| 多模態選幀剪輯 | 有輸出但不如 Codex | Qwen、Kimi | 三者都未達作者標準 |
Worker 測試:通過只是門檻,成本才是重點
第一個任務是把 MiniMax M3 接進語音控制工具後,修掉「模型配不上」的 bug。作者讓 Codex 當 orchestrator,四個模型只當 worker。MiniMax M3、DeepSeek V4 Pro、Qwen 3.6 27B、Mimo 2.5 Pro 都完成了。
所以這題不能證明誰最聰明。真正可觀察的差異是成本行為。作者提到,DeepSeek 的總 token 消耗最低,MiniMax M3 次之;M3 的工具呼叫次數最少,雖然中間有失敗呼叫,但整體效率高。這個訊號值得注意。對企業導入 agent 來說,模型能做完只是門檻;能不能用較少工具呼叫把流程收斂,才會影響月帳單和等待時間。
MiniMax 官方也把 M3 放在 agentic coding 位置,明顯高於單純聊天模型。M3 模型頁強調自動任務分解、工具呼叫、多步推理與 1M context。作者的 worker 測試沒有驗證全部官方主張,但它對「工具呼叫節制」提供了一次實務側觀察。
Orchestrator 測試:真正差距出現在工作流
第二個任務更有代表性。作者想要一個 video film strip skill:把影片切成膠卷式靜幀圖,讓模型能看圖挑時間戳,再把選出的靜幀交給剪輯流程。
各模型自己當 orchestrator,產生多 agent 工作流。Qwen 3.6 產出 5 節點線性流程:設計、實作、測試、review、提交。MiniMax M3 也是類似 5 節點,只是命名不同。Mimo 也走 5 節點。DeepSeek 少了提交節點,最後由主控自己手動完成;Kimi 連續建立多個 run,前幾次跑不通,最後用單節點完成。
作者不認可 DeepSeek 與 Kimi 的原因很合理。DeepSeek 的 PR 結果可以,但最終成果來自主控補救。Kimi 最後能交差,但它把多 agent 協作退回單 agent 實作。若測試目標是 orchestrator,這兩種結果都該扣分。
Anthropic 在 2026 年 5 月 28 日發布 Claude Code Dynamic Workflows,其重點也是讓 Claude 動態寫 orchestration script,並協調大量 subagents。這讓本次測試有一個更清楚的參照:未來 agent 模型的競爭,核心會落在規劃、監控、修正、驗證與成本效率。
為什麼 M3 在這輪勝出
作者給 MiniMax M3 勝方,原因不是 film strip 圖最好。DeepSeek 的圖其實更好,因為它有依 5 秒間隔標示時間戳,AI 比較容易讀出要取哪一張。但 DeepSeek 的好結果來自主控補救,流程考核不合格。
M3 的價值在另一件事:它沒有頻繁打斷自己,也沒有大幅增加狀態查詢。Mimo 的 DAG get status 呼叫很多,作者觀察到 77 次等級的密集糾偏。糾偏本身是好事,但太密集會讓 agent 一直懷疑流程有問題,token 與工具呼叫成本也會上升。
這裡的結論比較精準:M3 顯示出被訓練過的多 agent 編排感。它會監控,卻不過度監控;會推進流程,卻不把工作拆到失控。這符合 MiniMax 官方對 MiniMax Code Agent Team 的描述:多階段、可調整、可反思的 agent 協作。但作者的測試仍是單一場景,不能外推成所有任務都會如此。
多模態測試:影片剪輯是另一種難題
第三輪把第二輪產出的 film strip skill 用回影片任務。film strip 左上角有時間戳與幀號,模型要讀圖、挑幀、合成最後影片。這很貼近創作者工作流:重點在時間序列判斷,包含物件何時消失、手是否還在、桌面是否清乾淨。
MiniMax M3、Qwen 3.6、Kimi K2.6 都有結果,但作者認為沒有真正贏。M3 有「物件逐步減少」的效果,但第五幀有物件沒識別出來。Qwen 3.6 最後能清掉整張桌面,可是第四幀仍有手。Kimi 沒有手的問題,卻出現疑似重複幀,最後一幀也殘留物件。
這正是多模態 agent 的麻煩之處。文件理解、圖片問答、螢幕操作,和影片剪輯用的 temporal reasoning 是不同能力。官方提到 M3 支援 image、video input 與 computer use;作者測到的是更細的創作場景:用靜幀序列做剪輯決策。這裡 M3 夠用於 coding 輔助,但還不夠成為可靠剪輯助理。
對團隊導入 agent 的啟示
如果你只看「有沒有完成」,四個 worker 都 pass,這個測試沒有太多資訊量。若你看工具呼叫、token、流程節點、糾偏頻率,M3 的訊號就變清楚。
企業導入 agent 時,應該至少分三層評估。第一層是任務完成率。第二層是 token 與工具呼叫成本。第三層是 orchestrator 的行為品質:它有沒有監控錯的地方,有沒有在該停時停下來,有沒有用補救動作掩蓋流程設計失敗。
MiniMax M3 在作者測試中最像能進入第二層與第三層討論的國產模型。Qwen 3.6 的穩定完成也值得留意。DeepSeek 的產出能力強,但要區分「結果好」與「流程好」。Kimi 在多次 run 後退回單節點,對多 agent 評測而言並不理想。
FAQ
MiniMax M3 什麼時候發布?
MiniMax 官方部落格顯示,MiniMax M3 在 2026 年 6 月 1 日正式發布。原始逐字稿提到「昨天發布」,本文改以官方日期為準。
這次測試能證明 MiniMax M3 比其他模型強嗎?
不能。這是作者個人工作流中的單次測試。它能指出 M3 在工具呼叫節制與流程監控上的好跡象,但不能代表所有 coding、agent、多模態任務。
M3 的多模態能力適合影片剪輯嗎?
以作者測試來看,還不到可靠剪輯助理標準。它能產出結果,卻會漏判靜幀中的物件與時間序列變化。
Agent orchestrator 評測該看什麼?
除了任務是否完成,還要看流程節點是否完整、是否有提交成果物、糾偏是否過度、工具呼叫是否合理,以及 manager 是否用手動補救掩蓋流程失敗。
權威引用
- MiniMax — MiniMax M3: Frontier Coding, 1M Context, Native Multimodality
- MiniMax — MiniMax M3 model page
- Claude — Introducing dynamic workflows in Claude Code
- Terminal-Bench — Terminal-Bench 2.1
- Scale AI — SWE-Bench Pro: Raising the Bar for Agentic Coding
Author Insight
真正有價值的 agent 測試,應該把模型放回工作現場。這次素材最值得保留的觀點,是作者沒有被單一 PR 品質迷惑,而是追問流程是否自己跑完、工具呼叫是否節制、manager 是否偷補救。這種評測方式,比單純問「誰贏了」更接近企業導入時會遇到的問題。
Tenten 長期協助品牌與技術團隊把 AI 工具導入內容、開發與知識工作流,評估重點會同時看成果、成本與可維護性。若你正在設計 agent 工作流或導入 coding assistant,可以和 Tenten 團隊預約諮詢,一起把測試從展示影片推進到可重複的評估框架。
術語表
| 術語 | 本文用法 |
|---|---|
| Agent orchestration | Agent 編排,指 manager 模型拆解任務、派工、監控與整合成果 |
| Worker | 被派任務的執行模型 |
| Orchestrator | 負責規劃與監控多 agent 流程的主控模型 |
| Film strip | 膠卷式靜幀圖,用於從影片中挑選時間戳 |
| Tool call | 工具呼叫,指模型呼叫外部工具、查詢狀態或執行命令 |
