MiniMax M3 實測：agent 編排效率很好，多模態還沒到剪輯工作流標準

Q: 這次測試能證明 MiniMax M3 比其他模型強嗎？

不能。這是作者個人工作流中的單次測試，只能說明特定場景裡的效率與流程行為。

Q: M3 的多模態能力適合影片剪輯嗎？

以作者測試來看，M3 可以產出影片選幀結果，但仍會漏判物件與時間序列細節。

Q: Agent orchestrator 評測該看什麼？

應同時觀察任務完成率、流程節點完整性、工具呼叫成本、糾偏頻率與成果物提交品質。

MiniMax M3：全能型開源 AI 模型的崛起與效能解析

TL;DR： MiniMax M3 是一款整合多模態與長文本處理能力的開源權重模型。它採用 MiniMax Sparse Attention（MSA）架構，支援高達 100 萬 token 的上下文窗口。實測數據指出，M3 在多項程式開發與邏輯推理基準中超越或逼近 GPT-5.5 與 Claude 4.7 Opus，非常適合需要複雜代理任務與長週期專案的開發者。

核心架構與多模態突破

多數模型在後期才加入視覺功能，但 M3 從訓練初期便同步處理文字與影像。這種原生多模態設計使其展現出高度的空間理解與版面推理能力。在表單填寫測試中，M3 能夠精確解析字距與排版，將資訊放置於空白影像的正確座標上。

M3 的另一項優勢在於大規模硬體層級優化。在 Nvidia Hopper 架構的測試中，給定一份任務描述與無法執行的 Triton 骨架程式碼，M3 在 24 小時內自主執行 147 次優化與將近 2,000 次工具呼叫。此作業使硬體使用率從 7.6% 提升至 71.3%，實現 9.4 倍的速度提升，且全程無人工介入。

MiniMax M3 agent orchestration 的真正亮點，不在單次寫程式能力，而在 2026 年 6 月 1 日發布後呈現出的工具呼叫節制、流程監控能力與多 agent 任務穩定度。 依照作者這次個人實測，M3 在 worker 與 orchestrator 兩種角色都完成任務；但在影片選幀、靜幀判斷與多模態剪輯場景裡，它仍沒有達到 Codex 產出的標準答案。

這篇定位為工作現場紀錄，而非公開排行榜。一位內容創作者兼開發者，把 MiniMax M3、DeepSeek V4 Pro、Qwen 3.6 27B、Mimo 2.5 Pro、Kimi K2.6 放進自己的開發與影片製作流程裡，看模型能不能真的把事情做完。

外部事實先放清楚。MiniMax 官方部落格顯示，M3 於 2026 年 6 月 1 日發布，官方主張包含 1M context、MiniMax Sparse Attention（MSA）、native multimodality、coding 與 agentic task。官方同頁列出的測試數字包括 SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。這些是官方測試，不等於作者個人場景的結論。

這次測試其實問了三個問題

作者設計了三個場景。第一，M3 作為 worker，被 Codex 派任務修 bug。第二，M3 作為 orchestrator，自己編排多 agent 工作流程。第三，把影片轉成 film strip，再要求模型從膠卷式圖片裡挑選關鍵靜幀，合成內容創作需要的片段。

這三題的難度遞增。修 bug 看的是單一任務完成度；編排流程看的是規劃、監控、糾偏與提交節點；影片選幀看的是多模態理解能不能轉成可用剪輯結果。

測試場景	M3 表現	主要對照	作者判斷
Worker 修 bug	全部模型通過	DeepSeek、Qwen、Mimo	M3 工具呼叫少，效率好
Orchestrator 建 film strip skill	完成 5 節點流程	DeepSeek、Qwen、Mimo、Kimi	M3 勝出，流程較穩
多模態選幀剪輯	有輸出但不如 Codex	Qwen、Kimi	三者都未達作者標準

Worker 測試：通過只是門檻，成本才是重點

第一個任務是把 MiniMax M3 接進語音控制工具後，修掉「模型配不上」的 bug。作者讓 Codex 當 orchestrator，四個模型只當 worker。MiniMax M3、DeepSeek V4 Pro、Qwen 3.6 27B、Mimo 2.5 Pro 都完成了。

所以這題不能證明誰最聰明。真正可觀察的差異是成本行為。作者提到，DeepSeek 的總 token 消耗最低，MiniMax M3 次之；M3 的工具呼叫次數最少，雖然中間有失敗呼叫，但整體效率高。這個訊號值得注意。對企業導入 agent 來說，模型能做完只是門檻；能不能用較少工具呼叫把流程收斂，才會影響月帳單和等待時間。

MiniMax 官方也把 M3 放在 agentic coding 位置，明顯高於單純聊天模型。M3 模型頁強調自動任務分解、工具呼叫、多步推理與 1M context。作者的 worker 測試沒有驗證全部官方主張，但它對「工具呼叫節制」提供了一次實務側觀察。

Orchestrator 測試：真正差距出現在工作流

第二個任務更有代表性。作者想要一個 video film strip skill：把影片切成膠卷式靜幀圖，讓模型能看圖挑時間戳，再把選出的靜幀交給剪輯流程。

各模型自己當 orchestrator，產生多 agent 工作流。Qwen 3.6 產出 5 節點線性流程：設計、實作、測試、review、提交。MiniMax M3 也是類似 5 節點，只是命名不同。Mimo 也走 5 節點。DeepSeek 少了提交節點，最後由主控自己手動完成；Kimi 連續建立多個 run，前幾次跑不通，最後用單節點完成。

作者不認可 DeepSeek 與 Kimi 的原因很合理。DeepSeek 的 PR 結果可以，但最終成果來自主控補救。Kimi 最後能交差，但它把多 agent 協作退回單 agent 實作。若測試目標是 orchestrator，這兩種結果都該扣分。

Anthropic 在 2026 年 5 月 28 日發布 Claude Code Dynamic Workflows，其重點也是讓 Claude 動態寫 orchestration script，並協調大量 subagents。這讓本次測試有一個更清楚的參照：未來 agent 模型的競爭，核心會落在規劃、監控、修正、驗證與成本效率。

為什麼 M3 在這輪勝出

作者給 MiniMax M3 勝方，原因不是 film strip 圖最好。DeepSeek 的圖其實更好，因為它有依 5 秒間隔標示時間戳，AI 比較容易讀出要取哪一張。但 DeepSeek 的好結果來自主控補救，流程考核不合格。

M3 的價值在另一件事：它沒有頻繁打斷自己，也沒有大幅增加狀態查詢。Mimo 的 DAG get status 呼叫很多，作者觀察到 77 次等級的密集糾偏。糾偏本身是好事，但太密集會讓 agent 一直懷疑流程有問題，token 與工具呼叫成本也會上升。

這裡的結論比較精準：M3 顯示出被訓練過的多 agent 編排感。它會監控，卻不過度監控；會推進流程，卻不把工作拆到失控。這符合 MiniMax 官方對 MiniMax Code Agent Team 的描述：多階段、可調整、可反思的 agent 協作。但作者的測試仍是單一場景，不能外推成所有任務都會如此。

多模態測試：影片剪輯是另一種難題

第三輪把第二輪產出的 film strip skill 用回影片任務。film strip 左上角有時間戳與幀號，模型要讀圖、挑幀、合成最後影片。這很貼近創作者工作流：重點在時間序列判斷，包含物件何時消失、手是否還在、桌面是否清乾淨。

MiniMax M3、Qwen 3.6、Kimi K2.6 都有結果，但作者認為沒有真正贏。M3 有「物件逐步減少」的效果，但第五幀有物件沒識別出來。Qwen 3.6 最後能清掉整張桌面，可是第四幀仍有手。Kimi 沒有手的問題，卻出現疑似重複幀，最後一幀也殘留物件。

這正是多模態 agent 的麻煩之處。文件理解、圖片問答、螢幕操作，和影片剪輯用的 temporal reasoning 是不同能力。官方提到 M3 支援 image、video input 與 computer use；作者測到的是更細的創作場景：用靜幀序列做剪輯決策。這裡 M3 夠用於 coding 輔助，但還不夠成為可靠剪輯助理。

對團隊導入 agent 的啟示

如果你只看「有沒有完成」，四個 worker 都 pass，這個測試沒有太多資訊量。若你看工具呼叫、token、流程節點、糾偏頻率，M3 的訊號就變清楚。

企業導入 agent 時，應該至少分三層評估。第一層是任務完成率。第二層是 token 與工具呼叫成本。第三層是 orchestrator 的行為品質：它有沒有監控錯的地方，有沒有在該停時停下來，有沒有用補救動作掩蓋流程設計失敗。

MiniMax M3 在作者測試中最像能進入第二層與第三層討論的國產模型。Qwen 3.6 的穩定完成也值得留意。DeepSeek 的產出能力強，但要區分「結果好」與「流程好」。Kimi 在多次 run 後退回單節點，對多 agent 評測而言並不理想。

FAQ

MiniMax M3 什麼時候發布？

MiniMax 官方部落格顯示，MiniMax M3 在 2026 年 6 月 1 日正式發布。原始逐字稿提到「昨天發布」，本文改以官方日期為準。

這次測試能證明 MiniMax M3 比其他模型強嗎？

不能。這是作者個人工作流中的單次測試。它能指出 M3 在工具呼叫節制與流程監控上的好跡象，但不能代表所有 coding、agent、多模態任務。

M3 的多模態能力適合影片剪輯嗎？

以作者測試來看，還不到可靠剪輯助理標準。它能產出結果，卻會漏判靜幀中的物件與時間序列變化。

Agent orchestrator 評測該看什麼？

除了任務是否完成，還要看流程節點是否完整、是否有提交成果物、糾偏是否過度、工具呼叫是否合理，以及 manager 是否用手動補救掩蓋流程失敗。

權威引用

Author Insight

真正有價值的 agent 測試，應該把模型放回工作現場。這次素材最值得保留的觀點，是作者沒有被單一 PR 品質迷惑，而是追問流程是否自己跑完、工具呼叫是否節制、manager 是否偷補救。這種評測方式，比單純問「誰贏了」更接近企業導入時會遇到的問題。

Tenten 長期協助品牌與技術團隊把 AI 工具導入內容、開發與知識工作流，評估重點會同時看成果、成本與可維護性。若你正在設計 agent 工作流或導入 coding assistant，可以和 Tenten 團隊預約諮詢，一起把測試從展示影片推進到可重複的評估框架。

術語表

術語	本文用法
Agent orchestration	Agent 編排，指 manager 模型拆解任務、派工、監控與整合成果
Worker	被派任務的執行模型
Orchestrator	負責規劃與監控多 agent 流程的主控模型
Film strip	膠卷式靜幀圖，用於從影片中挑選時間戳
Tool call	工具呼叫，指模型呼叫外部工具、查詢狀態或執行命令

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare