Kimi K2.6 是 Moonshot AI 在 2026 年 4 月 20 日開源的 1 兆參數 MoE 模型,官方 API 定價 USD 0.60 / 2.50 每百萬 input/output tokens(約 NTD 19,000 / 80,000)。 跟同期 Claude Opus 4.7 相比,input 端便宜約 8.3 倍、output 端便宜約 10 倍。同步推出的 Kimi Code CLI 在 GitHub 已累積超過 6,400 顆星,社群把它定位成 Claude Code 的開源平替。本篇拆解 K2.6 的真實能力、Kimi Code 的開發者體驗,以及 Reddit r/LocalLLaMA、Hacker News、X 上開發者實測一週後的判斷。

三個關鍵架構數字:1T 總參數、300 sub-agents、12 小時連續執行

K2.6 沿用 K2.5 的 Mixture-of-Experts 架構,1 兆總參數中每次推理只啟動 32 億,分散在 384 個專家網路中(每次路由選擇 8 個 + 1 個共享專家)。這個架構讓它的推理成本停在 32B 級別,但模型容量是 1T。Multi-head Latent Attention(MLA)注意力機制把 KV cache 壓縮成輕量數學表示,再加上 SwiGLU 啟動函數和 INT4 原生量化,整套設計指向同一個目標:在保留前沿模型能力的前提下,把每 token 成本壓到開源能負擔的範圍。

跟 K2.5 比,最關鍵的能力跳躍不在 benchmark 分數,而在「能跑多久」。Agent Swarm 從 K2.5 的 100 個 sub-agents、1,500 個協調步驟,擴張到 K2.6 的 300 個 sub-agents、4,000 個協調步驟。Moonshot 官方公開了兩個 workload proof:第一個是 13 小時自主重構 8 年歷史的開源金融撮合引擎 exchange-core,跨 4,000+ 行程式碼、1,000+ 次工具呼叫,把吞吐量從 0.43 MT/s 推到 1.24 MT/s(185% 提升);第二個是 12 小時把 Qwen 0.8B 模型 inference 移植到 Zig 語言,最終速度比 LM Studio 快 20%。

新增的「Claw Groups」是這次 release 最有想法的部分。它把 Agent Swarm 的內部架構打開給異質生態系統——使用者可以從筆電、手機、雲端執行不同 model 的 agent,K2.6 扮演中央協調者,根據每個 agent 的工具配置和技能 profile 動態分配任務、偵測失敗、自動重派。Moonshot 自己的內容生產團隊已經在用 Claw Groups 跑 Demo Makers、Benchmark Makers、Social Media Agents、Video Makers 之類的專業 agent 平行協作。

Benchmark 表面好看,但真實能力差距在哪

Moonshot 公布的數字確實漂亮。SWE-Bench Pro 拿到 58.6%,超過 GPT-5.4(57.7%)、Claude Opus 4.6(53.4%)、Gemini 3.1 Pro(54.2%);Humanity's Last Exam 含工具版(HLE-Full with tools)拿 54.0%,是所有對比模型最高分;BrowseComp 在 Agent Swarm 模式下達 86.3%;DeepSearchQA F1 分數 92.5%。這些都是 vendor-published 數字,沒有獨立第三方驗證。

但攤開 benchmark 細節會看到落差。SWE-Bench Verified 部分,K2.6 拿到 80.2%,已經被 Anthropic 在 4 月 16 日發布的 Claude Opus 4.7 用 87.6% 超過。Kilo Code 團隊在 K2.6 發布當天就用同一份 FlowGraph 工作流規格做側測:Claude Opus 4.7 拿到 91/100,Kimi K2.6 拿到 68/100,差距 23 分集中在 lease handling、跨 run 排程、live SSE streaming 這類在多 agent 競爭下才會浮現的 bug。

Hacker News 用戶 nikcub 給出的判斷可能比 vendor benchmark 更接近真相:「在能力上低於 sonnet 和 opus 4.0」。同一串 thread 也提到 K2.6「比 K2.5 只好一點點」、「在 domain-specific 任務上有困難」。Verdent 團隊在獨立比較中發現 Terminal-Bench 2.0 的 harness 差異很關鍵——Moonshot 用 Terminus-2 harness 報 GPT-5.4 是 65.4%,但其他評測在不同 harness 下報到 75.1%。換句話說,「K2.6 領先 GPT-5.4」的結論強烈依賴於 Moonshot 自己選的測試框架。

下表整理了 K2.6 跟主要競品的核心數據對照(vendor-published,未經第三方驗證):

Benchmark Kimi K2.6 Claude Opus 4.7 GPT-5.4 (xhigh) Gemini 3.1 Pro
SWE-Bench Verified 80.2% 87.6% - -
SWE-Bench Pro 58.6% 64.3% 57.7% 54.2%
Terminal-Bench 2.0 66.7% - 65.4%* 68.5%
LiveCodeBench v6 89.6% 88.8% - -
HLE-Full with tools 54.0% 53.0% 52.1% 51.4%
BrowseComp 83.2% - - -
Context window 262K 1M 1.05M -
Input price (USD/M tokens) 0.60 5.00 - -
Output price (USD/M tokens) 2.50 25.00 - -

*GPT-5.4 在 Terminal-Bench 2.0 的分數依 harness 不同有 65.4%–75.1% 的落差

Kimi Code:當 CLI 變成開發者的第二語言

Kimi Code 是 Moonshot 在 2026 年 1 月跟 K2.5 同步發布的開源 CLI agent,使用 Apache 2.0 授權。它的設計邏輯很清楚——直接對標 Claude Code 和 Gemini CLI,但保留三個關鍵差異:第一,本身是開源、可以 fork 修改;第二,原生支援 Model Context Protocol,現有的 MCP server 直接相容;第三,內建 ACP(Agent Client Protocol)server,能跟 Zed、JetBrains 等支援 ACP 的編輯器無縫整合。

實際開發體驗上,Kimi Code CLI 把終端變成 agent。Ctrl-X 切換成 shell command 模式,能直接執行 bash 指令;裝上 zsh-kimi-cli plugin 後,連 zsh 補全都能由 AI 接手。VS Code 擴充套件、Claude Code、Roo Code、OpenCode、OpenClaw、Hermes Agent 全部能透過 OAuth 或 API key 串接,使用同一個 model ID kimi-for-coding(這個 ID 是 stable 的,後端會自動指向最新 model)。

訂閱方案是另一個吸引點。Moonshot 的 Kimi Code membership 在 5 小時視窗內提供 300–1,200 次 API 呼叫,最高 30 個並行請求。這對重度開發者已經夠用,但跑大量批次任務的團隊要注意 quota。Kilo Code 平台數據顯示,10M output tokens 的月度工作負載,K2.6 大約 USD 280/天(NTD 9,000/天),同樣工作量在 Opus 4.7 上會花到 USD 2,500/天(NTD 80,000/天)——這個價差大到讓很多原本不可行的 agent 工作流變成商業可行。

但 Joe Njenga 在 Medium 上的實測也提醒了一件事:Kimi Code 的成熟度遠不及 Claude Code。文件稀少、setup 過程要花心思 debug,「整套生態系是 solid 的起步,但離 Claude Code 那種開箱即用還有距離」。換言之,省下來的成本,部分要花在 onboarding 跟 ops 上。

Reddit 與 X 的真實社群反應:三派意見光譜

K2.6 發布當天的 Hacker News 主 thread 拿到 592 個 points 和 303 條評論——對非美國模型的發布來說屬於異常熱絡。把 Reddit r/LocalLLaMA、X、HN 三個社群的訊號拼起來,開發者意見大致分成三派。

樂觀派的代表是 OpenRouter 的早期試用回饋。HN 用戶 regularfry 一句話總結:「以這個價格,dirt cheap on OpenRouter for how good it is」。Simon Willison 在 X 上發了一個動態 SVG/HTML 的 live demo,認為 K2.6 在快速原型開發上實用且穩定。一個 HN 評論者更進一步指出,K2.6 已經在 Cursor 的 composer-2 model 後端被使用——這比 vendor benchmark 更難造假。X 上 @teortaxesTex 提到 K2.6 在 30 分鐘 thinking 後解開 AIME 2026 第 15 題,這是 K2.5 做不到的。

懷疑派的聲音更值得 PM 跟工程主管聽。HN 用戶 nikcub 說自己「試過一次... 雖然 benchmark 強,但體驗只是 okay-ish」,在 domain-specific 任務上「struggles」。BenchLM 拿 Claude Opus 4.7 跟 K2.5 做整體比較,最終分數是 94 vs 68——K2.6 收窄了這個差距,但沒有完全填平。Reddit 上的多日自主 agent run 報告全是 anecdote,沒有 audited 的第三方 reproduce。

結構派的觀察則指向更大的趨勢。一條被廣泛引用的 HN 評論這樣寫:「Funny that Chinese companies are pioneering possibly the world's most important tech via open source while the US goes closed」。把 K2.6 跟同日發布的 Alibaba Qwen3.6-Max-Preview 放在一起看,再加上 DeepSeek R1、Qwen 3 系列、Kimi K2 整年的釋出節奏,「中國開源模型已經在縮小跟 frontier 的差距」這個說法不再是行銷話術。

Reddit r/LocalLLaMA 也是 K2.6 風波的重要源頭。3 月底社群就有人爆料兩週內會釋出 K2.6,當時被斥為「trust me bro」;4 月 13 日 Moonshot 用一封 email 確認 beta 後,留言風向轉成「holy bullseye」。同一波 leak 也提到 Kimi K3 正在開發,目標參數規模 3–4 兆,要對齊 frontier 美國模型——這個說法目前還沒被官方確認。

Moonshot AI 的 88% 成本優勢從哪來

K2.6 能訂這個價格,純粹是架構紅利。MoE 設計讓推理時實際啟動的參數只有 32B,硬體成本接近 32B 模型;但模型容量是 1T,能力對標 frontier。再疊上 INT4 原生量化、MLA 壓縮 KV cache、384 expert routing,整套堆下來,每 token 推理成本壓到 Opus 4.7 的 12% 左右。

但「per-token 便宜」不等於「per-task 便宜」。Ethan Mollick 的 Lem Test 顯示 K2.6 為了給出一個還可以的答案,產出了 74 頁的 thinking trace;Artificial Analysis 的 Intelligence Index 評測中,K2.6 用了大約 1.6 億 reasoning tokens,比 GPT-5.4 的 1.1 億多 45%。在 reasoning-heavy workload 上,「便宜 88%」會收斂到「便宜 60-70%」。對企業評估來說,這個差距還是顯著,但要按實際工作負載算,不要直接乘 token 單價。

商業結構上,Moonshot 的策略也清楚:開源權重 + 託管服務 + Kimi Code 訂閱三層收入模式。權重免費釋出(Modified MIT 授權),把生態做大;Kimi Code 訂閱抓住個別開發者;託管 API 抓企業客戶。這個結構跟 Anthropic 八成營收靠企業 API 客戶(Anthropic 已突破年化 USD 190 億營收)的純 closed-source 路線形成有趣對比。

不過 Modified MIT 授權有一條容易被忽略的條件:商業使用如果月活超過 1 億或月營收超過 USD 2,000 萬,產品上要顯示「Kimi K2.6」品牌標示。這對絕大多數企業沒影響,但對 hyperscaler 級別的部署需要評估法務風險。

該選 K2.6 還是繼續用 Claude Code:四個決策框架

把社群實測訊號跟 benchmark 數據拼起來,K2.6 vs Claude Code/Opus 4.7 的決策可以拆成四個面向。

選 K2.6 的時機: (1)成本是硬約束,且工作負載偏前端生成、UI prototyping、batch refactor 這類「規格清楚、邊界明確」的任務;(2)需要 self-host 或資料主權,K2.6 是這三個模型中唯一的開源選項;(3)已經在用 Moonshot API 的中國市場部署;(4)需要超大量平行 agent,例如 100+ sub-agent 的 batch 任務,K2.6 的 swarm 架構是設計好的。

留在 Claude Code 的時機: (1)需要 1M context,K2.6 的 262K 在大型 codebase 是限制;(2)多檔案推理、需求模糊、需要從 conversation 中推斷 intent 的任務,Anthropic 的 RLHF 細緻度仍領先;(3)金融、醫療、政府等受監管產業,Claude 的 SOC 2、BAA、企業安全文件成熟度遠超開源模型;(4)已經深度使用 Claude Code 生態,包括 Routines、Skills、Plugins、Sub Agents——切換成本可能高於省下的 token 費用。

混搭的時機: 大多數團隊的最優解。用 K2.6 跑高量重複任務(測試生成、批次重構、格式轉換),用 Claude Code 處理需要深度推理的核心工作。CLIProxyAPIPlus 之類的 proxy 工具能讓兩個 model 在同一個 CLI 內 failover 使用(相關設定參考這篇)。

避開的時機: 需要 single-turn 高風險推理(金融交易決策、醫療判讀、法律意見)的場景,三個 model 都不該作為 final authority,但 K2.6 在 GPQA-Diamond(90.5%)跟 AIME 2026(96.4%)落後 GPT-5.4 的 92.8% 和 99.2%——如果這是 critical path,建議先排除 K2.6。

FAQ:開發者最常問的問題

Kimi K2.6 跟 Kimi Code 是同一個東西嗎?

不是。Kimi K2.6 是 Moonshot AI 的開源 LLM model,1 兆參數 MoE 架構。Kimi Code 則是 Moonshot 推出的 CLI 工具兼訂閱方案,後端可以接 K2.6(也可接其他 Kimi 模型)。簡單說:K2.6 是「引擎」,Kimi Code 是「車殼」。你可以單獨用 K2.6 模型透過任何 API 客戶端呼叫,也可以單獨用 Kimi Code CLI 框架接 Anthropic 或 OpenAI 的 model。

Kimi K2.6 真的能取代 Claude Code 嗎?

對 80% 的標準任務(程式碼生成、單元測試、refactor、UI 原型)K2.6 能做到 Claude Code 80–90% 的品質,價格約 12%。剩下 20% 的高難度任務——多檔案推理、模糊需求理解、長時間 multi-agent 協調——Claude Opus 4.7 在獨立比較中仍領先(Kilo Code 測試是 91/100 vs 68/100)。建議先用 K2.6 跑 1 週實際工作流,再決定要全切還是混搭。

Kimi Code CLI 在 Mac/Windows/Linux 上都能用嗎?

可以。CLI 透過 Python 環境跨平台執行,也支援 Zsh plugin 整合(Mac/Linux)和 VS Code Extension(全平台)。本地跑 K2.6 模型本身需要至少兩台 Mac Studio M3 Ultra 或同級 GPU 設備(詳細部署指南參考這篇),但用官方 API 或 OpenRouter 沒這個硬體門檻。

Kimi Code 訂閱 USD 19/月划算嗎?

如果每月 Claude Code API 花費超過 USD 50,Kimi Code 訂閱基本一定划算。它在 5 小時視窗內提供 300–1,200 次呼叫和 30 個並行請求,對個別開發者夠用。重度團隊(多人共用、跑 batch agent workload)需要評估 quota 是否夠——quota 滿了之後會排隊或降速,不會自動升級到付費。

中文寫作和台灣繁體中文支援得如何?

K2.6 在中文語料上的訓練資料密度高於多數 frontier 美國模型,繁體中文跟簡體中文的轉換、台灣用語的辨識(行銷 vs 营销、影片 vs 视频)都比 Claude 自然。但在學術寫作的精確度上,Claude Opus 4.7 仍在某些風格細節上勝出。日常台灣商業內容生成 K2.6 已經夠用。

權威引用

Author Insight

Tenten 在 K2.5 時期就開始幫客戶評估 Moonshot 模型導入企業的可行性,K2.6 釋出後的兩週內,我們在三個內部專案(廣告素材生產、SEO 文章批次生成、Shopify Theme 客製化)跑了 A/B 對照。最直接的觀察:K2.6 在「規格清楚、批次重複」的任務上是 Claude Code 的真實 alternative,但在「需求模糊、需要前後文推理」的任務上還沒到位。

我的判斷是:對企業客戶來說,K2.6 的真正價值不在於取代 Claude,而在於讓「以前因為太貴所以不做」的 agent 工作流變成商業可行。一個月跑 5,000 次廣告素材變體生成、每週批次刷新 200 篇 SEO 內容、每天用 sub-agent swarm 監控競爭對手 30 個 channel——這些 workload 在 Opus 4.7 上每月可能要 NTD 200 萬(USD 6.2 萬),在 K2.6 上能壓到 NTD 25 萬(USD 7,800)。差價不是「省錢」,是「打開新的可能」。

但要小心一個陷阱:因為 K2.6 便宜,團隊容易把「能跑」當成「該跑」,最後產出大量低品質 agent 工作。我們在客戶導入時的核心建議是先用 Claude Code 把 workflow 跟品質基準建好,再考慮把高重複性的部分切到 K2.6——而不是反過來用 K2.6 從零摸索。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...