Claude Opus 4.8 與動態工作流上線:一次「更誠實」的升級,加上一個會燒掉你 token 的大招

Claude Opus 4.8 在 2026 年 5 月 28 日上線,定價跟上一代 4.7 完全持平,每百萬輸入 token 5 美元、輸出 25 美元(約 NTD 160 與 NTD 800)。 這次升級的主軸不是炫技,而是「誠實」:Anthropic 說新版更願意承認自己不確定,也更少為了交差硬湊答案。同一天上線的還有兩個東西,一個是便宜很多的快速模式,一個是會吃掉大量 token 的 Claude Code 新功能「動態工作流」(dynamic workflows)。後者才是這次發布真正值得工程主管坐下來想清楚的地方。

先把容易被誇大的部分講清楚。Anthropic 自己在發布文裡用的形容是「a modest but tangible improvement」,翻成白話就是「小幅但實在的進步」,這是難得不浮誇的官方說法。這個措辭其實是在替使用者降低期待。所以如果你期待用了 4.8 就感覺天翻地覆,大概會失望;但如果你跑的是長時間、無人盯著的 agent 任務,差別會慢慢累積出來。

「更誠實」到底是什麼意思,又為什麼重要

模型的通病是會跳結論,明明證據很薄,還是自信地宣稱自己有進展。Opus 4.8 的賣點就是壓低這種行為。根據我們的評測,新版讓自己寫的程式碼裡有瑕疵卻沒被指出的機率,比前一代低了大約四倍。Anthropic 同時宣稱欺騙與不對齊的行為比 4.7 更少,在「是否依使用者利益行事」這類親社會指標上,逼近還沒全面開放的 Claude Mythos Preview 水準。

這件事對誰最有感?對把 AI 放進 CI/CD、放進長流程的人。一個會說「我不確定這段對不對」的 agent,比一個永遠回你「已完成、沒問題」的 agent 安全得多。我們團隊這一年把主力從 Cursor 換到 Claude Code,最常被假進度坑到的場景,就是模型把跑不過的測試說成跑過了。如果 4.8 真能把這類事件壓低四倍,省下的不是 token,是工程師的信任成本。

效能面則是常規進步。9to5Mac 列出的數字:agentic coding 從 64.3% 升到 69.2%,帶工具的多領域推理從 54.7% 到 57.9%。Anthropic 自己的基準顯示 Opus 4.8 在 SWE-Bench Pro 拿到 69.2%,贏過 GPT-5.5 與 Gemini 3.1 Pro,但在終端機程式(terminal coding)那項,GPT-5.5 仍是第一。換句話說,它整體領先,卻不是每一格都贏。

快速模式變便宜,效能控制盤多了一個旋鈕

跟 4.8 一起調整的還有「快速模式」。同一個模型,速度大約是預設模式的 2.5 倍,而且比過去的快速模式便宜了三倍。這個方向呼應了一個很現實的趨勢:客戶越來越在意「怎麼用得更省」,而不是一味追更強。

另外 Anthropic 加了一個讓你手動決定模型該花多少力氣的效能控制。在 Claude Code 裡,你可以把力度拉到較高的 xhigh,或最高的 max;難題與長時間的非同步任務適合用高力度,並搭配已調高的速率上限。要提醒的是,各家報導對「預設值」的描述並不一致,有的說消費端預設偏低、有的說 Claude Code 端預設偏高,這部分我把它當成設定細節、不當成定論。


重頭戲是動態工作流:一個任務,數百個子代理一起上

跟 Opus 4.8 同步放出的,是 Claude Code 的新功能動態工作流,目前是研究預覽(research preview)。它的運作邏輯是:你丟一個大任務,Claude 會自己寫出一份協調腳本,把任務拆成子題,然後在同一個 session 裡派出數十到數百個並行的子代理(subagent)去做;每個結果在被併入前都先被檢查過。更關鍵的是它的自我對抗機制:一批 agent 從不同角度解題,另一批 agent 專門想辦法推翻前者的結論,反覆迭代到答案收斂為止。

這套東西是為「跑得久」設計的。根據 Claude 官方部落格,工作流可以連續跑好幾個小時甚至好幾天,進度會即時存檔,中途斷了能從斷點接著跑,而不是從頭來過。協調過程發生在對話之外,所以任務再大,計畫也不會走鐘。適合的活很明確:整個服務或 repo 的 bug 排查、效能稽核、安全稽核,以及最常見的大規模遷移,框架替換、API 汰換、跨語言移植,一次動到上千個檔案那種。我們在做 BigCommerce 到 Shopify 的 agentic 遷移時,最痛的就是檔案量一大、人工審查根本跟不上,這正是動態工作流想吃下的場景。

開通範圍我也照官方說明核對過,跟坊間轉述一致:Max、Team 方案以及透過 API 使用的人,動態工作流預設開啟;Enterprise 方案預設關閉,要管理員手動打開。它也上線到 Claude Code 的 CLI、桌面版與 VS Code 擴充,並支援 Amazon Bedrock、Vertex AI 與 Microsoft Foundry。要啟用,可以直接叫 Claude「建一個 workflow」,或在效能選單裡打開一個叫 ultracode 的開關,它會把力度設到 xhigh,並讓 Claude 自己判斷何時該動用工作流。

代價:Opus 4.8 真的很燒 token

Anthropic 這次罕見地主動踩煞車。官方明講動態工作流消耗的用量「明顯高於」一般 Claude Code session,建議先拿小範圍任務試水溫。第一次觸發時,Claude Code 會把接下來要跑的東西攤開給你看、要你確認;企業管理員也能透過管理設定直接停用。

一家供應商主動警告自家旗艦功能很貴,這在發布稿裡不常見。它其實是在說一件事:這功能威力大,但成本結構跟你習慣的對話式用法完全不同,請先理解再放手。

把 Bun 從 Zig 改寫成 Rust,被當成宣傳案例:數字要拆開看

Anthropic 拿來當招牌的範例,是 Bun 的改寫。Bun 是一個跑得很快的 JavaScript 執行環境,原本用 Zig 寫成,創辦人 Jarred Sumner 用動態工作流把它移植成 Rust。官方部落格的數字是:通過 99.8% 的原有測試、約 75 萬行 Rust、「從第一次提交到合併歷時十一天」。流程也很具體:一個工作流先替 Zig 程式裡每個結構欄位算出對應的 Rust lifetime;下一個工作流把每個 .zig 逐檔改寫成行為一致的 .rs,數百個 agent 並行、每個檔案配兩個審查者;接著一個修復迴圈不斷跑建置與測試直到全綠;移植落地後,還有一個過夜工作流去清掉多餘的資料複製。

到這裡都很漂亮。但身為要對讀者負責的內容方,有幾個原始貼文沒講、卻不能省略的脈絡。

第一,時間數字有兩個口徑。官方說「十一天,從第一次提交到合併」,但對照 The Register 與開發者 Jiacai Liu 的逐 commit 分析,那個 PR(#30412)是 5 月 8 日開、5 月 14 日併,社群普遍引用的是「六天」,共 6,755 個 commit。兩個數字並不矛盾,首次提交本來就早於開 PR,但如果只記得「十一天」或只記得「六天」,都會誤解這件事的真實節奏。

第二,這不是中立的第三方背書。Bun 在 2025 年底已被 Anthropic 收購,所以這是 Anthropic 用自家 AI 改寫自家專案,本質上是內部 dogfooding,不是外部客戶的獨立驗證。

第三,連 Sumner 本人都把它定位成實驗。他在 Hacker News 上說「這些程式碼很有可能整批被丟掉」,官方也註明「尚未進入生產」。過程中還有一個移除約 60 萬行 Zig 的 PR 被 GitHub 自動標記為「AI slop」而關閉。開發圈的質疑很尖銳:程式由 AI 寫、又由 AI 審,等於沒有任何人完整讀過這份程式碼;而測試套件只能驗證已知路徑上的已知行為,驗不出跨函式的全域不變式。這些聲音不是要否定成果,而是提醒「速度」和「可信」是兩回事。

Reddit 與開發者社群怎麼看

先誠實交代一件事:Opus 4.8 發布僅約一天,發稿當下 Reddit 上的討論串還沒被搜尋引擎充分索引,我無法逐則查證具體留言,所以這裡不杜撰任何 Reddit 引文。能查證的社群反應集中在三處。

在 Hacker News 上,Bun 的 Zig-to-Rust 那串是今年 JavaScript 圈最被盯著看的討論之一,短時間內衝上數百個 upvote、數百則留言,主軸正是上面那個矛盾:佩服速度,但擔心沒人讀過全部程式碼。在 X 上,發布前就有人爆料 4.8 即將到來,引發一輪猜測。值得放進脈絡的還有前一代的前車之鑑:根據 The New Stack 回顧,Opus 4.6 當時因為「長脈絡計價」被罵過一波,超過約 20 萬 token 的請求會跳到較貴的費率。這也是為什麼這次「更便宜的快速模式」加「主動警告動態工作流很燒 token」的組合,會被開發者放在放大鏡下檢視,因為大家被帳單教育過。

我的判斷是,社群這次的情緒會比較分裂。重度 Claude Code 使用者(多半已是 Max 方案的人)會很興奮,因為動態工作流把過去要排成好幾季的工程,壓成幾天;但同一群人也會立刻去算 token 帳,並追問「AI 審 AI」的程式碼到底能不能進生產。這兩種反應會同時存在,而且都合理。

4.7、4.8 與動態工作流:差異一次看懂

項目 Claude Opus 4.7 Claude Opus 4.8 動態工作流(新增)
上線日期 約一個多月前 2026-05-28 2026-05-28(研究預覽)
定價 $5 / $25 每百萬 token 與 4.7 相同 隨方案,會明顯增加用量
誠實度 基準 程式瑕疵漏報率約低 4 倍 內建對抗式驗證
快速模式 較慢、較貴 2.5 倍速、便宜 3 倍 不適用
適用任務 一般 agentic 編碼 長時間、需判斷的任務 上千檔案的大規模遷移/稽核
子代理規模 單一 agent 為主 單一 agent 為主 同一 session 數十到數百個並行

常見問題

Claude Opus 4.8 和 4.7 的價格有差嗎?

沒有。Opus 4.8 在 2026 年 5 月 28 日上線,定價與 4.7 相同,每百萬輸入 token 5 美元、輸出 25 美元,所有平台一致。

動態工作流要哪種方案才能用?

Max、Team 方案與透過 Claude API 使用者預設開啟;Enterprise 方案預設關閉,需管理員在 Claude Code 設定中手動開通。目前是研究預覽階段。

為什麼大家說動態工作流很貴?

因為它會在一個 session 裡並行跑數十到數百個子代理,並反覆自我驗證到收斂,用量遠高於一般對話式 Claude Code session。Anthropic 自己建議先用小任務試水,第一次觸發也會要你確認。

Bun 真的「十一天」就改寫完了嗎?

看你用哪個口徑。Anthropic 官方說「從第一次提交到合併十一天」;但該 PR 從開啟(5/8)到併入(5/14)是六天,社群多半引用六天。兩者都對,只是起算點不同。而且 Sumner 強調這仍是實驗、尚未進入生產。

Opus 4.8 是 Anthropic 最強的模型嗎?

不是。Anthropic 同時預告了更強的 Mythos 級模型,目前透過 Project Glasswing 由少數機構測試,官方說在補上額外的資安防護後,未來幾週會對所有客戶開放。

Author Insight

把主力從 Cursor 搬到 Claude Code、又跑過一陣子 OpenClaw 之後,我對「動態工作流」這種功能的反應是兩段式的:先興奮,再警覺。興奮的點很直接,大規模遷移和全庫稽核一直是人力最吃力、最容易出包的環節,一個能自己拆解、並行、還會派 agent 來挑自己刺的系統,確實打到痛處。

但我說不上來該怎麼完全放心。讓我卡住的不是「AI 會不會寫錯」,而是「AI 寫、AI 審、然後沒有人類完整讀過」這個封閉循環。

所以如果你問我這次該怎麼用,我的建議很務實:把動態工作流當成「會加速、但需要更嚴格驗收」的工具,而不是「終於可以不看了」的藉口。先用小任務摸清楚 token 的胃口,把人類審查的力氣從「逐行讀」改成「設計更狠的測試與不變式檢查」。會省事的人,是那些把驗收標準寫得比以前更硬的人,不是那些直接信任綠燈的人。

引用來源

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...