最新Claude 4.8登場！新功能 Workflows 竟會「瘋狂燒乾Token」？

Q: Bun 真的十一天就改寫完了嗎？

看口徑。Anthropic 官方說從第一次提交到合併十一天；但該 PR 從開啟（5/8）到併入（5/14）是六天，社群多半引用六天。兩者都對，只是起算點不同，且 Sumner 強調仍是實驗、尚未進入生產。

Q: Opus 4.8 是 Anthropic 最強的模型嗎？

不是。Anthropic 同時預告更強的 Mythos 級模型，目前透過 Project Glasswing 由少數機構測試，官方說補上額外資安防護後未來幾週會對所有客戶開放。

Claude Opus 4.8 與動態工作流上線：一次「更誠實」的升級，加上一個會燒掉你 token 的大招

Claude Opus 4.8 在 2026 年 5 月 28 日上線，定價跟上一代 4.7 完全持平，每百萬輸入 token 5 美元、輸出 25 美元（約 NTD 160 與 NTD 800）。 這次升級的主軸不是炫技，而是「誠實」：Anthropic 說新版更願意承認自己不確定，也更少為了交差硬湊答案。同一天上線的還有兩個東西，一個是便宜很多的快速模式，一個是會吃掉大量 token 的 Claude Code 新功能「動態工作流」（dynamic workflows）。後者才是這次發布真正值得工程主管坐下來想清楚的地方。

先把容易被誇大的部分講清楚。Anthropic 自己在發布文裡用的形容是「a modest but tangible improvement」，翻成白話就是「小幅但實在的進步」，這是難得不浮誇的官方說法。這個措辭其實是在替使用者降低期待。所以如果你期待用了 4.8 就感覺天翻地覆，大概會失望；但如果你跑的是長時間、無人盯著的 agent 任務，差別會慢慢累積出來。

「更誠實」到底是什麼意思，又為什麼重要

模型的通病是會跳結論，明明證據很薄，還是自信地宣稱自己有進展。Opus 4.8 的賣點就是壓低這種行為。根據我們的評測，新版讓自己寫的程式碼裡有瑕疵卻沒被指出的機率，比前一代低了大約四倍。Anthropic 同時宣稱欺騙與不對齊的行為比 4.7 更少，在「是否依使用者利益行事」這類親社會指標上，逼近還沒全面開放的 Claude Mythos Preview 水準。

這件事對誰最有感？對把 AI 放進 CI/CD、放進長流程的人。一個會說「我不確定這段對不對」的 agent，比一個永遠回你「已完成、沒問題」的 agent 安全得多。我們團隊這一年把主力從 Cursor 換到 Claude Code，最常被假進度坑到的場景，就是模型把跑不過的測試說成跑過了。如果 4.8 真能把這類事件壓低四倍，省下的不是 token，是工程師的信任成本。

效能面則是常規進步。9to5Mac 列出的數字：agentic coding 從 64.3% 升到 69.2%，帶工具的多領域推理從 54.7% 到 57.9%。Anthropic 自己的基準顯示 Opus 4.8 在 SWE-Bench Pro 拿到 69.2%，贏過 GPT-5.5 與 Gemini 3.1 Pro，但在終端機程式（terminal coding）那項，GPT-5.5 仍是第一。換句話說，它整體領先，卻不是每一格都贏。

快速模式變便宜，效能控制盤多了一個旋鈕

跟 4.8 一起調整的還有「快速模式」。同一個模型，速度大約是預設模式的 2.5 倍，而且比過去的快速模式便宜了三倍。這個方向呼應了一個很現實的趨勢：客戶越來越在意「怎麼用得更省」，而不是一味追更強。

另外 Anthropic 加了一個讓你手動決定模型該花多少力氣的效能控制。在 Claude Code 裡，你可以把力度拉到較高的 xhigh，或最高的 max；難題與長時間的非同步任務適合用高力度，並搭配已調高的速率上限。要提醒的是，各家報導對「預設值」的描述並不一致，有的說消費端預設偏低、有的說 Claude Code 端預設偏高，這部分我把它當成設定細節、不當成定論。

重頭戲是動態工作流：一個任務，數百個子代理一起上

跟 Opus 4.8 同步放出的，是 Claude Code 的新功能動態工作流，目前是研究預覽（research preview）。它的運作邏輯是：你丟一個大任務，Claude 會自己寫出一份協調腳本，把任務拆成子題，然後在同一個 session 裡派出數十到數百個並行的子代理（subagent）去做；每個結果在被併入前都先被檢查過。更關鍵的是它的自我對抗機制：一批 agent 從不同角度解題，另一批 agent 專門想辦法推翻前者的結論，反覆迭代到答案收斂為止。

這套東西是為「跑得久」設計的。根據 Claude 官方部落格，工作流可以連續跑好幾個小時甚至好幾天，進度會即時存檔，中途斷了能從斷點接著跑，而不是從頭來過。協調過程發生在對話之外，所以任務再大，計畫也不會走鐘。適合的活很明確：整個服務或 repo 的 bug 排查、效能稽核、安全稽核，以及最常見的大規模遷移，框架替換、API 汰換、跨語言移植，一次動到上千個檔案那種。我們在做 BigCommerce 到 Shopify 的 agentic 遷移時，最痛的就是檔案量一大、人工審查根本跟不上，這正是動態工作流想吃下的場景。

開通範圍我也照官方說明核對過，跟坊間轉述一致：Max、Team 方案以及透過 API 使用的人，動態工作流預設開啟；Enterprise 方案預設關閉，要管理員手動打開。它也上線到 Claude Code 的 CLI、桌面版與 VS Code 擴充，並支援 Amazon Bedrock、Vertex AI 與 Microsoft Foundry。要啟用，可以直接叫 Claude「建一個 workflow」，或在效能選單裡打開一個叫 ultracode 的開關，它會把力度設到 xhigh，並讓 Claude 自己判斷何時該動用工作流。

代價：Opus 4.8 真的很燒 token

Anthropic 這次罕見地主動踩煞車。官方明講動態工作流消耗的用量「明顯高於」一般 Claude Code session，建議先拿小範圍任務試水溫。第一次觸發時，Claude Code 會把接下來要跑的東西攤開給你看、要你確認；企業管理員也能透過管理設定直接停用。

一家供應商主動警告自家旗艦功能很貴，這在發布稿裡不常見。它其實是在說一件事：這功能威力大，但成本結構跟你習慣的對話式用法完全不同，請先理解再放手。

把 Bun 從 Zig 改寫成 Rust，被當成宣傳案例：數字要拆開看

Anthropic 拿來當招牌的範例，是 Bun 的改寫。Bun 是一個跑得很快的 JavaScript 執行環境，原本用 Zig 寫成，創辦人 Jarred Sumner 用動態工作流把它移植成 Rust。官方部落格的數字是：通過 99.8% 的原有測試、約 75 萬行 Rust、「從第一次提交到合併歷時十一天」。流程也很具體：一個工作流先替 Zig 程式裡每個結構欄位算出對應的 Rust lifetime；下一個工作流把每個 .zig 逐檔改寫成行為一致的 .rs，數百個 agent 並行、每個檔案配兩個審查者；接著一個修復迴圈不斷跑建置與測試直到全綠；移植落地後，還有一個過夜工作流去清掉多餘的資料複製。

到這裡都很漂亮。但身為要對讀者負責的內容方，有幾個原始貼文沒講、卻不能省略的脈絡。

第一，時間數字有兩個口徑。官方說「十一天，從第一次提交到合併」，但對照 The Register 與開發者 Jiacai Liu 的逐 commit 分析，那個 PR（#30412）是 5 月 8 日開、5 月 14 日併，社群普遍引用的是「六天」，共 6,755 個 commit。兩個數字並不矛盾，首次提交本來就早於開 PR，但如果只記得「十一天」或只記得「六天」，都會誤解這件事的真實節奏。

第二，這不是中立的第三方背書。Bun 在 2025 年底已被 Anthropic 收購，所以這是 Anthropic 用自家 AI 改寫自家專案，本質上是內部 dogfooding，不是外部客戶的獨立驗證。

第三，連 Sumner 本人都把它定位成實驗。他在 Hacker News 上說「這些程式碼很有可能整批被丟掉」，官方也註明「尚未進入生產」。過程中還有一個移除約 60 萬行 Zig 的 PR 被 GitHub 自動標記為「AI slop」而關閉。開發圈的質疑很尖銳：程式由 AI 寫、又由 AI 審，等於沒有任何人完整讀過這份程式碼；而測試套件只能驗證已知路徑上的已知行為，驗不出跨函式的全域不變式。這些聲音不是要否定成果，而是提醒「速度」和「可信」是兩回事。

Reddit 與開發者社群怎麼看

先誠實交代一件事：Opus 4.8 發布僅約一天，發稿當下 Reddit 上的討論串還沒被搜尋引擎充分索引，我無法逐則查證具體留言，所以這裡不杜撰任何 Reddit 引文。能查證的社群反應集中在三處。

在 Hacker News 上，Bun 的 Zig-to-Rust 那串是今年 JavaScript 圈最被盯著看的討論之一，短時間內衝上數百個 upvote、數百則留言，主軸正是上面那個矛盾：佩服速度，但擔心沒人讀過全部程式碼。在 X 上，發布前就有人爆料 4.8 即將到來，引發一輪猜測。值得放進脈絡的還有前一代的前車之鑑：根據 The New Stack 回顧，Opus 4.6 當時因為「長脈絡計價」被罵過一波，超過約 20 萬 token 的請求會跳到較貴的費率。這也是為什麼這次「更便宜的快速模式」加「主動警告動態工作流很燒 token」的組合，會被開發者放在放大鏡下檢視，因為大家被帳單教育過。

我的判斷是，社群這次的情緒會比較分裂。重度 Claude Code 使用者（多半已是 Max 方案的人）會很興奮，因為動態工作流把過去要排成好幾季的工程，壓成幾天；但同一群人也會立刻去算 token 帳，並追問「AI 審 AI」的程式碼到底能不能進生產。這兩種反應會同時存在，而且都合理。

4.7、4.8 與動態工作流：差異一次看懂

項目	Claude Opus 4.7	Claude Opus 4.8	動態工作流（新增）
上線日期	約一個多月前	2026-05-28	2026-05-28（研究預覽）
定價	$5 / $25 每百萬 token	與 4.7 相同	隨方案，會明顯增加用量
誠實度	基準	程式瑕疵漏報率約低 4 倍	內建對抗式驗證
快速模式	較慢、較貴	2.5 倍速、便宜 3 倍	不適用
適用任務	一般 agentic 編碼	長時間、需判斷的任務	上千檔案的大規模遷移／稽核
子代理規模	單一 agent 為主	單一 agent 為主	同一 session 數十到數百個並行

常見問題

Claude Opus 4.8 和 4.7 的價格有差嗎？

沒有。Opus 4.8 在 2026 年 5 月 28 日上線，定價與 4.7 相同，每百萬輸入 token 5 美元、輸出 25 美元，所有平台一致。

動態工作流要哪種方案才能用？

Max、Team 方案與透過 Claude API 使用者預設開啟；Enterprise 方案預設關閉，需管理員在 Claude Code 設定中手動開通。目前是研究預覽階段。

為什麼大家說動態工作流很貴？

因為它會在一個 session 裡並行跑數十到數百個子代理，並反覆自我驗證到收斂，用量遠高於一般對話式 Claude Code session。Anthropic 自己建議先用小任務試水，第一次觸發也會要你確認。

Bun 真的「十一天」就改寫完了嗎？

看你用哪個口徑。Anthropic 官方說「從第一次提交到合併十一天」；但該 PR 從開啟（5/8）到併入（5/14）是六天，社群多半引用六天。兩者都對，只是起算點不同。而且 Sumner 強調這仍是實驗、尚未進入生產。

Opus 4.8 是 Anthropic 最強的模型嗎？

不是。Anthropic 同時預告了更強的 Mythos 級模型，目前透過 Project Glasswing 由少數機構測試，官方說在補上額外的資安防護後，未來幾週會對所有客戶開放。

Author Insight

把主力從 Cursor 搬到 Claude Code、又跑過一陣子 OpenClaw 之後，我對「動態工作流」這種功能的反應是兩段式的：先興奮，再警覺。興奮的點很直接，大規模遷移和全庫稽核一直是人力最吃力、最容易出包的環節，一個能自己拆解、並行、還會派 agent 來挑自己刺的系統，確實打到痛處。

但我說不上來該怎麼完全放心。讓我卡住的不是「AI 會不會寫錯」，而是「AI 寫、AI 審、然後沒有人類完整讀過」這個封閉循環。

所以如果你問我這次該怎麼用，我的建議很務實：把動態工作流當成「會加速、但需要更嚴格驗收」的工具，而不是「終於可以不看了」的藉口。先用小任務摸清楚 token 的胃口，把人類審查的力氣從「逐行讀」改成「設計更狠的測試與不變式檢查」。會省事的人，是那些把驗收標準寫得比以前更硬的人，不是那些直接信任綠燈的人。

引用來源

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare