Loop Engineering：把 AI Agent 工作流從提示詞升級成可驗收循環

**Loop Engineering 是把 AI Agent 工作流從一次性提示詞，升級成會觀察、決策、行動、驗證的可驗收循環；截至 2026 年 6 月，這已經從研究概念進入 Claude Code、Codex、MCP 與 CI/CD 流程。**它適合重複、可驗、有明確商業價值的工作，不適合拿來自動化一切。真正的槓桿在兩端：人定義完成條件，人承擔最後責任。

先把 Loop 說清楚

Loop Engineering 的實務定義很簡單：你設計一個能持續推進工作的外層機制，不靠一輪一輪提醒 AI 該做什麼。這個機制會讀狀態、挑下一步、呼叫工具、檢查結果，再決定停止、重試、升級給人，或進入下一輪。

這個觀念並非憑空冒出來。2022 年 10 月，Shunyu Yao、Jeffrey Zhao、Dian Yu 等人在 ReAct: Synergizing Reasoning and Acting in Language Models 裡提出讓大型語言模型交錯產生推理軌跡與動作。Google Research 也把 ReAct 解釋為「推理影響內部狀態，動作取得外部觀察」的結構。今天工程團隊說的 loop，多半是在這個 observe-act-feedback 思路上，加上權限、狀態、預算、檢查者與人類閘門。

工作型態	典型做法	適用條件	退出條件
傳統流程自動化	cron、RPA、固定腳本	步驟固定、輸入可預期	腳本成功或失敗
AI 輔助	人下提示詞，AI 回答	目標清楚但路徑仍需人判斷	人覺得夠用
Agent loop	AI 讀狀態、選工具、驗證結果	目標清楚，路徑可變	驗收清單通過或達到上限
雲端 routine / CI 觸發	排程或事件啟動 agent	需要定期或事件驅動執行	成功、失敗、升級給人

判斷一件事該不該做成 Loop

我會先問三個問題。

第一，它重複嗎？每天看 CI、每週整理競品價格、每月做報表，都有循環價值。一次性的策略判斷通常沒有。

第二，它可驗嗎？「把文案寫好」太抽象。「20 則貼文各自低於 150 字，不含 hashtag，且語氣符合品牌手冊」才是 agent 可以檢查的完成條件。

第三，它值得嗎？Gartner 在 2025 年 6 月預測，到 2027 年底，超過 40% 的 agentic AI 專案會因成本上升、價值不清或風險控管不足而被取消。這個數字提醒我們：loop 省下的是重複決策，不是判斷本身。

第一個可用 Loop：晨間維護循環

先從低風險、低權限的工作開始。以下模板是 Tenten 版示範，重點在結構，請先放到測試倉庫或非關鍵環境。

1. 把完成條件寫成可驗收清單

/goal 檢查 drafts/ 裡 12 則短文：
      每則低於 150 字，
      不含 hashtag，
      保留原本檔名，
      全部通過後停止，
      最多 20 回合。

如果是工程工作，完成條件要交給命令與 reviewer。

/goal 讓 test/auth 全部通過，
      npm run lint 無錯誤，
      不改公開 API，
      最多 8 回合。

2. 裝上心跳

# 會話內心跳：適合盯部署、等長任務跑完
/loop 10m 檢查 staging 部署狀態；部署完成後回報 URL 與錯誤摘要。

長期排程要放進 CI、桌面排程或雲端 routine。Anthropic 的 Claude Code routines 已經把排程、API 觸發、GitHub 事件與 MCP connectors 放進同一類工作模型；OpenAI 的 Codex CLI 則能在本機終端機讀取、修改並執行程式碼。選哪個工具次要，設計上限與證據才重要。

name: morning-triage
on:
  schedule:
    - cron: "0 1 * * 1-5"
  workflow_dispatch:
jobs:
  triage:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Run readonly agent triage
        run: ./scripts/agent-triage.sh --readonly --limit 5

3. 把規則寫進 skill

---
name: daily-maintenance
description: 每個工作日讀取進度檔，整理昨夜 CI 失敗、新 issue、依賴警告；只起草低風險修正，其他升級給人。
---

## 1. 讀取進度
- 先讀 progress.md。
- 已完成的事項不要重做。
- 需要人的事項只補證據，不直接處理。

## 2. 找待辦
1. 昨夜失敗的 CI。
2. 超過 3 天未回覆的 issue。
3. 新增的依賴警告。

## 3. 處理規則
- 每次只處理一件事。
- 使用獨立 branch 或 worktree。
- 先起草最小改動，再交給只讀 reviewer。

## 4. 停止條件
- 最多 5 件。
- 任何公開 API、資料遷移、刪檔風險都升級給人。
- 通過測試與 reviewer 後才允許開 PR。

4. 做檢分離

---
name: readonly-reviewer
description: 對照驗收清單、測試輸出與 diff，只回 PASS 或 FAIL，不修改檔案。
tools: Read, Bash(npm test*), Bash(npm run lint*), Bash(git diff*)
---

1. 自己跑測試，不採信前一個 agent 的口頭結果。
2. 對照驗收清單讀 diff。
3. 找出公開行為改變、漏掉的邊界案例、安全風險。

輸出格式：
- PASS：列出實際驗證的命令與證據。
- FAIL：逐條列出原因與下一步。

Anthropic 的 Claude Code subagents 與 dynamic workflows 已經把「多個 agent 協作」做成產品層能力；OpenAI 的 Agents SDK + Codex guide 也把可審查的多 agent 工作流放進官方範例。這些能力好用，但也更容易燒 token。reviewer 要用在高風險或高價值的環節。

5. 用狀態檔保留記憶

# progress.md

## 已完成
- 2026-06-26：修正 auth token refresh 測試不穩，PR #142。

## 進行中
- 依賴警告：7 件已處理 3 件，image-lib 升版會改輸出格式。

## 需要人
- image-lib 安全修正牽涉公開格式，請維護者決定是否拆成 major release。

沒有狀態檔，循環常會像失憶的人，一直重新做第一步。狀態不該塞滿上下文。把穩定規則放 AGENTS.md、CLAUDE.md 或 skill，把短期進度放 progress.md。

六個場景：從工程到營運

場景	可交給 loop 的工作	驗收方式	升級給人的條件
工程維護	CI 失敗分診、依賴升級、重複 bug 修復	測試、lint、diff 範圍	公開 API、資料遷移、安全風險
內容流程	粗想法變 hook、長文拆成多平台版本	字數、禁詞、品牌語氣檢查	涉及法律、醫療、投資承諾
監控研究	定價頁、changelog、競品訊號追蹤	URL diff、資料時間戳	價格策略或合約調整
文件產製	PDF 摘要、提案草稿、規格整理	schema、連結、引用檢查	需承諾交期或報價
辦公支援	郵件摘要、客服工單分類	只讀摘要、明確分類	回覆、刪除、關閉工單
商業營運	續約風險、定價訊號、流失預警	指標門檻、資料來源	影響客戶關係或收入

我最保守的建議是先只讀。讓 agent 跑三到五天，只產出摘要與建議。當你開始相信它的判斷，再給它開 issue、開 PR 或更新文件的權限。刪除、部署、寄信、付款這類動作，先保留人類確認。

成本的主因是頻率

Loop 失控常由頻率造成，單次模型呼叫未必昂貴。一個 maker 加 reviewer 的小循環，如果每拍讀 4 萬 token、寫 6 千 token，工作日每天跑 5 次，月費可能還能接受；同樣的循環每 5 分鐘跑一次，成本會放大上百倍。真正要管的是拍數、停止條件與無進展偵測。

最低安全清單可以很短：

成功條件：完成長什麼樣。
上限：最多幾回合、幾分鐘、多少預算。
隔離：branch、worktree、沙盒或只讀權限。
檢查者：測試 runner、linter、schema validator 或 reviewer agent。
人類閘門：高風險事項停下來。
日誌：要能追查它做過什麼。
回報：夜裡出事也有人知道。

Model Context Protocol 讓 AI 應用能接外部工具與資料來源，這也是 loop 可以動手的原因。MCP server 可以暴露檔案、資料查詢、GitHub、Slack、行事曆等能力。權限邊界要跟 loop 一起設計，否則工具越多，風險越大。

FAQ

Loop Engineering 和 prompt engineering 有什麼差別？

Prompt engineering 重點在單次指令品質。Loop Engineering 重點在外層控制：狀態、工具、驗收、上限、檢查者與人類閘門。前者像寫一封清楚的委託信，後者像設計一條能反覆交付的工作線。

企業應該先從哪一種 loop 開始？

先從只讀、可驗、低風險的 loop 開始，例如 CI 摘要、PR 阻塞整理、競品頁面 diff、客服工單分類。這些工作有明確輸入與輸出，又不會直接影響客戶或帳務。

什麼工作不該做成 loop？

高度主觀、一次性、缺乏驗收條件、或錯了會立即造成金錢與法律風險的工作，都不該直接自治。策略、品牌、合約、醫療、投資與人事決策，需要人保留最後判斷。

Loop 需要用到 MCP 嗎？

不一定。簡單 loop 可以只讀本機檔案與命令列。當它需要查工單、讀 Slack、開 PR、更新 CRM 或呼叫內部 API，MCP 才變得重要。重點在工具權限與審計，連線數量只是次要考量。

權威引用

Author Insight

大家想把 AI 放進流程，但常把「能跑」誤認成「能交付」。Loop Engineering 的價值在於逼團隊先說清楚驗收標準，再談工具。這會讓 AI 少一點神祕感，也讓責任回到該負責的人身上。

術語表

術語	定義
Loop Engineering	設計可反覆執行、可驗收、可停止的 AI agent 工作循環。
Agent loop	AI 讀取狀態、選擇工具、執行、驗證，再決定下一步的執行循環。
ReAct	2022 年提出的推理與行動交錯框架。
MCP	Model Context Protocol，讓 AI 應用連接外部資料與工具的開放協定。
Reviewer agent	只讀檢查者，負責對照驗收清單與測試結果，不直接修改成果。
Human gate	人類閘門，高風險或未通過檢查時由人決定下一步。

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare