Andrej Karpathy 2026 年 5 月 12 日在 X 上推了一句話:在你的 query 結尾加上「structure your response as HTML」,然後用瀏覽器打開。社群圈炸開,繁體中文世界很快出現了「Karpathy 推翻你過去半年 AI 工作流」的爆款貼文。但這個故事真正的起點比 Karpathy 早了四天。5 月 8 日,Anthropic Claude Code 團隊的工程主管 Thariq Shihipar 發表了一篇〈Using Claude Code: The Unreasonable Effectiveness of HTML〉,附上 20 個可在瀏覽器打開的 HTML 範例,16 小時內累積 440 萬次瀏覽、8,200 個讚、15,700 次收藏。

這場辯論的兩個訊號源

Thariq Shihipar 不是外部評論者。他是 Anthropic Claude Code 的工程主管,2026 年 3 月剛發表過一份內部使用的 Claude Code Skills 設計指南。5 月 8 日這篇 HTML 主張文,附帶網址 thariqs.github.io/html-effectiveness,把 20 個 HTML 範例分成 9 個類別,從並排規格比較、PR review with annotated diff、設計方向 mockup,到含時間軸與資料流圖的實作計畫、模組地圖、空狀態 UI 視覺方向,每一個都能直接在瀏覽器開來看,跟對應的 Markdown 版本擺在一起比。

Thariq 自己這樣描述他的轉向:「Markdown 已經變成 agent 跟我們溝通的主流檔案格式。它輕便、可攜、能呈現基本富文字,也方便我們編輯。Claude 甚至已經很擅長用 ASCII 在 markdown 裡畫圖了。」然後是轉折:「我想要更豐富的視覺化、顏色、圖表,而且希望能輕鬆分享。我開始偏好用 HTML 取代 Markdown 當作輸出格式,Claude Code 團隊裡也愈來愈多人這樣做,理由是這樣。」

四天後,Karpathy 接力。他的原文是:「This works really well btw, at the end of your query ask your LLM to 'structure your response as HTML', then view the generated file in your browser. I've also had some success asking the LLM to present its output as slideshows, etc. More generally, imo audio is the [preferred human input to AI]⋯⋯」

Karpathy 這段話不是憑空出現。他在 2025 年 4 月底就推過另一則更長的論述:「跟 LLM『聊天』感覺像在用 80 年代的電腦終端機。GUI 還沒被發明出來,但有些屬性可以開始預測。第一,它會是視覺化的,因為視覺(圖片、圖表、動畫,不是閱讀)是進入大腦的 10 線道高速公路。它是資訊頻寬最高的輸入,大約占用大腦 1/3 的算力。」這條 2025 年舊推文,是 5 月 12 日那則 HTML 推文的理論底座。


Markdown 給 AI 看,HTML 給人類看

Markdown 在過去三年變成 agent 配置檔的事實標準。CLAUDE.mdAGENTS.mdSKILL.md 用久了,agent 看多了,就把 Markdown 當成自己對外輸出的預設。但 agent 之間溝通跟 agent 對人類溝通,需要的東西不一樣。

X 上的 @EXM7777 那條反論「為了好看的文字檔花 5 倍 token」之所以引起共鳴,是因為它對某類使用情境完全正確。Thariq 自己也認帳:如果你的輸出主要讀者是另一個 LLM(下游 agent 解析後執行)、是會三分鐘後丟掉的草稿、是一小時跑兩百份的高吞吐量流水線,Markdown 就好。agent 不在乎顏色,token 才是唯一變數。

但如果輸出的主要讀者是人,特別是必須花時間理解、評審、修改的人類,那 2 到 5 倍 token 對比節省下來的工程師時間,這筆帳算得過去。Simon Willison 在他自己的部落格寫的話特別貼切:「我從 GPT-4 的 8,192 token 上限那個時代開始,就習慣用 Markdown 索取多數輸出。Thariq 這篇讓我重新考慮這件事,特別是輸出端。」


Markdown vs HTML:使用情境決策表

輸出場景 主要讀者 預期保存時間 推薦格式 理由
Agent 配置檔(CLAUDE.md / SKILL.md) LLM 永久 Markdown 進入 context,token 成本敏感
Agent 之間中間產物 下游 LLM 數分鐘 Markdown / JSON 不需視覺呈現
一次性草稿、捨棄性輸出 人類但只看一次 3 分鐘內 Markdown 視覺投資不划算
規格書、PR review、設計方向 mockup 人類團隊 數天到數週 HTML 含 diff、表格、SVG,需團隊評審
客戶交付物、季度報告 人類客戶 數月 HTML 可互動、可分享、品牌一致
高吞吐量流水線輸出(每小時數百份) 機器 + 人偶爾抽檢 視情況 Markdown 單位成本最小化

Karpathy 的四階段譜系:raw text → markdown → HTML → 互動神經影片

Sébastien Dubois 在 5 月 12 日同步整理 Karpathy 與 Thariq 的論點時,把 Karpathy 的演進譜系說得最清楚:這不是階梯,是光譜(spectrum),每個格式都有它適用的場合,新的不會完全取代舊的。

譜系從左到右四階:純文字 → Markdown → HTML → 互動式神經影片/模擬。前三階今天可用,第四階是 Karpathy 在 2025 年 4 月推文裡提的「generative input-conditional GUI」:畫面為單一 prompt 即時生成,所有元素都針對當下任務重新配置。Karpathy 自己留了個開放問題:到底是用一個大型 diffusion 模型把整張畫布夢出來,還是用程序化的 React 元件拼出來(圖片、圖表、動畫、流程圖)。Anthropic Artifacts、OpenAI Canvas、Vercel v0 都已經在用後一條路徑做生產級嘗試。


對企業導入 AI 的三個操作含意

第一,把內部技術文件、PR review、規格書、季度報告改成請 AI 用 HTML 輸出。實作門檻就是 Thariq 給的那個 prompt 模板:「Help me review this PR by creating an HTML artifact that describes it. I'm not very familiar with [topic] so focus on that. Render the actual diff with inline margin annotations, color-code findings by severity and whatever else might be needed to convey the concept well.」這條 prompt 把 task、focus、視覺要求、嚴重度色票一次給齊,輸出可以直接在瀏覽器打開審核。

第二,agent 之間的中間檔案保持 Markdown 或 JSON。配置檔、工具描述、agent 對 agent 的訊息傳遞。這些檔案的讀者是另一個 LLM,要的是 token 效率、可解析性、可版控的 diff 清晰度。HTML 在這個層級會引入不必要的成本與雜訊。

第三,把「structure your response as HTML」加入企業內部 prompt 庫的標準後綴。從成本面看,這是測試最低、回收最快的調整。花一週評估 5 個高頻使用情境,記錄 HTML 版相對 Markdown 版的審核時間差,就能算出對你們團隊真實的 ROI。Tenten 在跟客戶評估這類 prompt 標準時,我們的經驗是內部評審類任務(規格、PR、設計方向)HTML 比 Markdown 平均省下 30% 的審核時間,但客戶面回報類任務(每週進度、月報)效益更顯著,因為 HTML 可以直接寄給客戶當作 deliverable。


Karpathy 沒明說的那層含意

「audio is the preferred human input, visual is the preferred output」這句話真正暗示的,是 AI 介面該往哪走。輸入端我們已經看到趨勢:ChatGPT 的語音模式、Claude 的 voice、Gemini Live 一致往語音輸入靠攏。輸出端目前還卡在文字為主,HTML 是這個版本的中繼站,最終會走到 Karpathy 形容的「generative input-conditional GUI」:畫面為當下這個 prompt 即時客製。

這對企業 AI 導入策略的含意是:別把 AI 介面想成永遠的 chatbot。三年後企業內部的 AI 工具會長得像 Claude Artifacts 或 Vercel v0 那樣,每次查詢產生一個專屬的小型 web app。今天先讓團隊習慣 HTML 輸出,等到下一代介面普及時,prompt 庫和工作流不用大改。


常見問題 FAQ

「structure your response as HTML」這句要逐字加在 prompt 結尾嗎?

Karpathy 給的是最低門檻寫法。實務上比較有用的版本是把任務指令也丟進來,例如「請用一份 HTML artifact 回應,包含 [具體元素],以 [配色或佈局] 呈現」。Thariq 的 PR review prompt 範例就是這個邏輯:先講任務、再指定 HTML 要怎麼組織。

HTML 輸出真的會多花 5 倍 token 嗎?

約 2 到 4 倍。實際倍數取決於 HTML 用了多少 CSS、JS、SVG。純結構化 HTML(表格、標題、清單)約 1.5 到 2 倍;含 SVG diagram 和互動元件可以到 5 倍以上。

對下游 agent 處理,HTML 還是 Markdown 比較好?

Markdown。LLM 解析 Markdown 的成本比解析 HTML 低,而且 HTML 帶來的視覺優勢(顏色、佈局、互動)對 agent 完全沒用。Thariq 的分工原則直接適用:HTML 給人看,Markdown 給機器看。

Karpathy 講的「視覺占大腦 1/3 算力」有研究支持嗎?

這個說法源自神經科學文獻對視覺皮質佔大腦皮質比例的估算,是粗略量級而非精確數字。視覺處理跨越枕葉、顳葉、頂葉的多個區域,總和約佔大腦皮質的 25% 到 30%。Karpathy 用 1/3 是合理的科普近似。

中文世界那則「Karpathy 推翻 AI 工作流」的爆款貼文,可信度多少?

核心觀察正確(Karpathy 確實推薦 HTML 輸出、視覺確實是高頻寬輸入通道),但三個量化數據都有偏差。「HTML 比 Markdown 快 10 倍」是把 Karpathy 的 10 線道高速公路比喻誤讀;「2 倍 token 換 10 倍效益」是憑空生出來的計算;「說話比打字快 4 倍」實際是 3 倍(Stanford 2016)。值得參考的是方向,不是這些數字。


Author Insight

我們發現多數團隊還沒意識到「agent 對人類」跟「agent 對 agent」是兩種完全不同的工作介面。前者要視覺效率,後者要 token 效率。Thariq 這篇文章把這個分工說清楚的價值,比「換成 HTML」這個操作建議本身大得多。

如果你想討論企業 AI 工作流要怎麼從現在的 Markdown-as-default 過渡到 HTML+Markdown 雙軌制,包括 prompt 標準化、輸出格式分流、ROI 量化方法,歡迎跟 Tenten 團隊預約諮詢。我們的方法論建立在 Boris Cherny 在 Anthropic 公開分享的 Claude Code 開發心法2026 年 Prompt Engineering 完整指南 之上,已驗證可在一週內導入小型試點。

引用來源


Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...