AI 金融代理人正在重新定義華爾街的工作流程。2026 年 5 月 5 日這一天,Anthropic 發布 10 套 Claude 金融代理人模板、Perplexity 推出 Computer for Professional Finance、OpenAI 將 GPT-5.5 Instant 設為 ChatGPT 預設模型、Subquadratic 帶著 2,900 萬美元種子輪和 1,200 萬 Token 上下文窗口的 SubQ 模型從隱匿模式現身,Google 則關閉了 Project Mariner 並讓 Gemma 4 推論速度快了三倍。這不是一般的新聞週期,而是 AI 產業在 72 小時內同時在金融、模型架構、消費產品三條戰線全面推進。
Anthropic 的金融代理人:十套模板、微軟 365 整合與華爾街客戶名單
Anthropic 在 5 月 5 日於紐約發表了 10 套金融服務代理人模板,覆蓋投行、資產管理、保險和合規四大場景。這些模板不是簡報上的概念圖,而是可以直接在 Claude Cowork 和 Claude Code 中以插件形式運行的完整架構。
十套模板分成兩組:
| 類別 | 模板名稱 | 功能 |
|---|---|---|
| 研究與客戶覆蓋 | Pitch Builder | 建立 comps model、自動產出 Excel 報表與 PowerPoint 簡報 |
| Meeting Preparer | 會議前自動彙整客戶資料和市場動態 | |
| Earnings Reviewer | 解析財報數據、標記異常 | |
| Model Builder | 從 filing 和資料源建立財務模型 | |
| Market Researcher | 追蹤產業與發行人動態 | |
| 財務與營運 | Valuation Reviewer | 比對估值方法與可比公司 |
| GL Reconciler | 總帳對帳與淨值計算 | |
| Month-end Closer | 執行月結檢查表、產出結帳報告 | |
| Statement Auditor | 審閱財務報表一致性 | |
| KYC Screener | 組建實體檔案、審查來源文件 |
每套模板的架構包含三個組件:skills(工作流程說明與專業知識)、connectors(受控的資料存取權限)、subagents(執行特定子任務的輔助 Claude 模型)。技術上,這和業界常見的 agent 架構模式一致:把策略邏輯、資料連接器和模型呼叫分開,方便稽核與治理。
客戶端整合才是關鍵。Claude 現在透過 add-in 直接進駐 Excel、PowerPoint、Word,Outlook 版即將上線。分析師在 Excel 裡開始建模之後,切換到 PowerPoint 做簡報時不需要重新說明一次上下文。已公開的企業客戶包括 Citadel、高盛、花旗、Visa、AIG、Carlyle 和 Walleye Capital(400 人對沖基金,100% 員工使用 Claude Code)。
Reuters 報導指出,金融機構佔 Anthropic 前 50 大客戶的約 40%,金融是其第二大企業營收來源。Claude Opus 4.7 在 Vals AI 的 Finance Agent 基準測試拿到 64.37%。坦白說,這個分數離「取代第一年分析師」還有距離。Anthropic 自己也強調使用者需要「stay firmly in the loop」。但結構性的衝擊已經開始:重複性的月結、對帳、KYC 審查這些工作,AI 跑一輪的速度和初級分析師熬夜的速度完全不在同一個量級。
Perplexity 同日反擊:Computer for Professional Finance
幾乎在 Anthropic 紐約發表的同一天,Perplexity 宣布推出 Computer for Professional Finance。切入角度不同:Perplexity 採用 Bring Your Own License(BYOL)模式,讓使用者自行接入 Morningstar、PitchBook、Daloopa、Carbon Arc 等資料源的授權,平台本身提供 35 組預建金融工作流程和超過 40 種即時工具。
兩家的差異在於定位。Anthropic 走深度整合路線,把 agent 嵌進微軟 365、串接 FactSet、S&P Capital IQ、MSCI、Moody's 等頂級資料商。Perplexity 走平台路線,強調開放連接和搜尋引擎式的即時查證,每一筆數據都可以追溯到 SEC filing 等原始來源。
| 比較維度 | Anthropic Claude 金融 Agent | Perplexity Computer for Finance |
|---|---|---|
| 架構 | Agent 模板(skill + connector + subagent) | 搜尋引擎 + 工作流程平台 |
| 資料來源 | FactSet、S&P、MSCI、Moody's、PitchBook(平台內建) | BYOL:Morningstar、PitchBook、Daloopa、Carbon Arc |
| 辦公整合 | Excel、PowerPoint、Word、Outlook | Microsoft Teams、Slack |
| 預建工作流程 | 10 套模板 | 35+ 工作流程 |
| 定價模式 | Claude 付費方案 + 企業授權 | Perplexity Enterprise |
| 稽核能力 | Console 完整審計日誌 | 每筆回答附來源引用 |
這場金融 AI 競賽的直接市場反應很明顯:FactSet 股價當天最多跌 8.1%,Morningstar 跌超過 3%,S&P Global 和 Moody's 也承壓。市場把這些 AI agent 解讀為既有金融資料供應商的直接競爭者。
SubQ:次二次注意力架構首次進入前沿模型
同一天,一家邁阿密新創 Subquadratic 帶著 2,900 萬美元(約 NTD 928,000,000)種子輪從隱匿模式現身,發布了他們的第一個模型 SubQ。
核心技術叫做 Subquadratic Sparse Attention(SSA)。標準 Transformer 的注意力機制是二次方擴展:把輸入長度加倍,運算量變四倍。這是目前多數前沿模型上下文窗口卡在 100 萬到 200 萬 Token 的根本原因。SubQ 的做法是識別哪些 Token 之間的關係真正重要,忽略其餘的,讓擴展變成線性。
公司公布的數字:
- 上下文窗口:1,200 萬 Token(研究配置),API 開放 100 萬 Token
- 在 100 萬 Token 下比 FlashAttention 快 52 倍(在 B200 GPU 上測試)
- 1,200 萬 Token 下注意力運算量減少約 1,000 倍
- RULER 128K 長上下文基準:95% 準確率,成本約 USD 8(相比 Claude Opus 的 USD 2,600)
- SWE-Bench Verified:81.8%(Claude Opus 4.6 為 80.8%)
- 成本約為 Claude Opus 或 GPT-5.5 的五分之一
不過這些數字都是廠商自行發布的,尚未經過獨立驗證。歷史上,從 Mamba 到 RWKV 到 DeepSeek Sparse Attention,每一個次二次注意力方案都承諾過類似的突破,但在前沿規模的下游基準測試中,表現往往不如標準二次方注意力。LessWrong 上有分析認為,多數次二次注意力機制更接近常數因子改進,而非根本性的架構轉換。SubQ 能不能打破這個模式,還需要更多獨立測試。
技術細節值得關注的一點:DeepSeek 的 Native Sparse Attention 拿過 ACL 2025 最佳論文,其後續版本 DSA 已經在 DeepSeek V3.2-Exp 上線。但 DSA 的「閃電索引器」在選取要關注哪些 key 時,本身仍然是二次方運算。SubQ 聲稱 SSA 避開了這個陷阱,實現了完全的次二次擴展。
GPT-5.5 Instant:ChatGPT 換了一顆新引擎
OpenAI 在 5 月 5 日把 ChatGPT 的預設模型從 GPT-5.3 Instant 換成 GPT-5.5 Instant。這次更新距離上次預設模型切換恰好兩個月(GPT-5.3 Instant 在 3 月 3 日上線),距離 GPT-5.5 Thinking 和 Pro 版本發布約兩週。
OpenAI 說 GPT-5.5 Instant 在高風險問題(醫療、法律、金融)上的幻覺率比 GPT-5.3 Instant 降低了 52.5%,在使用者曾標記事實錯誤的對話中,不準確回答減少了 37.3%。AIME 2025 數學測試從 65.4 分提升到 81.2 分;MMMU-Pro 多模態推理從 69.2 分提升到 76 分。
體驗面的變化也許對日常使用者更有感:回覆變得更精簡,少了不必要的格式化和反問式追問,「多餘的表情符號」被官方點名削減。Plus 和 Pro 使用者可以讓模型讀取過去的對話、檔案和 Gmail 來產出更個人化的回答,同時新增「memory sources」功能讓使用者看到哪些過往資料影響了回答。
GPT-5.3 Instant 保留三個月供付費使用者切換。API 方面,GPT-5.5 以「chat-latest」標籤上線。
Gemini 3.2 Flash:Google I/O 前的靜默部署
Google I/O 2026 訂在 5 月 19-20 日。在那之前,Gemini 3.2 Flash 已經以多種方式曝光。
5 月 5 日,有 iOS 使用者在 Gemini App 1.2026.1710205 版本中看到模型選擇器短暫出現「Gemini 3.2 Flash」選項,隨後被移除。Reddit 上有使用者回報 app 在 24 小時內從 Gemini 3 Flash 切換到 3.1、再到 3.2 Flash。同時間,Gemini 3.2 Flash 在 LM Arena(Eleuther AI 的第三方模型評測平台)上被發現正在跑靜默基準測試。此外,app 側邊欄出現了一個 Agents(Beta)標籤,目前點進去是黑畫面,顯然是即將上線的功能佔位符。
洩漏的定價資訊:每百萬輸入 Token USD 0.25、每百萬輸出 Token USD 2.00。作為對比,目前的 Gemini 3 Flash 是 USD 0.50 / USD 3.00。如果這個定價確認,3.2 Flash 在輸出端比 3.0 Flash 便宜了三分之一。
早期 Arena 測試的結果顯示,Gemini 3.2 Flash 在某些創意編碼任務上超越 Gemini 3.1 Pro。Google 歷來會在 I/O 前透過 Vertex AI 通知、功能旗標和 Arena 測試來鋪路,所以 5 月 19 日正式發表是目前最可能的時間點,但也有可能提前幾天靜默上線。
Gemma 4 MTP Drafter:推論速度快三倍,品質零損失
Google 在 5 月 5 日為 Gemma 4 模型家族發布了 Multi-Token Prediction(MTP)drafter。這是一種推測性解碼技術:一個輕量的 drafter 模型一次預測多個未來 Token,再由目標模型(例如 Gemma 4 31B)在單次前向傳遞中平行驗證。
結果是推論速度提升最高三倍,輸出品質零損失。因為最終驗證仍由目標模型執行,被接受的 Token 和目標模型自行產出的位元相同。
MTP drafter 涵蓋四種 Gemma 4 變體:31B Dense、26B A4B MoE、E2B 和 E4B 邊緣模型。邊緣版本額外使用了高效嵌入叢集技術,先預測可能的叢集再縮限最終 logit 計算,在記憶體受限的行動裝置上特別有效。所有 drafter 都在 Apache 2.0 授權下發布,權重在 Hugging Face 和 Kaggle 上公開。
對開源社群來說,這意味著 Gemma 4 在保持完全開放的前提下,把推論延遲壓到了和部分閉源模型競爭的水準。
Project Mariner 正式關閉
Google 在 5 月 5 日靜默關閉了 Project Mariner。這個 AI 瀏覽器代理人在去年 Google I/O 上被當作重點功能展示,能在 Chrome 中自主瀏覽網頁、填表、下單。WIRED 記者 Max Zeff 報導,早在兩個月前,Google 就已經把部分 Mariner 團隊成員調往其他專案,因為 OpenClaw 型態的代理人框架改變了市場優先級。
Mariner 的技術沒有消失,而是被吸收進 Google 更廣泛的 agent 策略,包括整合到基於 Gemini 3 推理能力的 Gemini Agent 中。這個決定的邏輯很清楚:與其維護一個獨立的瀏覽器代理人產品,不如把能力內建到 Gemini 生態系裡,作為 24/7 個人 AI 助理的一部分。
Notebook LM 心智圖更新
Google 的 Notebook LM 心智圖功能在本週也獲得升級,新增了以特定 prompt 引導心智圖結構的自訂功能、重新命名與分享功能、以及筆記之間更流暢的導覽轉場。這把 Notebook LM 從單純的摘要工具推向更互動的思考和探索平台。
FAQ
Anthropic 的金融代理人模板可以完全取代初階分析師嗎?
目前不能。Claude Opus 4.7 在 Vals AI Finance Agent 基準拿到 64.37%,這意味著將近四成的任務無法獨立完成。Anthropic 自己強調使用者必須審閱和批准 agent 的產出。這些模板擅長的是加速重複性結構化工作(對帳、KYC 審查、月結檢查表),但涉及判斷的分析和客戶溝通仍需要人工介入。
SubQ 的 1,200 萬 Token 上下文窗口和 Gemini 的 100 萬 Token 窗口差在哪裡?
差在架構。Gemini 使用標準 Transformer 注意力,上下文長度加倍則運算量變四倍。SubQ 聲稱其 SSA 架構讓擴展變成線性,所以可以在合理成本下推到 1,200 萬 Token。但 SubQ 的數字尚未經獨立驗證,API 實際開放的是 100 萬 Token。歷史上多數次二次注意力方案在前沿規模下表現不如預期,需要等待第三方基準測試結果。
GPT-5.5 Instant 和 GPT-5.5 Thinking 有什麼差別?
GPT-5.5 Instant 是 ChatGPT 的日常預設模型,優先考量回應速度和低延遲。GPT-5.5 Thinking 和 Pro 是上個月發布的重量級版本,為需要深度推理、長時間分析的任務設計。OpenAI 把模型分成「快速日常」和「深度工作」兩個層級。
Gemini 3.2 Flash 什麼時候正式發布?
目前最可能的時間是 5 月 19-20 日的 Google I/O 2026,但也有可能在大會前幾天透過 Vertex AI 靜默上線。洩漏的定價是每百萬輸入 Token USD 0.25、輸出 USD 2.00,比現行 Gemini 3 Flash 便宜。
Perplexity 和 Anthropic 的金融產品,企業該選哪個?
看使用情境。如果你的分析師已經住在 Excel 和 PowerPoint 裡,Anthropic 的微軟 365 整合和 agent 模板更適合嵌入現有工作流程。如果你需要跨多個資料源做即時搜尋和查證,Perplexity 的搜尋引擎架構和 BYOL 模式更靈活。兩者不互斥,有些機構可能會同時使用。
