AI 金融代理人正在重新定義華爾街的工作流程。2026 年 5 月 5 日這一天,Anthropic 發布 10 套 Claude 金融代理人模板、Perplexity 推出 Computer for Professional Finance、OpenAI 將 GPT-5.5 Instant 設為 ChatGPT 預設模型、Subquadratic 帶著 2,900 萬美元種子輪和 1,200 萬 Token 上下文窗口的 SubQ 模型從隱匿模式現身,Google 則關閉了 Project Mariner 並讓 Gemma 4 推論速度快了三倍。這不是一般的新聞週期,而是 AI 產業在 72 小時內同時在金融、模型架構、消費產品三條戰線全面推進。


Anthropic 的金融代理人:十套模板、微軟 365 整合與華爾街客戶名單

Anthropic 在 5 月 5 日於紐約發表了 10 套金融服務代理人模板,覆蓋投行、資產管理、保險和合規四大場景。這些模板不是簡報上的概念圖,而是可以直接在 Claude Cowork 和 Claude Code 中以插件形式運行的完整架構。

十套模板分成兩組:

類別 模板名稱 功能
研究與客戶覆蓋 Pitch Builder 建立 comps model、自動產出 Excel 報表與 PowerPoint 簡報
Meeting Preparer 會議前自動彙整客戶資料和市場動態
Earnings Reviewer 解析財報數據、標記異常
Model Builder 從 filing 和資料源建立財務模型
Market Researcher 追蹤產業與發行人動態
財務與營運 Valuation Reviewer 比對估值方法與可比公司
GL Reconciler 總帳對帳與淨值計算
Month-end Closer 執行月結檢查表、產出結帳報告
Statement Auditor 審閱財務報表一致性
KYC Screener 組建實體檔案、審查來源文件

每套模板的架構包含三個組件:skills(工作流程說明與專業知識)、connectors(受控的資料存取權限)、subagents(執行特定子任務的輔助 Claude 模型)。技術上,這和業界常見的 agent 架構模式一致:把策略邏輯、資料連接器和模型呼叫分開,方便稽核與治理。

客戶端整合才是關鍵。Claude 現在透過 add-in 直接進駐 Excel、PowerPoint、Word,Outlook 版即將上線。分析師在 Excel 裡開始建模之後,切換到 PowerPoint 做簡報時不需要重新說明一次上下文。已公開的企業客戶包括 Citadel、高盛、花旗、Visa、AIG、Carlyle 和 Walleye Capital(400 人對沖基金,100% 員工使用 Claude Code)。

Reuters 報導指出,金融機構佔 Anthropic 前 50 大客戶的約 40%,金融是其第二大企業營收來源。Claude Opus 4.7 在 Vals AI 的 Finance Agent 基準測試拿到 64.37%。坦白說,這個分數離「取代第一年分析師」還有距離。Anthropic 自己也強調使用者需要「stay firmly in the loop」。但結構性的衝擊已經開始:重複性的月結、對帳、KYC 審查這些工作,AI 跑一輪的速度和初級分析師熬夜的速度完全不在同一個量級。


Perplexity 同日反擊:Computer for Professional Finance

幾乎在 Anthropic 紐約發表的同一天,Perplexity 宣布推出 Computer for Professional Finance。切入角度不同:Perplexity 採用 Bring Your Own License(BYOL)模式,讓使用者自行接入 Morningstar、PitchBook、Daloopa、Carbon Arc 等資料源的授權,平台本身提供 35 組預建金融工作流程和超過 40 種即時工具。

兩家的差異在於定位。Anthropic 走深度整合路線,把 agent 嵌進微軟 365、串接 FactSet、S&P Capital IQ、MSCI、Moody's 等頂級資料商。Perplexity 走平台路線,強調開放連接和搜尋引擎式的即時查證,每一筆數據都可以追溯到 SEC filing 等原始來源。

比較維度 Anthropic Claude 金融 Agent Perplexity Computer for Finance
架構 Agent 模板(skill + connector + subagent) 搜尋引擎 + 工作流程平台
資料來源 FactSet、S&P、MSCI、Moody's、PitchBook(平台內建) BYOL:Morningstar、PitchBook、Daloopa、Carbon Arc
辦公整合 Excel、PowerPoint、Word、Outlook Microsoft Teams、Slack
預建工作流程 10 套模板 35+ 工作流程
定價模式 Claude 付費方案 + 企業授權 Perplexity Enterprise
稽核能力 Console 完整審計日誌 每筆回答附來源引用

這場金融 AI 競賽的直接市場反應很明顯:FactSet 股價當天最多跌 8.1%,Morningstar 跌超過 3%,S&P Global 和 Moody's 也承壓。市場把這些 AI agent 解讀為既有金融資料供應商的直接競爭者。


SubQ:次二次注意力架構首次進入前沿模型

同一天,一家邁阿密新創 Subquadratic 帶著 2,900 萬美元(約 NTD 928,000,000)種子輪從隱匿模式現身,發布了他們的第一個模型 SubQ。

核心技術叫做 Subquadratic Sparse Attention(SSA)。標準 Transformer 的注意力機制是二次方擴展:把輸入長度加倍,運算量變四倍。這是目前多數前沿模型上下文窗口卡在 100 萬到 200 萬 Token 的根本原因。SubQ 的做法是識別哪些 Token 之間的關係真正重要,忽略其餘的,讓擴展變成線性。

公司公布的數字:

  • 上下文窗口:1,200 萬 Token(研究配置),API 開放 100 萬 Token
  • 在 100 萬 Token 下比 FlashAttention 快 52 倍(在 B200 GPU 上測試)
  • 1,200 萬 Token 下注意力運算量減少約 1,000 倍
  • RULER 128K 長上下文基準:95% 準確率,成本約 USD 8(相比 Claude Opus 的 USD 2,600)
  • SWE-Bench Verified:81.8%(Claude Opus 4.6 為 80.8%)
  • 成本約為 Claude Opus 或 GPT-5.5 的五分之一

不過這些數字都是廠商自行發布的,尚未經過獨立驗證。歷史上,從 Mamba 到 RWKV 到 DeepSeek Sparse Attention,每一個次二次注意力方案都承諾過類似的突破,但在前沿規模的下游基準測試中,表現往往不如標準二次方注意力。LessWrong 上有分析認為,多數次二次注意力機制更接近常數因子改進,而非根本性的架構轉換。SubQ 能不能打破這個模式,還需要更多獨立測試。

技術細節值得關注的一點:DeepSeek 的 Native Sparse Attention 拿過 ACL 2025 最佳論文,其後續版本 DSA 已經在 DeepSeek V3.2-Exp 上線。但 DSA 的「閃電索引器」在選取要關注哪些 key 時,本身仍然是二次方運算。SubQ 聲稱 SSA 避開了這個陷阱,實現了完全的次二次擴展。


GPT-5.5 Instant:ChatGPT 換了一顆新引擎

OpenAI 在 5 月 5 日把 ChatGPT 的預設模型從 GPT-5.3 Instant 換成 GPT-5.5 Instant。這次更新距離上次預設模型切換恰好兩個月(GPT-5.3 Instant 在 3 月 3 日上線),距離 GPT-5.5 Thinking 和 Pro 版本發布約兩週。

OpenAI 說 GPT-5.5 Instant 在高風險問題(醫療、法律、金融)上的幻覺率比 GPT-5.3 Instant 降低了 52.5%,在使用者曾標記事實錯誤的對話中,不準確回答減少了 37.3%。AIME 2025 數學測試從 65.4 分提升到 81.2 分;MMMU-Pro 多模態推理從 69.2 分提升到 76 分。

體驗面的變化也許對日常使用者更有感:回覆變得更精簡,少了不必要的格式化和反問式追問,「多餘的表情符號」被官方點名削減。Plus 和 Pro 使用者可以讓模型讀取過去的對話、檔案和 Gmail 來產出更個人化的回答,同時新增「memory sources」功能讓使用者看到哪些過往資料影響了回答。

GPT-5.3 Instant 保留三個月供付費使用者切換。API 方面,GPT-5.5 以「chat-latest」標籤上線。


Gemini 3.2 Flash:Google I/O 前的靜默部署

Google I/O 2026 訂在 5 月 19-20 日。在那之前,Gemini 3.2 Flash 已經以多種方式曝光。

5 月 5 日,有 iOS 使用者在 Gemini App 1.2026.1710205 版本中看到模型選擇器短暫出現「Gemini 3.2 Flash」選項,隨後被移除。Reddit 上有使用者回報 app 在 24 小時內從 Gemini 3 Flash 切換到 3.1、再到 3.2 Flash。同時間,Gemini 3.2 Flash 在 LM Arena(Eleuther AI 的第三方模型評測平台)上被發現正在跑靜默基準測試。此外,app 側邊欄出現了一個 Agents(Beta)標籤,目前點進去是黑畫面,顯然是即將上線的功能佔位符。

洩漏的定價資訊:每百萬輸入 Token USD 0.25、每百萬輸出 Token USD 2.00。作為對比,目前的 Gemini 3 Flash 是 USD 0.50 / USD 3.00。如果這個定價確認,3.2 Flash 在輸出端比 3.0 Flash 便宜了三分之一。

早期 Arena 測試的結果顯示,Gemini 3.2 Flash 在某些創意編碼任務上超越 Gemini 3.1 Pro。Google 歷來會在 I/O 前透過 Vertex AI 通知、功能旗標和 Arena 測試來鋪路,所以 5 月 19 日正式發表是目前最可能的時間點,但也有可能提前幾天靜默上線。


Gemma 4 MTP Drafter:推論速度快三倍,品質零損失

Google 在 5 月 5 日為 Gemma 4 模型家族發布了 Multi-Token Prediction(MTP)drafter。這是一種推測性解碼技術:一個輕量的 drafter 模型一次預測多個未來 Token,再由目標模型(例如 Gemma 4 31B)在單次前向傳遞中平行驗證。

結果是推論速度提升最高三倍,輸出品質零損失。因為最終驗證仍由目標模型執行,被接受的 Token 和目標模型自行產出的位元相同。

MTP drafter 涵蓋四種 Gemma 4 變體:31B Dense、26B A4B MoE、E2B 和 E4B 邊緣模型。邊緣版本額外使用了高效嵌入叢集技術,先預測可能的叢集再縮限最終 logit 計算,在記憶體受限的行動裝置上特別有效。所有 drafter 都在 Apache 2.0 授權下發布,權重在 Hugging Face 和 Kaggle 上公開。

對開源社群來說,這意味著 Gemma 4 在保持完全開放的前提下,把推論延遲壓到了和部分閉源模型競爭的水準。


Project Mariner 正式關閉

Google 在 5 月 5 日靜默關閉了 Project Mariner。這個 AI 瀏覽器代理人在去年 Google I/O 上被當作重點功能展示,能在 Chrome 中自主瀏覽網頁、填表、下單。WIRED 記者 Max Zeff 報導,早在兩個月前,Google 就已經把部分 Mariner 團隊成員調往其他專案,因為 OpenClaw 型態的代理人框架改變了市場優先級。

Mariner 的技術沒有消失,而是被吸收進 Google 更廣泛的 agent 策略,包括整合到基於 Gemini 3 推理能力的 Gemini Agent 中。這個決定的邏輯很清楚:與其維護一個獨立的瀏覽器代理人產品,不如把能力內建到 Gemini 生態系裡,作為 24/7 個人 AI 助理的一部分。


Notebook LM 心智圖更新

Google 的 Notebook LM 心智圖功能在本週也獲得升級,新增了以特定 prompt 引導心智圖結構的自訂功能、重新命名與分享功能、以及筆記之間更流暢的導覽轉場。這把 Notebook LM 從單純的摘要工具推向更互動的思考和探索平台。


FAQ

Anthropic 的金融代理人模板可以完全取代初階分析師嗎?

目前不能。Claude Opus 4.7 在 Vals AI Finance Agent 基準拿到 64.37%,這意味著將近四成的任務無法獨立完成。Anthropic 自己強調使用者必須審閱和批准 agent 的產出。這些模板擅長的是加速重複性結構化工作(對帳、KYC 審查、月結檢查表),但涉及判斷的分析和客戶溝通仍需要人工介入。

SubQ 的 1,200 萬 Token 上下文窗口和 Gemini 的 100 萬 Token 窗口差在哪裡?

差在架構。Gemini 使用標準 Transformer 注意力,上下文長度加倍則運算量變四倍。SubQ 聲稱其 SSA 架構讓擴展變成線性,所以可以在合理成本下推到 1,200 萬 Token。但 SubQ 的數字尚未經獨立驗證,API 實際開放的是 100 萬 Token。歷史上多數次二次注意力方案在前沿規模下表現不如預期,需要等待第三方基準測試結果。

GPT-5.5 Instant 和 GPT-5.5 Thinking 有什麼差別?

GPT-5.5 Instant 是 ChatGPT 的日常預設模型,優先考量回應速度和低延遲。GPT-5.5 Thinking 和 Pro 是上個月發布的重量級版本,為需要深度推理、長時間分析的任務設計。OpenAI 把模型分成「快速日常」和「深度工作」兩個層級。

Gemini 3.2 Flash 什麼時候正式發布?

目前最可能的時間是 5 月 19-20 日的 Google I/O 2026,但也有可能在大會前幾天透過 Vertex AI 靜默上線。洩漏的定價是每百萬輸入 Token USD 0.25、輸出 USD 2.00,比現行 Gemini 3 Flash 便宜。

Perplexity 和 Anthropic 的金融產品,企業該選哪個?

看使用情境。如果你的分析師已經住在 Excel 和 PowerPoint 裡,Anthropic 的微軟 365 整合和 agent 模板更適合嵌入現有工作流程。如果你需要跨多個資料源做即時搜尋和查證,Perplexity 的搜尋引擎架構和 BYOL 模式更靈活。兩者不互斥,有些機構可能會同時使用。

權威引用

Share this post
Annie Yeh

AI & Data Science Decoded: Join my journey of AI/ LLM. Let's grow our tech skills together! #AILearners #FashionAI

Loading...