AI 金融代理人大戰開打：Anthropic、Perplexity 同日搶灘，SubQ 次二次架構破局，Gemini 3.2 Flash 蓄勢待發

Q: Anthropic 的金融代理人模板可以完全取代初階分析師嗎？

目前不能。Claude Opus 4.7 在 Vals AI Finance Agent 基準拿到 64.37%，接近四成任務無法獨立完成。Anthropic 強調使用者必須審閱 agent 產出。這些模板擅長加速重複性結構化工作，但涉及判斷的分析仍需人工介入。

Q: GPT-5.5 Instant 和 GPT-5.5 Thinking 有什麼差別？

GPT-5.5 Instant 是 ChatGPT 日常預設模型，優先回應速度。GPT-5.5 Thinking 和 Pro 為深度推理和長時間分析設計。OpenAI 把模型分成快速日常和深度工作兩層級。

Q: Gemini 3.2 Flash 什麼時候正式發布？

最可能在 2026 年 5 月 19-20 日 Google I/O 正式發布，但可能提前幾天靜默上線。洩漏定價為每百萬輸入 Token USD 0.25、輸出 USD 2.00。

Q: Perplexity 和 Anthropic 的金融產品，企業該選哪個？

看使用情境。分析師住在 Excel 和 PowerPoint 裡的選 Anthropic 微軟 365 整合。需要跨多個資料源即時搜尋查證的選 Perplexity 的 BYOL 模式。兩者不互斥。

AI 金融代理人正在重新定義華爾街的工作流程。2026 年 5 月 5 日這一天，Anthropic 發布 10 套 Claude 金融代理人模板、Perplexity 推出 Computer for Professional Finance、OpenAI 將 GPT-5.5 Instant 設為 ChatGPT 預設模型、Subquadratic 帶著 2,900 萬美元種子輪和 1,200 萬 Token 上下文窗口的 SubQ 模型從隱匿模式現身，Google 則關閉了 Project Mariner 並讓 Gemma 4 推論速度快了三倍。這不是一般的新聞週期，而是 AI 產業在 72 小時內同時在金融、模型架構、消費產品三條戰線全面推進。

Anthropic 的金融代理人：十套模板、微軟 365 整合與華爾街客戶名單

Anthropic 在 5 月 5 日於紐約發表了 10 套金融服務代理人模板，覆蓋投行、資產管理、保險和合規四大場景。這些模板不是簡報上的概念圖，而是可以直接在 Claude Cowork 和 Claude Code 中以插件形式運行的完整架構。

十套模板分成兩組：

類別	模板名稱	功能
研究與客戶覆蓋	Pitch Builder	建立 comps model、自動產出 Excel 報表與 PowerPoint 簡報
	Meeting Preparer	會議前自動彙整客戶資料和市場動態
	Earnings Reviewer	解析財報數據、標記異常
	Model Builder	從 filing 和資料源建立財務模型
	Market Researcher	追蹤產業與發行人動態
財務與營運	Valuation Reviewer	比對估值方法與可比公司
	GL Reconciler	總帳對帳與淨值計算
	Month-end Closer	執行月結檢查表、產出結帳報告
	Statement Auditor	審閱財務報表一致性
	KYC Screener	組建實體檔案、審查來源文件

每套模板的架構包含三個組件：skills（工作流程說明與專業知識）、connectors（受控的資料存取權限）、subagents（執行特定子任務的輔助 Claude 模型）。技術上，這和業界常見的 agent 架構模式一致：把策略邏輯、資料連接器和模型呼叫分開，方便稽核與治理。

客戶端整合才是關鍵。Claude 現在透過 add-in 直接進駐 Excel、PowerPoint、Word，Outlook 版即將上線。分析師在 Excel 裡開始建模之後，切換到 PowerPoint 做簡報時不需要重新說明一次上下文。已公開的企業客戶包括 Citadel、高盛、花旗、Visa、AIG、Carlyle 和 Walleye Capital（400 人對沖基金，100% 員工使用 Claude Code）。

Reuters 報導指出，金融機構佔 Anthropic 前 50 大客戶的約 40%，金融是其第二大企業營收來源。Claude Opus 4.7 在 Vals AI 的 Finance Agent 基準測試拿到 64.37%。坦白說，這個分數離「取代第一年分析師」還有距離。Anthropic 自己也強調使用者需要「stay firmly in the loop」。但結構性的衝擊已經開始：重複性的月結、對帳、KYC 審查這些工作，AI 跑一輪的速度和初級分析師熬夜的速度完全不在同一個量級。

Perplexity 同日反擊：Computer for Professional Finance

幾乎在 Anthropic 紐約發表的同一天，Perplexity 宣布推出 Computer for Professional Finance。切入角度不同：Perplexity 採用 Bring Your Own License（BYOL）模式，讓使用者自行接入 Morningstar、PitchBook、Daloopa、Carbon Arc 等資料源的授權，平台本身提供 35 組預建金融工作流程和超過 40 種即時工具。

兩家的差異在於定位。Anthropic 走深度整合路線，把 agent 嵌進微軟 365、串接 FactSet、S&P Capital IQ、MSCI、Moody's 等頂級資料商。Perplexity 走平台路線，強調開放連接和搜尋引擎式的即時查證，每一筆數據都可以追溯到 SEC filing 等原始來源。

比較維度	Anthropic Claude 金融 Agent	Perplexity Computer for Finance
架構	Agent 模板（skill + connector + subagent）	搜尋引擎 + 工作流程平台
資料來源	FactSet、S&P、MSCI、Moody's、PitchBook（平台內建）	BYOL：Morningstar、PitchBook、Daloopa、Carbon Arc
辦公整合	Excel、PowerPoint、Word、Outlook	Microsoft Teams、Slack
預建工作流程	10 套模板	35+ 工作流程
定價模式	Claude 付費方案 + 企業授權	Perplexity Enterprise
稽核能力	Console 完整審計日誌	每筆回答附來源引用

這場金融 AI 競賽的直接市場反應很明顯：FactSet 股價當天最多跌 8.1%，Morningstar 跌超過 3%，S&P Global 和 Moody's 也承壓。市場把這些 AI agent 解讀為既有金融資料供應商的直接競爭者。

SubQ：次二次注意力架構首次進入前沿模型

同一天，一家邁阿密新創 Subquadratic 帶著 2,900 萬美元（約 NTD 928,000,000）種子輪從隱匿模式現身，發布了他們的第一個模型 SubQ。

核心技術叫做 Subquadratic Sparse Attention（SSA）。標準 Transformer 的注意力機制是二次方擴展：把輸入長度加倍，運算量變四倍。這是目前多數前沿模型上下文窗口卡在 100 萬到 200 萬 Token 的根本原因。SubQ 的做法是識別哪些 Token 之間的關係真正重要，忽略其餘的，讓擴展變成線性。

公司公布的數字：

上下文窗口：1,200 萬 Token（研究配置），API 開放 100 萬 Token
在 100 萬 Token 下比 FlashAttention 快 52 倍（在 B200 GPU 上測試）
1,200 萬 Token 下注意力運算量減少約 1,000 倍
RULER 128K 長上下文基準：95% 準確率，成本約 USD 8（相比 Claude Opus 的 USD 2,600）
SWE-Bench Verified：81.8%（Claude Opus 4.6 為 80.8%）
成本約為 Claude Opus 或 GPT-5.5 的五分之一

不過這些數字都是廠商自行發布的，尚未經過獨立驗證。歷史上，從 Mamba 到 RWKV 到 DeepSeek Sparse Attention，每一個次二次注意力方案都承諾過類似的突破，但在前沿規模的下游基準測試中，表現往往不如標準二次方注意力。LessWrong 上有分析認為，多數次二次注意力機制更接近常數因子改進，而非根本性的架構轉換。SubQ 能不能打破這個模式，還需要更多獨立測試。

技術細節值得關注的一點：DeepSeek 的 Native Sparse Attention 拿過 ACL 2025 最佳論文，其後續版本 DSA 已經在 DeepSeek V3.2-Exp 上線。但 DSA 的「閃電索引器」在選取要關注哪些 key 時，本身仍然是二次方運算。SubQ 聲稱 SSA 避開了這個陷阱，實現了完全的次二次擴展。

GPT-5.5 Instant：ChatGPT 換了一顆新引擎

OpenAI 在 5 月 5 日把 ChatGPT 的預設模型從 GPT-5.3 Instant 換成 GPT-5.5 Instant。這次更新距離上次預設模型切換恰好兩個月（GPT-5.3 Instant 在 3 月 3 日上線），距離 GPT-5.5 Thinking 和 Pro 版本發布約兩週。

OpenAI 說 GPT-5.5 Instant 在高風險問題（醫療、法律、金融）上的幻覺率比 GPT-5.3 Instant 降低了 52.5%，在使用者曾標記事實錯誤的對話中，不準確回答減少了 37.3%。AIME 2025 數學測試從 65.4 分提升到 81.2 分；MMMU-Pro 多模態推理從 69.2 分提升到 76 分。

體驗面的變化也許對日常使用者更有感：回覆變得更精簡，少了不必要的格式化和反問式追問，「多餘的表情符號」被官方點名削減。Plus 和 Pro 使用者可以讓模型讀取過去的對話、檔案和 Gmail 來產出更個人化的回答，同時新增「memory sources」功能讓使用者看到哪些過往資料影響了回答。

GPT-5.3 Instant 保留三個月供付費使用者切換。API 方面，GPT-5.5 以「chat-latest」標籤上線。

Gemini 3.2 Flash：Google I/O 前的靜默部署

Google I/O 2026 訂在 5 月 19-20 日。在那之前，Gemini 3.2 Flash 已經以多種方式曝光。

5 月 5 日，有 iOS 使用者在 Gemini App 1.2026.1710205 版本中看到模型選擇器短暫出現「Gemini 3.2 Flash」選項，隨後被移除。Reddit 上有使用者回報 app 在 24 小時內從 Gemini 3 Flash 切換到 3.1、再到 3.2 Flash。同時間，Gemini 3.2 Flash 在 LM Arena（Eleuther AI 的第三方模型評測平台）上被發現正在跑靜默基準測試。此外，app 側邊欄出現了一個 Agents（Beta）標籤，目前點進去是黑畫面，顯然是即將上線的功能佔位符。

洩漏的定價資訊：每百萬輸入 Token USD 0.25、每百萬輸出 Token USD 2.00。作為對比，目前的 Gemini 3 Flash 是 USD 0.50 / USD 3.00。如果這個定價確認，3.2 Flash 在輸出端比 3.0 Flash 便宜了三分之一。

早期 Arena 測試的結果顯示，Gemini 3.2 Flash 在某些創意編碼任務上超越 Gemini 3.1 Pro。Google 歷來會在 I/O 前透過 Vertex AI 通知、功能旗標和 Arena 測試來鋪路，所以 5 月 19 日正式發表是目前最可能的時間點，但也有可能提前幾天靜默上線。

Gemma 4 MTP Drafter：推論速度快三倍，品質零損失

Google 在 5 月 5 日為 Gemma 4 模型家族發布了 Multi-Token Prediction（MTP）drafter。這是一種推測性解碼技術：一個輕量的 drafter 模型一次預測多個未來 Token，再由目標模型（例如 Gemma 4 31B）在單次前向傳遞中平行驗證。

結果是推論速度提升最高三倍，輸出品質零損失。因為最終驗證仍由目標模型執行，被接受的 Token 和目標模型自行產出的位元相同。

MTP drafter 涵蓋四種 Gemma 4 變體：31B Dense、26B A4B MoE、E2B 和 E4B 邊緣模型。邊緣版本額外使用了高效嵌入叢集技術，先預測可能的叢集再縮限最終 logit 計算，在記憶體受限的行動裝置上特別有效。所有 drafter 都在 Apache 2.0 授權下發布，權重在 Hugging Face 和 Kaggle 上公開。

對開源社群來說，這意味著 Gemma 4 在保持完全開放的前提下，把推論延遲壓到了和部分閉源模型競爭的水準。

Project Mariner 正式關閉

Google 在 5 月 5 日靜默關閉了 Project Mariner。這個 AI 瀏覽器代理人在去年 Google I/O 上被當作重點功能展示，能在 Chrome 中自主瀏覽網頁、填表、下單。WIRED 記者 Max Zeff 報導，早在兩個月前，Google 就已經把部分 Mariner 團隊成員調往其他專案，因為 OpenClaw 型態的代理人框架改變了市場優先級。

Mariner 的技術沒有消失，而是被吸收進 Google 更廣泛的 agent 策略，包括整合到基於 Gemini 3 推理能力的 Gemini Agent 中。這個決定的邏輯很清楚：與其維護一個獨立的瀏覽器代理人產品，不如把能力內建到 Gemini 生態系裡，作為 24/7 個人 AI 助理的一部分。

Notebook LM 心智圖更新

Google 的 Notebook LM 心智圖功能在本週也獲得升級，新增了以特定 prompt 引導心智圖結構的自訂功能、重新命名與分享功能、以及筆記之間更流暢的導覽轉場。這把 Notebook LM 從單純的摘要工具推向更互動的思考和探索平台。

FAQ

Anthropic 的金融代理人模板可以完全取代初階分析師嗎？

目前不能。Claude Opus 4.7 在 Vals AI Finance Agent 基準拿到 64.37%，這意味著將近四成的任務無法獨立完成。Anthropic 自己強調使用者必須審閱和批准 agent 的產出。這些模板擅長的是加速重複性結構化工作（對帳、KYC 審查、月結檢查表），但涉及判斷的分析和客戶溝通仍需要人工介入。

SubQ 的 1,200 萬 Token 上下文窗口和 Gemini 的 100 萬 Token 窗口差在哪裡？

差在架構。Gemini 使用標準 Transformer 注意力，上下文長度加倍則運算量變四倍。SubQ 聲稱其 SSA 架構讓擴展變成線性，所以可以在合理成本下推到 1,200 萬 Token。但 SubQ 的數字尚未經獨立驗證，API 實際開放的是 100 萬 Token。歷史上多數次二次注意力方案在前沿規模下表現不如預期，需要等待第三方基準測試結果。

GPT-5.5 Instant 和 GPT-5.5 Thinking 有什麼差別？

GPT-5.5 Instant 是 ChatGPT 的日常預設模型，優先考量回應速度和低延遲。GPT-5.5 Thinking 和 Pro 是上個月發布的重量級版本，為需要深度推理、長時間分析的任務設計。OpenAI 把模型分成「快速日常」和「深度工作」兩個層級。

Gemini 3.2 Flash 什麼時候正式發布？

目前最可能的時間是 5 月 19-20 日的 Google I/O 2026，但也有可能在大會前幾天透過 Vertex AI 靜默上線。洩漏的定價是每百萬輸入 Token USD 0.25、輸出 USD 2.00，比現行 Gemini 3 Flash 便宜。

Perplexity 和 Anthropic 的金融產品，企業該選哪個？

看使用情境。如果你的分析師已經住在 Excel 和 PowerPoint 裡，Anthropic 的微軟 365 整合和 agent 模板更適合嵌入現有工作流程。如果你需要跨多個資料源做即時搜尋和查證，Perplexity 的搜尋引擎架構和 BYOL 模式更靈活。兩者不互斥，有些機構可能會同時使用。

權威引用

AI & Data Science Decoded: Join my journey of AI/ LLM. Let's grow our tech skills together! #AILearners #FashionAI