科技巨擘 OpenAI 在近期的一場線上發布會中,隆重推出了其號稱迄今為止最強大、最智能的全新人工智能成果——滿血版 o3 模型與 o4-mini。此次發布由八位 OpenAI 核心成員共同主持,揭示了這兩款模型不僅僅是傳統意義上的升級,更代表著向真正 AI 系統的重大邁進。特別是 o3 模型,其展現出的系統性智能,預示著人工智能發展的新方向。

o3 模型:超越傳統,進化為系統級智能

OpenAI 團隊強調,o3 模型已超越了單純大型語言模型的範疇,進化成為一個具備「系統性智能」的 AI 系統。這並非僅是概念上的提升,而是頂尖科學家在實際應用中觀察到的顯著進化。o3 模型能夠提出真正新穎且具實用價值的創意,尤其在複雜的系統架構設計領域,其表現遠超以往模型僅能在既有框架內進行有限優化的能力。o3 模型展現了前所未有的創新能力,經常能打破常規,提出令人耳目一新的設計方案。

o3 模型的深度工具整合與自主調用能力

o3 模型的另一項重大突破在於其深度工具整合能力。它能夠自主地使用並結合 ChatGPT 內建的多種工具,包括網絡搜索、Python 編程、圖像分析、文件解讀以及圖像生成等。相較於過往的推理模型,o3 模型的主動工具調用能力實現了質的飛躍。面對複雜問題時,它不再被動等待指令,而是會主動出擊,甚至能連續調用超過 600 次工具來完成艱鉅任務。

例如,在處理涉及多領域知識的難題時,o3 模型會先調用網絡搜索工具獲取背景信息,接著利用 Python 進行數據處理與分析,再透過圖像分析工具解讀相關圖片。這種工具鏈式的推理模式,不僅大幅提升了問題解決能力,其實用性也遠超以往任何模型。

實例展示:o3 模型在科研與內容創作中的強大應用

為了直觀展現 o3 模型的威力,發布會現場演示了兩個真實案例。

案例一:科研輔助的加速器

研究員布蘭登展示了一張 2015 年關於質子同位旋標量電荷計算的物理研究海報,該研究當時並未得出最終結果。他將海報上傳給 o3 模型,指令其基於海報內容計算該電荷,並與近年文獻進行比較。o3 模型迅速啟動推理,首先將圖像分析融入思維鏈,精準定位海報中的關鍵圖表(如質量外推圖),提取數據點並計算斜率,進而外推至特定的物理參數(夸克質量)。

接著,模型從文獻中檢索相關常數,將外推結果乘以該常數,得出最終電荷值(模型估算為 1.5,原研究者結果為 1.2)。完成計算後,o3 模型還自動檢索了近五年約 10 篇相關論文,與自身結果進行比對,並指出由於早期實驗設備限制,其結果精度雖低於最新研究,但趨勢一致。

整個過程,o3 模型調用了 PythonNumPy 庫處理圖表數據,訪問了 arXivScienceDirect 等文獻數據庫摘要。這項人類研究員可能需要數天完成的複雜任務,o3 模型在短短 20 秒內便高效完成。

案例二:個性化跨領域內容的智能生成

研究員埃里克啟用了模型的「記憶」功能,結合自己對潛水和音樂的興趣,要求 AI 閱讀新聞,並教授一些與他至少兩個興趣相關且具深度的內容。他還要求 AI 在回覆中包含展示有趣數據和關係的圖表,並起草一篇博客文章,預留圖表位置。

o3 模型從埃里克的興趣入手,交叉分析了「潛水」與「音樂」,鎖定了「珊瑚礁聲波修復」這一前沿研究方向。隨後,它查詢文獻,整合了 2024 年《自然·生態學》雜誌的相關內容,解釋了聲波吸引幼體珊瑚附著的科學原理。接著,利用可視化工具 Canvas 生成了 2010 年至 2025 年的珊瑚覆蓋率增長曲線圖,並添加了水下聲波設備的 SVG 矢量示意圖。

過程中,o3 模型調用了新聞爬蟲抓取 BBCScienceDaily 的近期報導,使用 Matplotlib 圖表庫生成數據圖並導出為交互式 HTML,還自動生成了 APA 格式的參考文獻(包含 3 篇論文和 2 篇技術報告)。此案例充分證明,o3 模型能夠跨領域關聯用戶興趣,生成專業級科普內容,其工具鏈的自動化極大降低了內容創作門檻。

o3 模型與 o4-mini 在權威基準測試中的卓越表現

OpenAI 同步公布了 o3 模型和 o4-mini 在多個權威基準測試中的驚人表現,涵蓋數學、編程、科學推理、多模態理解等多個維度。

基準測試類別 基準名稱 模型 主要表現
數學與科學推理 AIME 2024 / 2025 o3 / o4-mini 引入 Python 工具後準確率大幅提升,o4-mini 在 AIME 2025 達 99.5%
GPQA Diamond (博士級) o3 / o4-mini o3 無工具下表現最佳,推理能力接近博士水平
編程與代碼能力 Codeforces o3 / o4-mini 引入終端工具後 ELO 分數大幅提升,躋身全球前 200 名選手水平
SWE-Lancer o3-high / o4-mini-high "收益" 分別達 65,250 和 56,375,遠超 o1-high 和 o3-mini-high
SWE-Bench o3 / o4-mini-high 準確率均超 68%,大幅領先 o1
Aider Polyglot o3-high 在整體和差異編輯任務中表現突出
多模態理解與推理 MMMU (大學級視覺) o3 / o4-mini 準確率均超 81%,大幅領先 o1
MathVista (視覺數學) o3 / o4-mini o3 達 87.5%,o4-mini 達 84.4%,遠超 o1
CharXiv-Reasoning (圖表) o3 / o4-mini o3 達 75.4%,o4-mini 達 72%,遠超 o1 (55.1%)
視覺搜索 o3 / o4-mini 準確率均超 94%,大幅領先 o1 和 GPT-4o
綜合推理 Humanity's Last Exam o3 結合工具後,綜合推理能力接近深度研究水平
指令跟隨 Scale MultiChallenge o3 在多輪複雜指令跟隨任務中表現最優,展現強大的長鏈路推理和任務分解能力

這一系列數據清晰表明,o3 模型與 o4-mini 在多模態任務、編程能力和複雜推理方面全面超越了前代 o1 模型,達到了業界領先水平。

o4-mini 的成本效益與 o3 模型的卓越可擴展性

在成本效率推理測試中,o4-mini 展現了其獨特優勢:不僅推理能力更強,推理成本也更低,使其非常適合大規模部署和實際應用場景。在低、中、高三個推理成本檔位下,o4-mini 的準確率和通過率均顯著優於 o3-mini,尤其在低成本下優勢明顯,極大提升了 AI 的普惠性與實用性。

與 o1 相比,o3 模型實現了跨越式進步。在同等甚至更低的成本下,o3 模型的推理能力大幅超越 o1。以 AIME 2025 為例,o3 (high) 的準確率超過 0.85,而 o1 (high) 僅為 0.75。在 GPQA Pass@1 科學推理任務上,o3 (high) 通過率超過 0.82,o1 (high) 僅為 0.77。

從訓練過程的性能提升曲線看,隨著訓練算力的增加,o3 模型的表現持續提升,最終遠超 o1。o1 在算力提升後表現趨於平穩,而 o3 則繼續大幅提升,最終接近 90 分。這說明 o3 模型在大規模算力投入下,性能提升曲線更為陡峭,具備更強的「可擴展性」,為未來更大規模、更高能力的 AI 系統奠定了堅實基礎。

開源 Agent-CodeX:連接 AI 與本地開發環境

發布會的另一大亮點是開源了輕量級編碼助手 Agent-CodeX,直接對標 Claude Code。它能夠安全地將 AI 模型與用戶本地環境連接,實現自動化代碼生成、文件編輯、命令執行等功能。Codex CLI 支持「建議模式」和「全自動模式」,兼顧了安全性與效率。現場演示中,團隊使用 Codex CLI 和 o4-mini 模型,快速復現了一個社區圖片生成項目,展示了 AI 與本地工具深度結合的巨大潛力。

API 訂價與安全機制

OpenAI 公布了新模型的 API 定價:

模型輸入($/百萬 tokens)緩存輸入輸出
o3102.540
o4‑mini1.10.2754.4

兩款模型皆通過最新《Preparedness Framework》測試,在生物、化學、資安等面向評為「低風險」。

在安全方面,OpenAI 對 o3 模型和 o4-mini 進行了全面的安全訓練數據集重構,新增了針對生物威脅、惡意軟件生成、越獄提示等領域的拒絕示例。同時,開發了系統層面的風險緩解機制,包括一個基於推理的語言模型監控器,能依據人類編寫的可解釋安全規範進行判斷。

根據最新的《準備度框架》(Preparedness Framework)標準進行的嚴格安全測試(涵蓋生物與化學風險、網絡安全、AI 自我改進能力),o3 模型與 o4-mini 在這三個領域均被評估為「低風險」級別。

開放進度與未來展望

OpenAI 宣布,o3 模型與 o4-mini 將逐步替代舊版模型。目前已向 Pro、Plus、Team 等訂閱用戶開放。ChatGPT 企業和教育用戶將在一周後獲得訪問權限。免費版用戶可通過點擊查詢前的 "Think" 按鈕體驗 o4-mini 的推理能力。API 端也將在未來幾周內支持工具調用。

同時,開源項目 CodeX 啟動了 100 萬美元的開源激勵計劃。o3 模型的訓練計算量是 o1 的 10 倍,凝聚了大量心血。OpenAI 強調將繼續推動 AI 系統的實用性、效率和安全性,致力於讓 AI 真正服務於每一個人。

🌈 Trusted by Industry Leaders - Ready to elevate your digital presence? Let's create something extraordinary together.

在 AI 快速演進的今天,品牌若想脫穎而出,就需要同步升級策略。 Tenten.co 深耕數位行銷與 AI 應用,能協助您:

  • 擘畫 AI 導入藍圖,精準落地
  • 借力數據洞察,優化全通路行銷
  • 打造高互動體驗,驅動持續增長

立即 預約免費會議,讓我們一起釋放 AI 為企業帶來的無限可能。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...