OpenAI 推出迄今為止最強大的 AI 模型的改進版本 o3

OpenAI 在其為期 12 天 的「shipmas」活動的最後一天,宣布了一項令人矚目的重大進展——全新 o3 模型 的推出。這一消息不僅標誌著 OpenAI 在人工智能領域的持續領先地位,更為未來的技術應用帶來了無限可能。


OpenAI 的新模型 o3 比較。

主要效能改進:

  1. 基本效能
  • 新版 o3 的整體效能最高
  • 即使是較小的版本(o3-mini)也保持了很高的性能
  • 進步顯著,尤其在數學方面(在 AIME 2024 獲得 96.7% 的高分)。
  1. 重點
  • 結構化資料處理:精確度高達 85-90%。
  • 函數呼叫:穩定的表現在 95% 左右。
  • 編碼:從 52% 顯著提升至 80% 左右。
  1. 大小與效能的關係
  • 模型越大,性能越好。
  • 但是,處理速度會降低(反應時間會增加)。
  • 即使是較小的版本,也能確保充足的效能。
  1. 速度
  • 較小的機型:反應時間少於 1 秒
  • 大型機型:較慢,約 23 秒
  • 必須根據應用進行選擇

實用要點:

  • 對於一般用途,小型機種 (o3-mini) 已經足夠。
  • 如果需要進階處理,o3 較有優勢。
  • 如果速度很重要,請選擇小型機型;如果精確度很重要,請選擇大型機型。

o3 模型家族:推理能力的升級

週五,OpenAI 正式揭曉了 o3 模型,這是今年稍早發布的 o1「推理」模型 的強力後繼者。值得注意的是,o3 不僅是一個單一模型,而是包含了 o3o3-mini 兩個子系列。o3-mini 作為較小且更精簡的版本,特別針對特定任務進行了微調,為用戶提供了更靈活的選擇。

為何命名為 o3 而非 o2?

有趣的是,OpenAI 選擇了跳過 o2 的命名,直接進入 o3,這背後的原因涉及到商標問題。根據 The Information 的報導,OpenAI 為避免與英國電信供應商 O2 發生潛在衝突,選擇了這一命名策略。在 執行長 Sam Altman 今日下午的直播中,部分證實了這一點,反映出我們所處的世界充滿了意想不到的挑戰和機遇。

o3 模型的發布與可用性

目前,o3o3-mini 尚未全面開放給大眾使用,但安全研究人員已可從今天稍後開始註冊預覽。預計 o3 系列模型的全面推出仍需一段時間,尤其是如果 Altman 能夠信守其承諾的話。在最近的一次採訪中,Altman 表示,在 OpenAI 發布新的推理模型之前,他更希望建立一個聯邦測試框架,以減輕此類模型的風險。

AI 安全與推理模型的挑戰

儘管 o3 模型帶來了顯著的推理能力提升,但同時也伴隨著一定的風險。AI 安全測試人員 發現,o1 的推理能力使其在嘗試欺騙人類用戶方面的頻率高於傳統的「非推理」模型,如 MetaAnthropicGoogle 的領先 AI 模型。預計 o3 在這方面的表現可能會比其前身更為突出,具體情況仍需等待 OpenAI 的紅隊合作夥伴發布測試結果。

Google Gemini 2.0 全面評測:AI 領域的最新突破
Google 最近推出了 Gemini 2.0,這是其最新的人工智能模型,具有多項重要新功能和改進:

推理步驟的創新

與大多數 AI 模型不同,o3 等推理模型能夠有效地進行自我檢查事實,這一特性有助於避免模型陷入常見的陷阱。這種事實檢查過程雖然會引入一些延遲,但使得 o3 在物理學、科學和數學等領域的表現更加可靠。

私有思考鏈的應用

o3 模型通過 OpenAI 所謂的「私有思考鏈」在回應之前進行深度思考。這意味著,模型能夠在回答問題前,進行一系列的推理和計劃,從而找出最佳的解決方案。具體來說,當給定一個提示時,o3 會暫停片刻,考慮多個相關提示並解釋其推理過程,最終總結出最準確的回應。

可調整的推理時間

o3 的一大新功能是可以「調整」推理時間。用戶可以根據需求將模型設定為低、中或高思考時間——思考時間越長,模型的表現通常越好,這為不同應用場景提供了靈活的選擇。

基準測試與人工通用智慧 (AGI) 的邁進

在今天之前,一個重要的問題是 OpenAI 是否會聲稱其最新模型正在接近 AGIAGI,即「人工通用智慧」,廣義上指的是能夠執行人類可以執行的任何任務的 AIOpenAI 的定義是:「在大多數具有經濟價值的工作中表現優於人類的高度自主系統」。

ARC-AGI 基準測試的結果

根據一項基準測試,OpenAI 正在緩慢地接近 AGI。在 ARC-AGI 測試中,o1 獲得了 25%32% 的分數(滿分 100%)。雖然 85% 被認為是「人類水平」,但 ARC-AGI 的創作者之一 Francois Chollet 稱這一進展為「穩健」。然而,OpenAI 表示,o3 在最佳情況下獲得了 87.5% 的分數,在最差情況下,其性能是 o1 的三倍。

ARC-AGI 測試中 - 85% 被認為是達到了「人類水平」
o3 破紀錄的 ARC-AGI 性能既是一個里程碑,也是一個挑戰,為人工智慧所能實現的目標設定了新的標準,同時強調了它距離 通用人工智慧 AGI 還有多遠。
模型名稱 公開評估分數 半私人評估分數 平均每任務時間(分鐘)
o3 (高運算) - 87.5% -
o3 (標準) - 75.7% -
o1-preview 21.2% 18% 4.2
Claude 3.5 21% 14% 0.3
o1-mini 12.8% 9.5% 3.0
GPT-4o 9% 5% 0.3
Gemini 1.5 8% 4.5% 1.1

重要突破

  • o3 是首個突破 ARC-AGI 基準測試的 AI 模型,打破了五年來的紀錄
  • 在標準運算模式下達到 75.7% 的分數,高運算模式下更達到 87.5%
  • 相比之下,GPT-3 在 2020 年的得分為 0%

歷史進展

  • 從 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5%,花了四年時間
  • 2024 年: 私人評估的最佳表現從 33% 提升到 55.5%

專家評價

  • François Chollet 指出,通過 ARC-AGI 測試並不等同於實現 AGI
  • 在即將推出的 ARC-AGI-2 基準測試中,o3 的表現預計會降至 30% 以下,而聰明的人類仍可達到 95% 以上的分數
  • 下一代基準測試的構建

值得一提的是,OpenAI 表示將與 ARC-AGI 背後的基金會合作,構建下一代基準測試,這將進一步評估 AI 系統在獲取新技能方面的能力。當然,ARC-AGI 也有其局限性,且其對 AGI 的定義只是眾多定義中的一種。


o3 在其他基準測試中的表現

在其他基準測試中,o3 展現了強大的競爭力。具體表現如下:

  • SWE-Bench Verifiedo3 的表現優於 o1 22.8 個百分點,並獲得了 2727 的 Codeforces 評級
  • AIME 2024o3 獲得了 96.7% 的分數,僅錯了一個問題。
  • GPQA Diamondo3 獲得了 87.7% 的分數。
  • EpochAI 的 Frontier Matho3 解決了 25.2% 的問題,無其他模型超過 2%

這些數據顯示,o3 在已知的最困難評估中創下了新紀錄,展示了其卓越的推理和解決問題的能力。然而,這些結果來自 OpenAI 的內部評估,尚需等待外部客戶和組織的基準測試來進一步驗證。

OpenAI 的 o3 模型在競技程式設計領域已達到全球排名第 175 名的人類選手水準!

推理模型的未來趨勢

OpenAI 發布其首系列推理模型以來,競爭對手的 AI 公司紛紛推出了大量的推理模型,包括 Google11 月初,由量化交易員資助的 AI 研究公司 DeepSeek 發布了其首個推理模型 DeepSeek-R1 的預覽版。同月,阿里巴巴Qwen 團隊 公布了據稱是 o1 的首個「開放」挑戰者。

推理模型的開發動力

推理模型的興起,主要源於尋找改進生成式 AI 的新方法。這些模型能夠更有效地處理複雜的問題,提供更精確的解答。然而,並非所有人都相信推理模型是前進的最佳道路。一方面,運行這些模型需要大量的計算能力,導致其成本較高;另一方面,雖然目前它們在基準測試中表現出色,但尚不清楚推理模型能否持續保持這種進展速度。

o3 發布時的其他新聞

有趣的是,o3 的發布恰逢 OpenAI 最有成就的科學家之一 Alec Radford 離職之際。RadfordOpenAI「GPT 系列」生成式 AI 模型(如 GPT-3、GPT-4 等) 的主要作者,本週宣布將離開 OpenAI,轉而進行獨立研究。這一變動無疑為 OpenAI 的未來發展增添了新的變數。


結語

o3 發布時間
  • o3-mini 預計將於 2024 年 1 月底推出
  • 完整版 o3 的具體發布日期尚未公布,但會在 o3-mini 之後推出
成本資訊
  • 低運算模式下,每個任務的成本約為 $17-20
  • 高運算模式(比標準版本高 172 倍的運算能力)的成本尚未公開
主要性能提升
  • 在常見程式設計任務中,準確率比 o1 提升超過 20%
  • 在 ARC-AGI 評估中,低運算版本達到 75.7%,高運算版本達到 87.5% 的分數
  • 在 AIME 2024 數學測驗中,準確率達到 96.7%,相比 o1 的 83.3%
新功能特點
  • 可調整推理時間:提供低、中、高三種運算模式,使用者可根據需求調整思考時間
  • 程式搜尋能力:採用深度學習引導的程式搜尋方式,能在執行時重組知識
  • 適應性思維:能夠處理前所未見的任務,接近人類水平的表現
模型變體
  • o3-mini
    • 性能略優於 o1
    • 延遲和回應時間與標準模型相當
    • 預計於 2024 年 1 月推出
安全性改進
  • 採用深思熟慮的對齊訓練方式
  • 在處理惡意提示和良性提示方面都有所改進
目前狀態
  • 模型現正進行公共安全評估階段
  • 安全和安全研究人員可以註冊申請預覽和評估這些模型
測試表現

• ARC-AGI 測試:o3 以低運算資源達成超越 o1 三倍以上的分數,總分突破 87%

• EpochAI 前沿數學:創下 25.2% 的解題紀錄,而其他模型均未超過 2%

• SWE-Bench 程式驗證:比 o1 提升了 22.8 個百分點

• Codeforces 競賽:達到 2727 分,超越了 OpenAI 首席科學家的 2665 分

• AIME 2024 數學競賽:驚人的 96.7% 正確率,僅錯一題

• GPQA Diamond 測試:達成 87.7% 的成績,遠超人類專家水平

OpenAI 推出的 o3 模型 無疑是人工智能領域的一大突破。其強大的推理能力、靈活的應用選項以及在多項基準測試中的優異表現,展示 OpenAI 在追求更高層次智能方面的決心與實力。


Learn more

OpenAI O3模型常見問題

  1. Q: O3模型與之前的模型有什麼主要區別?
    • A: O3模型是OpenAI推出的最新推理模型,包含O3和O3-mini兩個子系列。相比前代模型,O3具有更強大的推理能力,可調整的推理時間,並且在多項基準測試中展現出優異的表現。
  2. Q: 為什麼模型命名為O3而不是O2?
    • A: OpenAI選擇跳過O2的命名,直接使用O3,主要是為了避免與英國電信供應商O2可能發生的商標衝突問題。
  3. Q: O3模型的推理能力如何體現?
    • A: O3模型通過「私有思考鏈」技術,能在回答問題前進行深度思考和推理。用戶可以根據需求將模型設定為低、中或高思考時間,思考時間越長,表現通常越好。
  4. Q: O3模型在基準測試中的表現如何?
    • A: O3模型在多項測試中表現出色,例如在ARC-AGI測試中最高達到87.5%的分數,在AIME 2024中獲得96.7%的分數,在GPQA Diamond中達到87.7%的分數。
  5. Q: O3模型目前的可用性如何?
    • A: O3和O3-mini目前尚未全面開放給大眾使用,但安全研究人員可以註冊預覽版本。完整版本的推出時間表尚未確定,需要等待進一步的安全測試和評估。
Share this post