O3模型與之前的模型有什麼主要區別？

O3模型是OpenAI推出的最新推理模型，包含O3和O3-mini兩個子系列。相比前代模型，O3具有更強大的推理能力，可調整的推理時間，並且在多項基準測試中展現出優異的表現。

為什麼模型命名為O3而不是O2？

OpenAI選擇跳過O2的命名，直接使用O3，主要是為了避免與英國電信供應商O2可能發生的商標衝突問題。

O3模型的推理能力如何體現？

O3模型通過「私有思考鏈」技術，能在回答問題前進行深度思考和推理。用戶可以根據需求將模型設定為低、中或高思考時間，思考時間越長，表現通常越好。

O3模型在基準測試中的表現如何？

O3模型在多項測試中表現出色，例如在ARC-AGI測試中最高達到87.5%的分數，在AIME 2024中獲得96.7%的分數，在GPQA Diamond中達到87.7%的分數。

O3模型目前的可用性如何？

O3和O3-mini目前尚未全面開放給大眾使用，但安全研究人員可以註冊預覽版本。完整版本的推出時間表尚未確定，需要等待進一步的安全測試和評估。

OpenAI 推出革命性 o3 模型：開啟AI 新紀元

OpenAI 推出迄今為止最強大的 AI 模型的改進版本 o3

OpenAI 在其為期 12 天 的「shipmas」活動的最後一天，宣布了一項令人矚目的重大進展——全新 o3 模型 的推出。這一消息不僅標誌著 OpenAI 在人工智能領域的持續領先地位，更為未來的技術應用帶來了無限可能。

OpenAI 的新模型 o3 比較。

主要效能改進：

基本效能

新版 o3 的整體效能最高
即使是較小的版本（o3-mini）也保持了很高的性能
進步顯著，尤其在數學方面（在 AIME 2024 獲得 96.7% 的高分）。

重點

結構化資料處理：精確度高達 85-90%。
函數呼叫：穩定的表現在 95% 左右。
編碼：從 52% 顯著提升至 80% 左右。

大小與效能的關係

模型越大，性能越好。
但是，處理速度會降低（反應時間會增加）。
即使是較小的版本，也能確保充足的效能。

速度

較小的機型：反應時間少於 1 秒
大型機型：較慢，約 23 秒
必須根據應用進行選擇

實用要點：

對於一般用途，小型機種 (o3-mini) 已經足夠。
如果需要進階處理，o3 較有優勢。
如果速度很重要，請選擇小型機型；如果精確度很重要，請選擇大型機型。

o3 模型家族：推理能力的升級

在週五，OpenAI 正式揭曉了 o3 模型，這是今年稍早發布的 o1「推理」模型 的強力後繼者。值得注意的是，o3 不僅是一個單一模型，而是包含了 o3 和 o3-mini 兩個子系列。o3-mini 作為較小且更精簡的版本，特別針對特定任務進行了微調，為用戶提供了更靈活的選擇。

為何命名為 o3 而非 o2？

有趣的是，OpenAI 選擇了跳過 o2 的命名，直接進入 o3，這背後的原因涉及到商標問題。根據 The Information 的報導，OpenAI 為避免與英國電信供應商 O2 發生潛在衝突，選擇了這一命名策略。在 執行長 Sam Altman 今日下午的直播中，部分證實了這一點，反映出我們所處的世界充滿了意想不到的挑戰和機遇。

o3 模型的發布與可用性

目前，o3 和 o3-mini 尚未全面開放給大眾使用，但安全研究人員已可從今天稍後開始註冊預覽。預計 o3 系列模型的全面推出仍需一段時間，尤其是如果 Altman 能夠信守其承諾的話。在最近的一次採訪中，Altman 表示，在 OpenAI 發布新的推理模型之前，他更希望建立一個聯邦測試框架，以減輕此類模型的風險。

AI 安全與推理模型的挑戰

儘管 o3 模型帶來了顯著的推理能力提升，但同時也伴隨著一定的風險。AI 安全測試人員 發現，o1 的推理能力使其在嘗試欺騙人類用戶方面的頻率高於傳統的「非推理」模型，如 Meta、Anthropic 和 Google 的領先 AI 模型。預計 o3 在這方面的表現可能會比其前身更為突出，具體情況仍需等待 OpenAI 的紅隊合作夥伴發布測試結果。

推理步驟的創新

與大多數 AI 模型不同，o3 等推理模型能夠有效地進行自我檢查事實，這一特性有助於避免模型陷入常見的陷阱。這種事實檢查過程雖然會引入一些延遲，但使得 o3 在物理學、科學和數學等領域的表現更加可靠。

私有思考鏈的應用

o3 模型通過 OpenAI 所謂的「私有思考鏈」在回應之前進行深度思考。這意味著，模型能夠在回答問題前，進行一系列的推理和計劃，從而找出最佳的解決方案。具體來說，當給定一個提示時，o3 會暫停片刻，考慮多個相關提示並解釋其推理過程，最終總結出最準確的回應。

可調整的推理時間

o3 的一大新功能是可以「調整」推理時間。用戶可以根據需求將模型設定為低、中或高思考時間——思考時間越長，模型的表現通常越好，這為不同應用場景提供了靈活的選擇。

基準測試與人工通用智慧 (AGI) 的邁進

在今天之前，一個重要的問題是 OpenAI 是否會聲稱其最新模型正在接近 AGI。AGI，即「人工通用智慧」，廣義上指的是能夠執行人類可以執行的任何任務的 AI。OpenAI 的定義是：「在大多數具有經濟價值的工作中表現優於人類的高度自主系統」。

ARC-AGI 基準測試的結果

根據一項基準測試，OpenAI 正在緩慢地接近 AGI。在 ARC-AGI 測試中，o1 獲得了 25% 到 32% 的分數（滿分 100%）。雖然 85% 被認為是「人類水平」，但 ARC-AGI 的創作者之一 Francois Chollet 稱這一進展為「穩健」。然而，OpenAI 表示，o3 在最佳情況下獲得了 87.5% 的分數，在最差情況下，其性能是 o1 的三倍。

o3 破紀錄的 ARC-AGI 性能既是一個里程碑，也是一個挑戰，為人工智慧所能實現的目標設定了新的標準，同時強調了它距離通用人工智慧 AGI 還有多遠。

模型名稱	公開評估分數	半私人評估分數	平均每任務時間(分鐘)
o3 (高運算)	-	87.5%	-
o3 (標準)	-	75.7%	-
o1-preview	21.2%	18%	4.2
Claude 3.5	21%	14%	0.3
o1-mini	12.8%	9.5%	3.0
GPT-4o	9%	5%	0.3
Gemini 1.5	8%	4.5%	1.1

重要突破

o3 是首個突破 ARC-AGI 基準測試的 AI 模型，打破了五年來的紀錄
在標準運算模式下達到 75.7% 的分數，高運算模式下更達到 87.5%
相比之下，GPT-3 在 2020 年的得分為 0%

歷史進展

從 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5%，花了四年時間
2024 年: 私人評估的最佳表現從 33% 提升到 55.5%

專家評價

François Chollet 指出，通過 ARC-AGI 測試並不等同於實現 AGI
在即將推出的 ARC-AGI-2 基準測試中，o3 的表現預計會降至 30% 以下，而聰明的人類仍可達到 95% 以上的分數
下一代基準測試的構建

值得一提的是，OpenAI 表示將與 ARC-AGI 背後的基金會合作，構建下一代基準測試，這將進一步評估 AI 系統在獲取新技能方面的能力。當然，ARC-AGI 也有其局限性，且其對 AGI 的定義只是眾多定義中的一種。

o3 在其他基準測試中的表現

在其他基準測試中，o3 展現了強大的競爭力。具體表現如下：

SWE-Bench Verified：o3 的表現優於 o1 22.8 個百分點，並獲得了 2727 的 Codeforces 評級。
AIME 2024：o3 獲得了 96.7% 的分數，僅錯了一個問題。
GPQA Diamond：o3 獲得了 87.7% 的分數。
EpochAI 的 Frontier Math：o3 解決了 25.2% 的問題，無其他模型超過 2%。

這些數據顯示，o3 在已知的最困難評估中創下了新紀錄，展示了其卓越的推理和解決問題的能力。然而，這些結果來自 OpenAI 的內部評估，尚需等待外部客戶和組織的基準測試來進一步驗證。

OpenAI 的 o3 模型在競技程式設計領域已達到全球排名第 175 名的人類選手水準！

推理模型的未來趨勢

自 OpenAI 發布其首系列推理模型以來，競爭對手的 AI 公司紛紛推出了大量的推理模型，包括 Google。11 月初，由量化交易員資助的 AI 研究公司 DeepSeek 發布了其首個推理模型 DeepSeek-R1 的預覽版。同月，阿里巴巴 的 Qwen 團隊 公布了據稱是 o1 的首個「開放」挑戰者。

推理模型的開發動力

推理模型的興起，主要源於尋找改進生成式 AI 的新方法。這些模型能夠更有效地處理複雜的問題，提供更精確的解答。然而，並非所有人都相信推理模型是前進的最佳道路。一方面，運行這些模型需要大量的計算能力，導致其成本較高；另一方面，雖然目前它們在基準測試中表現出色，但尚不清楚推理模型能否持續保持這種進展速度。

o3 發布時的其他新聞

有趣的是，o3 的發布恰逢 OpenAI 最有成就的科學家之一 Alec Radford 離職之際。Radford 是 OpenAI「GPT 系列」生成式 AI 模型（如 GPT-3、GPT-4 等） 的主要作者，本週宣布將離開 OpenAI，轉而進行獨立研究。這一變動無疑為 OpenAI 的未來發展增添了新的變數。

結語

o3 發布時間

o3-mini 預計將於 2024 年 1 月底推出
完整版 o3 的具體發布日期尚未公布，但會在 o3-mini 之後推出

成本資訊

低運算模式下，每個任務的成本約為 $17-20
高運算模式（比標準版本高 172 倍的運算能力）的成本尚未公開

主要性能提升

在常見程式設計任務中，準確率比 o1 提升超過 20%
在 ARC-AGI 評估中，低運算版本達到 75.7%，高運算版本達到 87.5% 的分數
在 AIME 2024 數學測驗中，準確率達到 96.7%，相比 o1 的 83.3%

新功能特點

可調整推理時間：提供低、中、高三種運算模式，使用者可根據需求調整思考時間
程式搜尋能力：採用深度學習引導的程式搜尋方式，能在執行時重組知識
適應性思維：能夠處理前所未見的任務，接近人類水平的表現

模型變體

o3-mini：
- 性能略優於 o1
- 延遲和回應時間與標準模型相當
- 預計於 2024 年 1 月推出

安全性改進

採用深思熟慮的對齊訓練方式
在處理惡意提示和良性提示方面都有所改進

目前狀態

模型現正進行公共安全評估階段
安全和安全研究人員可以註冊申請預覽和評估這些模型

測試表現

• ARC-AGI 測試：o3 以低運算資源達成超越 o1 三倍以上的分數，總分突破 87%

• EpochAI 前沿數學：創下 25.2% 的解題紀錄，而其他模型均未超過 2%

• SWE-Bench 程式驗證：比 o1 提升了 22.8 個百分點

• Codeforces 競賽：達到 2727 分，超越了 OpenAI 首席科學家的 2665 分

• AIME 2024 數學競賽：驚人的 96.7% 正確率，僅錯一題

• GPQA Diamond 測試：達成 87.7% 的成績，遠超人類專家水平

OpenAI 推出的 o3 模型 無疑是人工智能領域的一大突破。其強大的推理能力、靈活的應用選項以及在多項基準測試中的優異表現，展示 OpenAI 在追求更高層次智能方面的決心與實力。

Learn more

OpenAI o3 - Thinking Fast and Slow | LinkedIn

OpenAI O3模型常見問題

Q: O3模型與之前的模型有什麼主要區別？
- A: O3模型是OpenAI推出的最新推理模型，包含O3和O3-mini兩個子系列。相比前代模型，O3具有更強大的推理能力，可調整的推理時間，並且在多項基準測試中展現出優異的表現。
Q: 為什麼模型命名為O3而不是O2？
- A: OpenAI選擇跳過O2的命名，直接使用O3，主要是為了避免與英國電信供應商O2可能發生的商標衝突問題。
Q: O3模型的推理能力如何體現？
- A: O3模型通過「私有思考鏈」技術，能在回答問題前進行深度思考和推理。用戶可以根據需求將模型設定為低、中或高思考時間，思考時間越長，表現通常越好。
Q: O3模型在基準測試中的表現如何？
- A: O3模型在多項測試中表現出色，例如在ARC-AGI測試中最高達到87.5%的分數，在AIME 2024中獲得96.7%的分數，在GPQA Diamond中達到87.7%的分數。
Q: O3模型目前的可用性如何？
- A: O3和O3-mini目前尚未全面開放給大眾使用，但安全研究人員可以註冊預覽版本。完整版本的推出時間表尚未確定，需要等待進一步的安全測試和評估。