OpenAI最新推出的o3模型展現了AI發展的新方向,但高昂的訓練成本成為產業發展的一大挑戰。

上個月,AI 創辦人和投資者提出,我們現在正處於「擴展定律的第二個時代」,並指出改進 AI 模型的既有方法正顯示出收益遞減。他們建議一種有希望的新方法可以維持收益,那就是「測試時擴展」,這似乎是 OpenAI 的 o3 模型 效能背後的原因 — 但它也有自身的缺點。

許多 AI 界人士將 OpenAI 的 o3 模型的發布視為 AI 擴展進展並未「碰壁」的證明。o3 模型在基準測試中表現良好,在一項名為 ARC-AGI 的通用能力測試中顯著超越所有其他模型,並在 困難的數學測試 中獲得 25% 的分數,而其他 AI 模型在該測試中的得分均未超過 2%。

當然我們對所有這些都持保留態度,直到我們可以親自測試 o3(到目前為止,很少有人嘗試過)。但即使在 o3 發布之前,AI 界已經確信一些重大轉變已經發生。

OpenAI 的 o 系列模型的共同創建者 Noam Brown 週五指出,該新創公司在宣布 o1 後僅僅三個月就宣布了 o3 的驚人收益 — 對於效能的如此躍升而言,這是一個相對較短的時間範圍。

Brown 在一則 推文 中表示:「我們有充分的理由相信這種軌跡將會持續下去。」

Anthropic 共同創辦人 Jack Clark 在週一的一篇 部落格文章 中表示,o3 證明 AI「在 2025 年的進展將比 2024 年更快。」(請記住,暗示 AI 擴展定律仍在持續對 Anthropic 有利 — 尤其是其籌集資金的能力)

Clark 表示,明年 AI 界將把測試時擴展和傳統的預訓練擴展方法結合在一起,以從 AI 模型中獲得更多回報。也許他是在暗示 Anthropic 和其他 AI 模型供應商將在 2025 年發布他們自己的推理模型,就像 Google 上週推出的 Gemini 2

Gemini 2.0實驗高級版:AI新突破,付費用戶獨享
Google Gemini 2.0實驗高級版為付費訂閱用戶帶來突破性的AI能力,讓您體驗更智慧、更便捷的AI服務。

測試時擴展意味著 OpenAI 在 ChatGPT 的推理階段使用了更多的計算資源,也就是你在提示符上按下 enter 鍵之後的時間段。目前尚不清楚幕後到底發生了什麼:OpenAI 要么使用更多的電腦晶片來回答用戶的問題,要么運行更強大的推理晶片,要么在 AI 產生答案之前,運行這些晶片更長的時間 — 在某些情況下為 10 到 15 分鐘。我們不了解 o3 是如何製作的所有細節,但這些基準測試是早期跡象,表明測試時擴展可能有助於提高 AI 模型的效能。

雖然 o3 可能讓某些人重新相信 AI 擴展定律的進展,但 OpenAI 的最新模型也使用了前所未見的計算量,這意味著每個答案的價格更高。

Clark 在他的部落格中寫道:「這裡可能唯一重要的警告是理解到 O3 如此出色的原因之一是它在推理時運行需要花費更多的錢 — 利用測試時計算的能力意味著在某些問題上,你可以將計算轉化為更好的答案。」「這很有趣,因為它使得運行 AI 系統的成本在某種程度上變得不太可預測 — 以前,你只需查看模型和生成給定輸出的成本,就可以計算出服務生成模型的成本。」

Clark 和其他人指出,o3 在 ARC-AGI 基準測試中的表現 — 一項用於評估 AGI 突破的困難測試 — 是其進展的指標。值得注意的是,根據其創建者的說法,通過此測試並不意味著 AI 模型已實現了 AGI,而只是衡量朝著這個模糊目標邁進的一種方式。儘管如此,o3 模型超越了之前所有進行過該測試的 AI 模型的得分,在其一次嘗試中獲得了 88% 的分數。OpenAI 的下一個最佳 AI 模型 o1 的得分僅為 32%。

AGI 距離我們還有多遠?探討人工智慧的未來
深入探討 AGI 的發展現狀與未來挑戰,分析實現 AGI 的可能性,以及對人類社會的潛在影響。
圖表顯示 OpenAI 的 o 系列在 ARC-AGI 測試中的表現。**圖片來源:**ARC Prize
但是此圖表上的對數 x 軸可能會讓某些人感到擔憂。高分版本的 o3 每個任務使用了價值超過 1,000 美元的計算資源。o1 模型每個任務使用了約 5 美元的計算資源,而 o1-mini 僅使用了幾美分。

ARC-AGI 基準測試的創建者 François Chollet 在一篇 部落格 中寫道,與僅低 12% 分數的高效率版本 o3 相比,OpenAI 使用了大約 170 倍的計算資源來產生 88% 的分數。高分版本的 o3 使用了超過 10,000 美元的資源來完成測試,這使得它太過昂貴而無法參加 ARC Prize 競賽 — 一項讓 AI 模型擊敗 ARC 測試的未被擊敗的競賽。儘管如此,o3 對於 AI 模型來說仍然是一個突破。

Chollet 在部落格中表示:「o3 是一個能夠適應它以前從未遇到過的任務的系統,可以說在 ARC-AGI 領域接近人類水平的表現。」「當然,這種通用性是有代價的,並且還不夠經濟:你可以付錢給人類來解決 ARC-AGI 任務,每個任務大約 5 美元(我們知道,我們做過),而消耗的能源僅為幾美分。」

OpenAI o3: AGI 的前沿模型?
OpenAI 最新推出的 O3 模型,為人工智慧領域帶來前所未有的變革。本文深入解析 O3 模型的關鍵技術、以及它如何重新定義 AI 的可能性。

過分強調所有這些的確切定價還為時過早 — 我們已經看到 AI 模型的價格在去年暴跌,而 OpenAI 尚未宣布 o3 的實際成本是多少。但是,這些價格表明,即使只是略微突破當今領先 AI 模型設定的效能障礙,也需要多少計算資源。

這提出了一些問題。o3 實際上是為了什麼?為了在 o4、o5 或 OpenAI 將其下一個推理模型命名的任何名稱上圍繞推理獲得更多收益,需要多少額外的計算資源?

o3 或其後繼者似乎不會像 GPT-4o 或 Google 搜尋那樣成為任何人的「日常使用工具」。這些模型使用了太多的計算資源來回答你一天中的小問題,例如「克里夫蘭布朗隊如何才能進入 2024 年季後賽?」

相反,似乎具有擴展測試時計算的 AI 模型可能只適用於宏觀提示,例如「克里夫蘭布朗隊如何在 2027 年成為超級盃球隊?」即便如此,可能只有當你是克里夫蘭布朗隊的總經理,並且你正在使用這些工具做出一些重大決策時,才值得付出高昂的計算成本。

正如華頓商學院教授 Ethan Mollick 在一則 推文 中指出的那樣,擁有雄厚資金的機構可能是唯一能夠負擔得起 o3 的機構,至少在初期是這樣。

我們已經看到 OpenAI 發布了一個訂閱高達 200 美元 ChatGPT pro o1,但據報導 OpenAI 正在評估推出成本高達 2,000 美元的訂閱計劃。 當你看到 o3 使用了多少計算資源時,你就能理解為什麼 OpenAI 會考慮這樣做。

傳 OpenAI 正評估推出每月 2,000 美元企業訂閱方案
OpenAI傳出將推出高達每月2000美元的企業訂閱方案,瞄準企業級AI市場,提供更強大的AI服務。

但是,將 o3 用於高影響力工作也有缺點。正如 Chollet 指出的那樣,o3 不是 AGI,它在人類可以輕鬆完成的一些非常簡單的任務上仍然會失敗。

這並不一定令人驚訝,因為大型語言模型 仍然存在巨大的幻覺問題,而 o3 和測試時計算似乎並未解決這個問題。這就是為什麼 ChatGPT 和 Gemini 在它們產生的每個答案下方都包含免責聲明,要求用戶不要完全相信答案。據推測,AGI 如果真的實現,將不需要這樣的免責聲明。

解鎖測試時擴展更多收益的一種方法可能是更好的 AI 推理晶片。不乏新創公司正在解決這個問題,例如 Groq 或 Cerebras,而其他新創公司正在設計更具成本效益的 AI 晶片。

雖然 o3 是 AI 模型效能的顯著改進,但它引發了有關使用和成本的幾個新問題。儘管如此,o3 的效能確實為測試時計算是科技產業擴展 AI 模型的下一個最佳途徑的主張增添了可信度。

Tenten 有一個以 AI 為主題的 Threads 帳戶!在此處追蹤

延伸閱讀

FAQ

1. OpenAI 的 o3 模型有什麼突破性改進?

o3 模型運用了「測試時擴展」的新概念,在推理階段使用更多計算資源,顯著提升效能。它在 ARC-AGI 測試中創下 88% 的高分,而其他模型的得分遠低於這一水平。

2. 測試時擴展是什麼意思?

測試時擴展是指 AI 模型在推理階段採用更多計算資源,比如運行更強大的晶片或延長晶片運行時間,以在生成答案時提升準確性和效能。

3. 為什麼 o3 模型的成本如此高?

o3 正是因為使用了額外的計算資源而取得顯著效能提升,但這也導致運行成本的激增。例如,在每個 ARC 測試任務上,o3 最佳版本的單次運行成本可能高達 10,000 美元。

4. 哪些使用者適合使用 o3 模型?

o3 模型目前更適合於高影響力的任務,例如企業決策或專業研究。由於其高昂的運行成本,一般用戶通常不適合日常使用該模型。

5. o3 模型是否實現了 AGI?

儘管 o3 在某些基準測試中靠近人類水準,但它距離真正的 AGI(通用人工智慧)仍有很大距離,並且仍存在幻覺問題以及在簡單任務上的失敗案例。

Share this post