OpenAI o1 的問世 - 代理推理時代的開始
在生成式 AI 革命的兩年後,研究正在將這個領域從“快速思考”——即快速預訓練反應——推進到“慢速思考”——推理推論的時代。這種演變正在解鎖一批新的代理應用。
在我們的文章「Generative AI:一個創新的新世界」發表兩週年之際,AI 生態系統看起來完全不同,我們也對即將出現的趨勢有一些預測。
生成式 AI 市場的基礎層正在與一組關鍵的大型玩家和聯盟達成平衡,包括微軟/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。只有具備經濟引擎和擁有大量資本的大型玩家仍然活躍。儘管競爭遠未結束(而且以博弈論方式不斷升級),但市場結構本身正在固化,很明顯,我們將擁有越來越便宜和豐富的下一個代碼預測。
隨著 LLM 市場結構的穩定,下一個前沿正在出現。重點轉向推理層的發展和擴展,這裡“系統 2”思維佔據主導地位。受像 AlphaGo 這樣的模型啟發,這一層旨在賦予 AI 系統在推論時的有意推理、問題解決和認知操作,這超越了快速模式匹配。而且新的認知架構和使用者界面正在塑造這些推理能力如何傳遞給並與使用者互動。
這一切對 AI 市場的創業者意味著什麼?對現有的軟件公司意味著什麼?作為投資者,我們在哪一層看到生成式 AI 堆疊中最有潛力的回報?
在我們最新的關於生成式 AI 市場狀況的文章中,我們將探討 LLM 基礎層的整合如何為這些高階推理和代理能力的擴展奠定了基礎,並討論具有新認知架構和使用者界面的新一代“殺手級應用”。
o1 問世後的分水嶺
2024 年最重要的模型更新屬於 OpenAI 的 o1,前稱 Q*,也被稱為草莓。這不僅是對 OpenAI 在模型質量排行榜上正當地位的再次確認,也是對現狀架構的顯著改進。更具體地說,這是第一個擁有真正通用推理能力的模型例子,並且他們通過推論時的計算實現了這一點。
這意味著什麼?預訓練模型正在基於大量數據進行下一個代碼的預測。他們依賴於“訓練時間的計算”。規模的一個自然產物是基本推理,但這種推理非常有限。如果你能更直接地教模型推理呢?這基本上就是草莓的作用。當我們說“推論時間計算”時,我們的意思是要求模型在回應之前停下來思考,這需要在推論時間進行更多計算(因此稱為“推論時間計算”)。“停下來思考”的部分就是推理。
AlphaGo x LLMs
那....當模型停下來思考時,它在做什麼?
讓我們先簡單回到 2016 年 3 月的首爾。在那裡發生了深度學習歷史上最具開創性的時刻之一:AlphaGo 與傳奇圍棋大師李世石的比賽。這不是普通的 AI 對人類比賽——這是世界看到 AI 不僅僅模仿模式的時刻。它在“思考”。
是什麼讓 AlphaGo 不同於之前的遊戲 AI 系統,比如深藍?像 LLM 一樣,AlphaGo 首先預訓練來模仿人類專家,從大約 3000 萬步圍棋比賽數據庫中學習,並從自我對弈中學習。但與其從預訓練模型中提供膝反應,AlphaGo 會停下來思考。在推論時,模型會運行搜索或模擬,涵蓋一系列潛在的未來情境,為這些情境打分,然後回應具有最高預期值的情境(或答案)。AlphaGo 獲得的時間越多,它的表現就越好。當推論時間為零時,模型無法擊敗最好的圍棋高手。但隨著推論時間的增加,AlphaGo 變得越來越好,直到超越了最優秀的人類玩家。
回到 LLM 世界。這裡難以複製 AlphaGo 的原因在於構建價值函數,或者說用來對回應進行打分的函數。如果你在玩圍棋,這比較直接:你可以模擬比賽的結束,看看誰會贏,然後計算下一步的預期值。如果你在編寫代碼,這相對簡單:你可以測試代碼,看看它是否有效。但是,如何對一篇文章的初稿打分呢?或者對一個旅行行程呢?或者對一份長文檔的關鍵條款摘要呢?這使得目前的方法下推理變得困難,這也是為什麼草莓在邏輯相近的領域(例如編程、數學、科學)相對較強,而在更開放和非結構化的領域(例如寫作)中不那麼強大。
儘管草莓的具體實現是一個嚴格保密的秘密,但關鍵思想涉及模型生成的思維鏈周圍的強化學習。審計模型的思維鏈表明,正在發生一些基本且令人興奮的事情,實際上類似於人類的思考和推理方式。例如,o1 正在顯示出在推論時間擴展的自然產物中被卡住時進行回溯的能力。它還顯示出以人類的方式思考問題的能力(例如,為了解決幾何問題而可視化球體上的點),並以新的方式思考問題(例如,在編程競賽中以人類不會用的方式解決問題)。
沒有任何推進推論時間計算的新想法的短缺(例如計算獎勵函數的新方法、縮小生成器/驗證器之間差距的新方法),研究團隊正在努力改善模型的推理能力。換句話說,深度強化學習再次變得酷了,它正在促進整個新推理層的誕生。
系統 1 與系統 2 思考
從預訓練的本能反應(“系統 1”)到更深層次的、有意識的推理(“系統 2”)是 AI 的下一個前沿。僅僅知道事物對於模型來說是不夠的——它們需要暫停、評估並在實時中通過推理做出決策。
可以將預訓練視為系統 1 層。無論模型是否在數百萬步圍棋比賽中預訓練(AlphaGo)或在互聯網級文本中訓練(LLMs),它的工作是模仿模式——無論是人類遊戲還是語言。但模仿,儘管強大,卻不是真正的推理。它不能正確地思考其方式通過新的複雜情況,特別是那些超出樣本的情況。
這就是系統 2 思考的發揮作用之處,也是最新 AI 研究浪潮的重點。當模型“停下來思考”時,它不僅僅是在生成已學習的模式或基於過去數據吐出預測。它是在生成一系列可能性,考慮潛在結果,並基於推理做出決策。
對於許多任務來說,系統 1 已經足夠。正如 Noam Brown 在我們最新一集的訓練數據中指出的那樣,思考布丹首都是什麼不需要太多時間——你要么知道,要么不知道。在這裡,快速的基於模式的回憶完美運行。
但當我們看更複雜的問題時——例如數學或生物學中的突破——快速的、本能的反應並不奏效。這些進展需要深入思考、創造性問題解決——最重要的是——時間。對於 AI 來說也是如此。要解決最具挑戰性、最有意義的問題,AI 需要超越快速的樣本內反應,花時間提出像人類進步那樣深思熟慮的推理。
一個新的擴展定律:推論競賽開始了
o1 論文中最重要的見解是有一個新的擴展定律正在崛起。
預訓練 LLM 遵循一個廣為人知的擴展定律:你在預訓練模型上花費的計算資源和數據越多,模型的性能就越好。
o1 論文為推論計算開啟了一個全新的擴展空間:你給模型的推論時間(或“測試時間”)計算越多,模型的推理能力就越強。
當模型能夠思考數小時、數天甚至數十年時會發生什麼?我們能解決黎曼猜想嗎?我們能回答阿西莫夫的最後一個問題嗎?
這一變化將使我們從一個巨大的預訓練集群世界走向 推論雲——一個可以根據任務複雜性動態擴展計算資源的環境。
一個模型統治所有?
當 OpenAI、Anthropic、Google 和 Meta 推廣它們的推理層並開發越來越強大的推理機器時,會出現一個統治所有的模型嗎?
生成式 AI 市場一開始的一個假設是,某家公司會開發出一個如此強大和包羅萬象的模型,以至於它會取代所有其他應用程序。這一預測在兩方面是錯誤的。
首先,在模型層有大量的競爭,對於 SOTA 能力的持續超越競爭一直存在。有可能有人會發現具有廣泛領域自我對弈和連續自我改進的技術並實現突破,但目前我們還沒有看到這方面的證據。事實正好相反,模型層是一場刀光劍影的戰鬥,GPT-4 的每個代碼價格自上次開發日以來下降了 98%。
其次,模型基本上未能作為突破性產品進入應用層,除了 ChatGPT。現實世界是混亂的。偉大的研究人員並不希望了解每個可能的功能在每個可能的垂直領域的端到端工作流程的細節。對他們來說,停在 API 是既吸引人又經濟合理的,讓開發者的宇宙去處理現實世界的混亂。這對應用層來說是個好消息。
混亂的現實世界:定制的認知架構
作為科學家的你規劃並推動行動以實現你的目標的方式與你作為軟件工程師的工作方式大不相同。而且,即使是同一位軟件工程師,在不同公司工作的方式也不同。
隨著研究實驗室在水平通用推理上不斷突破界限,我們仍然需要應用或特定領域的推理來提供有用的 AI 代理。混亂的現實世界需要大量領域和應用特定的推理,這些推理無法有效地編碼到一個通用模型中。
進入認知架構,或系統思考的方式:代碼和模型交互的流程,接收使用者的輸入並執行操作或生成回應。
例如,在 Factory 的案例中,他們的每個“機器人”產品都有一個定制的認知架構,模仿人類解決特定任務的方式,比如審查 pull 請求或編寫和執行從一個後端遷移到另一個的計劃。Factory 的機器人會分解所有依賴關係,提出相關的代碼更改,添加單元測試,並邀請人類審查。審查批准後,它會在所有文件中運行更改,並在所有測試通過時合併代碼。這就像人類可能做的那樣——一組離散的任務,而不是一個通用的黑盒答案。
應用程序的發展狀況如何?
假設你想在 AI 領域創業。你想針對技術棧的哪一層進行競爭?你想在基礎設施上競爭嗎?祝你打敗 NVIDIA 和超大規模運營商運氣好。你想在模型上競爭嗎?祝你打敗 OpenAI 和馬克·扎克伯格運氣好。你想在應用上競爭嗎?祝你打敗企業 IT 和全球系統集成商運氣好。哦,等等。這其實聽起來還挺可行的!
基礎模型是魔法,但它們也很混亂。主流企業無法應對黑盒、幻覺和笨拙的工作流程。消費者盯著一個空白的提示,不知道該問什麼。這些都是應用層的機會。
兩年前,許多應用層公司被貶為“只是在 GPT-3 之上包裝”。今天,那些包裝變成了構建持久價值的唯一可靠方法之一。最初作為“包裝”的東西已經演變成“認知架構”。
應用層 AI 公司不僅僅是基礎模型之上的 UI。遠非如此。它們擁有複雜的認知架構,通常包括多個基礎模型,並在其上有某種路由機制,向量和/或圖數據庫用於 RAG,確保合規性的護欄,以及模仿人類推理工作流程的應用邏輯。
軟件即服務的服務 (SaaS)
雲過渡是軟件即服務。軟件公司成為了雲服務提供商。這是一個 3500 億美元的機會。透過 AI Agents 代理推理,AI 的轉變是服務即軟件。軟件公司將勞動力轉化為軟件。這意味著可尋址市場不再是軟件市場,而是以萬億美元為單位計算的服務市場。
這意味著賣工作是什麼?Sierra 是一個很好的例子。B2C 公司將 Sierra 放在他們的網站上與顧客對話。工作要完成的是解決顧客問題。Sierra 按解決方案付費。這裡不存在“座位”的概念。你有一個需要完成的工作。Sierra 會做。然後根據情況收費。
這是許多 AI 公司的真正目標。Sierra 受益於具有優雅的故障模式(升級到人類代理)。並非所有公司都這麼幸運。一種新興模式是首先作為副駕駛(有人的介入)部署,並利用這些經驗賺取機會,最終作為自動駕駛(無人介入)部署。GitHub Copilot 是這方面的一個好例子。
一個新的代理應用群體
隨著生成式 AI 的推理能力逐漸展現,開始出現一個新的代理應用群體。這些應用層公司的形態是什麼?有趣的是,這些公司看起來與其雲前輩不同:
- 雲公司針對軟件利潤池。AI 公司則針對服務利潤池。
- 雲公司賣軟件(按座位計費)。AI 公司賣工作(按結果計費)
- 雲公司傾向於自下而上,具有無摩擦的分發方式。AI 公司則越來越多地自上而下,具有高接觸、高信任的交付模式。
我們正在看到這些代理應用在知識經濟的所有部門中涌現。以下是一些例子。
- Harvey:AI 律師
- Glean:AI 工作助手
- Factory:AI 軟件工程師
- Abridge:AI 醫學文書
- XBOW:AI 滲透測試員
- Sierra:AI 客戶支持代理
通過降低交付這些服務的邊際成本——隨著推論成本的大幅下降——這些代理應用正在擴展並創造新的市場。
以 XBOW 為例。XBOW 正在構建一個 AI“滲透測試員”。“滲透測試”或稱滲透測試,是對計算機系統進行模擬網絡攻擊,以評估其自身的安全系統。在生成式 AI 之前,公司僅在有限情況下(例如,當需要合規時)僱用滲透測試員,因為人類滲透測試非常昂貴:這是一項由技術高超的人類完成的手動任務。然而,XBOW 正在展示基於最新推理 LLMs 的自動滲透測試,其性能與最技術高超的人工滲透測試員相媲美。這擴大了滲透測試市場,並為各種規模的公司開啟了持續滲透測試的可能性。
這對於 SaaS 世界意味著什麼?
今年早些時候,我們與有限合夥人會面。他們的首要問題是“AI 轉型會摧毀你們現有的雲公司嗎?”
我們開始的默認立場是“不會”。初創公司與 incumbents 之間的經典競爭是初創公司構建分發的賽馬與 incumbents 構建產品的競賽。年輕公司能否在 incumbents 擁有顧客之前,通過酷產品接觸到一大批顧客?鑒於 AI 的許多魔力來自基礎模型,我們的默認假設是“不會”——incumbents 會做得很好,因為那些基礎模型對他們與初創公司一樣可用,他們擁有數據和分發的既有優勢。對於初創公司來說,主要機會不是取代 incumbent 軟件公司——而是追求可自動化的工作池。
儘管如此,我們現在不那麼確定了。請參見上文有關認知架構的內容。要將模型的原始能力轉變為引人注目、可靠的端到端業務解決方案,需要大量的工程投入。如果我們只是嚴重低估了“AI 原生”意味著什麼呢?
二十年前,內部部署軟件公司對 SaaS 的想法嗤之以鼻。“這有什麼大不了的?我們也可以運行自己的服務器,通過互聯網交付這些東西!”當然,概念上很簡單。但接下來的是業務的全面改造。EPD 從瀑布開發和產品需求文檔轉向敏捷開發和 A/B 測試。GTM 從自上而下的企業銷售和牛排晚餐轉向自下而上的 PLG 和產品分析。商業模式從高 ASP 和維護收入轉向高 NDR 和基於使用的定價。很少有內部部署公司完成了這一過渡。
如果 AI 是一個類似的變革呢?AI 的機會會不會是既出售工作又替代軟件?
通過 Day.ai,我們看到了未來的一瞥。Day 是一個 AI 原生 CRM。系統集成商賺取數十億美元來配置 Salesforce 以滿足您的需求。Day 只需要訪問您的電子郵件和日曆,以及一頁問卷的回答,就可以自動生成一個完美適合您的業務的 CRM。它還沒有所有的鈴聲和哨聲(還),但自動生成且保持新鮮的 CRM 的魔力已經讓人們轉變。
投資宇宙
作為投資者,我們將重點放在哪裡?資金的部署方向是什麼?這是我們的簡單看法。
基礎設施
這是超大規模運營商的領域。它由博弈論行為驅動,而不是微觀經濟學。這對風險投資者來說是個糟糕的地方。
模型
這是超大規模運營商和金融投資者的領域。超大規模運營商正在用資產負債表換取損益表,投資的資金最終將回到它們的雲業務中,形成計算收入。金融投資者則受到了“被科學驚艷”的偏見影響。這些模型非常酷,這些團隊令人印象深刻。微觀經濟學根本無所謂!
開發者工具和基礎設施軟件
對戰略投資者來說興趣不大,但對風險資本家來說更具吸引力。在雲轉型期間,這一層創造了約 15 家年收入超過 10 億美元的公司,我們懷疑 AI 也會如此。
應用
對風險資本來說,這是最有趣的層次。在雲轉型期間創造了約 20 家年收入超過 10 億美元的應用層公司,在移動轉型期間又創造了約 20 家,我們懷疑 AI 也會如此。
結語
在生成式 AI 的下一幕中,我們預計推理研發的影響將波及應用層。這些影響迅速而深遠。到目前為止,大多數認知架構都包含巧妙的“解禁”技術;現在,這些能力越來越深入地融入模型本身,我們預計代理應用將變得更加先進和健壯,發展迅速。
回到研究實驗室,推理和推論時間計算將在可預見的未來繼續是一個強烈的主題。既然我們有了新的擴展定律,下一場競賽已經開始。但對於任何給定領域來說,收集真實世界數據並編碼領域和應用特定的認知架構仍然是困難的。這也是應用提供商在解決混亂現實世界中的多樣化問題方面可能佔有優勢的地方。
展望未來,像 Factory 的機器人那樣的多代理系統可能會開始普及,成為推理和社會學習過程的建模方式。一旦我們能夠完成工作,我們就可以擁有更多的工人團隊完成更多的工作。
我們所有人都在熱切期待生成式 AI 的第 37 步,那一刻——就像 AlphaGo 對陣李世石的第二局一樣——一個通用 AI 系統用一些超越人類的東西,讓我們感到驚訝,一些感覺像是獨立思考的東西。這並不意味著 AI“覺醒了”(AlphaGo 並沒有),而是我們模擬了感知、推理和行動的過程,AI 可以以真正新穎和有用的方式探索這些過程。這可能就是 AGI,如果是的話,這不會是一次性的,它將只是技術的下一個階段。
原文: Generative AI's Act o1: The Reasoning Era Begins | Sequoia Capital