OpenAI 推出 Deep Research 深度研究代理,為研究人員提供強大助力,突破研究瓶頸,實現更深層次的學術探索與創新。

OpenAI 最新發布的 Deep Research 代理,作為其繼 Operator 之後推出的第二個 AI 代理,已正式登場。這款代理系統專為計劃與執行多步驟網路研究流程而設計,能夠在 5 到 30 分鐘內完成一份完整的研究報告,大幅縮短了傳統人工研究所需的時間。本文將從功能介紹、使用流程、優勢與限制等方面,詳細解析 Deep Research 的運作原理與實際應用價值,並探討其在未來知識工作中的潛力。

OpenAI Operator: 我們使用軟體的方式將從此改變?
深入解析 OpenAI Operator 的 ChatGPT 代理功能,探討其工作原理、應用場景及未來發展潛力。

Deep Research 的運作模式

系統簡介與背景

OpenAI 的 Deep Research 系統是基於最新的 o3 模型開發而成,與數日前發布的 03 Mini 系列不同,這款系統採用了更高階的技術架構,專注於解決更為複雜的研究任務。據悉,使用此系統目前需要每月支付 200 美元的訂閱費(美國之外的用戶需使用 VPN),但其出色的性能足以彌補高昂的價格。該系統以代理形式運作,能夠結合網絡搜尋與內部知識庫,對各類晦澀難懂的資訊進行整合分析。

多步驟研究流程

Deep Research 是一個能夠「計劃並執行」複雜研究任務的 AI 代理。使用者只需輸入研究查詢,系統便會首先提出一系列澄清性問題,以確認具體需求與細節,確保最終報告能夠精準符合要求。確認無誤後,代理便會開始進行網路搜尋,逐步抓取各個網站上的資訊,並整合成一份詳細的報告。

在測試過程中,Deep Research 利用網絡存取能力,顯著提升了在「Humanity's Last Exam」這類測試中的表現。這項基準主要考察 AI 對於一些非常晦澀、零散知識的整合能力。當賦予 Deep Research 網絡搜尋權限後,其得分由早期僅 15% 飆升至約 67% 至 72%,雖然依然低於經過深度準備後人類 92% 的表現,但這個躍升幅度已顯示出令人驚嘆的進步。

網頁瀏覽與資料分析整合

該系統不僅具備強大的網頁瀏覽能力,還能同時進行資料分析。無論是文字、圖片或 PDF 檔案,Deep Research 都能夠像人類研究者一樣,逐頁爬取相關資訊,並利用內建的程式碼解譯器生成數據視覺化圖表。這使得其在處理資料密集型任務時,能夠提供多角度且全面的分析報告。

AGI 發展的重要一步

OpenAI 在發布 Deep Research 時,強調這款系統是向 AGI(通用人工智慧)邁進的重要一步。通過能夠生成新穎科學研究、協助金融、科學、政策及工程等領域的知識工作,Deep Research 不僅提升了工作效率,也為日後更廣泛的應用場景鋪平道路。

問題過度解釋:好或壞?

在測試中,該系統主要考驗空間推理與常識判斷能力。然而,測試中發現 Deep Research 經常不直接給出答案,而是連續提出 4 至 5 個澄清性問題,要求用戶提供更多細節。儘管這種行為可能反映出其追求精確理解的特性,也有人認為這正是接近 AGI(通用人工智慧)的一個標誌,但對於希望快速獲得答案的用戶來說,這種反覆提問的方式顯得有些煩人。

為 Deep Research 在 Humanity's Last Exam,其準確性高達26.6%

如何使用 Deep Research

使用門檻與訂閱方式

目前 Deep Research 僅限於 ChatGPT Pro 版用戶使用,該訂閱方案每月收費 200 美元。Pro 用戶可在 ChatGPT 的訊息編輯器中選擇 Deep Research 功能,並附加相關文件(如有需要),提交查詢後便可收到包含詳盡參考來源和附有側邊摘要的研究報告。報告生成過程通常需 5 至 30 分鐘,並以非同步方式返回結果。

與其他模型的比較

在官方部落格中,OpenAI 提供了一個比較範例,展示了 Deep Research 與 GPT-40 回應的差異。舉例來說,在一個關於 UX 設計的查詢中,GPT-40 的回答相對簡短,而 Deep Research 則給出了一份詳盡報告,包含多個來源與數據圖表,顯示出其在深入研究方面的優勢。

此外,系統內部會顯示所有引用的來源,就像專業研究報告一樣,這對於需要確認資料真實性和進一步深入了解背景資訊的用戶來說,無疑是一大福音。


優勢與限制

優勢

  1. 全面而詳盡的報告生成
    Deep Research 能夠整合數百個網路來源,生成涵蓋廣泛且細緻的報告,這對於金融、科學、政策和工程等領域的專業知識工作者尤為重要。
  2. 資料分析與視覺化能力
    利用內建的程式碼解譯器,系統能夠生成數據圖表,幫助使用者更直觀地理解龐雜數據,提升決策效率。
  3. 多資源整合能力
    系統不僅可以處理文字資料,還能同時分析圖片和 PDF 文件,這讓它在處理多媒體資訊時表現尤為出色。
  4. 實時反饋與回溯功能
    Deep Research 能夠根據實時資訊調整研究方向,保持研究目標不偏離原始查詢,這使得最終報告更加準確與有用。

限制

  1. 需要較高的訂閱費用
    目前該功能僅限於 ChatGPT Pro 用戶,每月 200 美元的費用對於部分用戶來說可能較高,尚未普及至所有用戶群體。
  2. 查詢數量限制
    Pro 用戶每月僅有 100 次查詢額度,未來團隊與企業用戶可能會獲得更高的限額,但目前仍有一定限制。
  3. 偶爾出現事實虛構與格式問題
    與其他大語言模型類似,Deep Research 在某些情況下可能會產生虛構事實,或出現格式上的小錯誤,這些問題隨著時間推進預計會逐步改善。

與 DeepSeek R1 與 Gemini Deep Research 的對比

Deep Research 對 DeepSeek R1

在多個測試案例中,Deep Research 與 DeepSeek R1 的表現互有勝負,但總體而言,Deep Research 在處理複雜問題和整合網絡資源方面顯得更為強大。例如,在對內容進行搜尋時,Deep Research 能夠透過提問澄清需求後,精準找出符合條件的文章段落;而 DeepSeek R1 雖然也具備搜尋功能,但在部分情況下服務不穩定或反應較慢。

其他測試案例

  • 語言測試:針對一種較為晦澀的克里奧爾語(Mishan Creole)的 50 道問題,Deep Research 最終取得了約 88% 的正確率,相比之下,使用 GPT-40(常用於免費版 ChatGPT)給予整本字典資料後僅取得 82% 的成績。這顯示出 Deep Research 能夠投入更多計算資源以消化龐大上下文,從而獲得更高的準確性。
  • 購物建議應用:在一個要求查詢英國市場上高評價牙刷(要求電池壽命超過 2 個月且需查詢歷史價格)的案例中,Deep Research 在經過一系列澄清問題後,最終找到了對應產品,但其提供的連結卻未能完全匹配原始資料來源(例如 CamelCamelCamel 網站),讓人對其信息真實性產生疑慮;而 DeepSeek R1 在同一任務中則出現了更明顯的虛構數據,如錯誤報出電池壽命為 70 天。
  • 文獻與報告生成:Deep Research 還展示了其在生成帶有引用文獻的研究報告方面的潛力。通過對 39 個參考文獻的綜合分析,其生成的報告內容深度與細節豐富,這在處理學術性或商業決策輔助任務時,將能大大提高工作效率。

與 Gemini Deep Research 的比較

在測試過程中,Deep Research 相較於 Gemini Deep Research 表現出更好的效果。根據測試結果顯示,Gemini Deep Research 在某些任務上無法找到正確信息或回應過於簡單,這使得其在應用層面遠不及 Deep Research 那般成熟與穩定。


優點與不足:進步中的技術挑戰

優點

  • 極高的資訊整合能力:通過網絡搜尋和內部知識庫相結合,Deep Research 能夠快速找到並整合分散在各處的信息,極大縮短用戶的查詢時間。
  • 大幅提升的推理水平:在多項基準測試中,該系統展現了從 15% 飆升到 67% 至 72% 的推理進步,顯示出強大的技術升級潛力。
  • 優秀的研究報告生成能力:能夠根據輸入的文章或指令生成包含引用與詳盡分析的報告,對於記者、學生和研究人員來說極具吸引力。

不足

  • 頻繁的澄清提問:系統在某些任務中過於依賴提問澄清,導致用戶需要反覆提供信息,這在時間緊迫或需要直接答案的場景下顯得不夠友好。
  • 偶發的虛構現象(Hallucination):雖然大部分情況下能提供準確資訊,但在某些具體查詢(如購物價格歷史)中,仍會出現信息虛構,影響使用者對結果的信任度。
  • 網絡資源訪問限制:例如在 YouTube 相關查詢中,系統無法直接訪問視頻內容,這限制了其在多媒體信息整合方面的應用。

實際應用場景與未來展望

實際應用場景

  • 金融與政策分析:能夠在短時間內生成涵蓋多個來源的深度分析報告,協助專業人士進行決策。
  • 市場調查與購物建議:對於需要精確查詢和整合產品資訊的用戶,Deep Research 可提供個性化的購物建議,節省大量搜尋與分析時間。
  • 學術研究:研究者可以利用此工具快速整合文獻,生成帶有詳細引用的研究報告,大幅提高工作效率。

未來展望

隨著技術的不斷進步,OpenAI 預計未來將推出更快、更具成本效益的 Deep Research 版本,同時進一步擴展其對專門訂閱資料和內部資源的存取能力。這將使得系統能夠生成更加堅實、個性化的報告。


結語

OpenAI 的 Deep Research 代理系統標誌著大語言模型向多步驟、深度研究應用邁出了重要一步。雖然目前僅限於高價位 Pro 用戶且存在查詢數量與格式上的小限制,但其在整合網絡資訊、資料分析與視覺化方面的優勢,已足以顯著提升知識工作者的效率。對於需要處理龐大、複雜資訊的專業領域而言,Deep Research 提供了一個全新的工具與思維方式,無疑將成為未來數字時代的重要助力。

你認為每月 200 美元的訂閱費是否物有所值?又或是你對這種能夠自動生成深入報告的 AI 系統有何看法?歡迎在下方留言分享你的觀點。如果你覺得這篇文章有幫助,請點讚、分享並訂閱我們的頻道,我們將持續為你帶來更多前沿科技的最新動態與深度解析。

FAQ

1. Deep Research 是什麼?

Deep Research 是 OpenAI 推出的第二個 AI 代理系統,專為執行多步驟的深度網絡研究流程而設計,能在 5 至 30 分鐘內生成完整的研究報告,大幅提升研究效率。

2. 使用 Deep Research 的成本是多少?

Deep Research 僅限於 ChatGPT Pro 用戶,每月訂閱費用為 200 美元(非美國用戶需使用 VPN)。每月提供 100 次查詢額度。

3. Deep Research 的主要功能有哪些?

Deep Research 提供多方位功能,包括:

  • 整合多來源內容生成詳細報告。
  • 分析文字、圖片及 PDF 資料,並生成視覺化圖表。
  • 即時調整研究方向,確保結果精準可靠。

4. Deep Research 的應用場景有哪些?

Deep Research 適用於以下場景:

  • 快速生成金融、科學、政策及工程等領域的深度分析報告。
  • 市場調查與產品建議。
  • 學術研究的文獻整合與報告撰寫。

5. 使用 Deep Research 時有哪些限制?

限制包括:

  1. 僅限高價位 Pro 用戶。
  2. 每月查詢次數限制為 100 次。
  3. 部分情境下可能產生虛構資訊或格式錯誤。

了解更多

Share this post