深入解析 OpenAI Operator 的 ChatGPT 代理功能,探討其工作原理、應用場景及未來發展潛力。
經過數週的熱議,OpenAI 發布了 Operator,這是他們首個 AI 代理程式。Operator 是一個網路應用程式,可以在瀏覽器中執行簡單的線上任務,例如預訂演唱會門票或填寫線上雜貨訂單。該應用程式由一個名為 Computer-Using Agent—CUA(簡稱“coo-ah”)的新模型驅動,該模型建立在 OpenAI 的多模態大型語言模型 GPT-4o 之上。
Operator 今天起在 operator.chatgpt.com 向美國地區已訂閱 ChatGPT Pro(OpenAI 每月 200 美元的付費服務)的用戶開放。該公司表示,計劃未來將該工具推廣給更多用戶。
OpenAI 聲稱 Operator 的性能優於類似的競爭對手工具,包括 Anthropic 的 Computer Use(Claude 3.5 Sonnet 的一個版本,可以在電腦上執行簡單任務)和 Google DeepMind 的 Mariner(一個基於 Gemini 2.0 構建的網路瀏覽代理程式)。
世界頂級 AI 公司中的三家在代理程式模型的願景上達成一致,這清楚地表明了一件事。AI 霸權之戰有了一個新的前沿 - 那就是我們的電腦螢幕。
與 Anthropic 的 Computer Use 和 Google DeepMind 的 Mariner 一樣,Operator 會擷取電腦螢幕的螢幕截圖並掃描像素,以找出它可以採取的行動。其背後的模型 CUA 經過訓練,可以與人們在網路上做事時使用的相同圖形使用者介面(按鈕、文字框、選單)進行互動。它掃描螢幕,採取一個動作,再次掃描螢幕,再採取另一個動作,依此類推。這使得該模型可以在大多數人們可以使用的網站上執行任務。
OpenAI 的科學家 Reiichiro Nakano 說:“傳統上,模型使用軟體的方式是通過專用的 API。” (API,或應用程式介面,是一段程式碼,充當一種連接器,允許將不同的軟體位元相互連接。)他說,這使得許多應用程式和大多數網站都受到限制:“但是,如果您創建一個可以使用人類每天使用的相同介面的模型,那麼它將開創一個全新的軟體應用。”
AI 代理 Operator:OpenAI 如何重塑人機交互介面
ChatGPT Operator。這個功能被認為是 ChatGPT 的未來方向,並讓我們得以一窺 AI 代理人如何簡化日常任務。本文將帶您了解這項新功能的核心特點、實際表現,以及對未來的影響。
Operator 是 OpenAI 最新推出的 AI 代理人系統,其核心能力在於能夠自主操作遠端瀏覽器來完成指定任務。例如,您可以要求它預訂餐廳、購買商品或安排家務清潔。Operator 的操作方式模仿人類,能進行鍵盤和滑鼠操作,讓執行過程更加自然。
什麼是 ChatGPT Operator?
ChatGPT Operator 是 OpenAI 推出的全新代理人功能,允許 ChatGPT 遠程控制您的鍵盤和滑鼠來執行任務。這項功能目前僅對美國用戶開放,並需要訂閱每月 $200 的 Pro 計劃。不過,OpenAI 已承諾在未來幾個月內擴展到團隊訂閱,最終有望面向更廣泛的用戶群體。
Operator 的主要功能
- 自主操作任務
透過遠端瀏覽器,Operator 可以完成如餐廳預訂、購物清單處理等任務,甚至同時執行多個操作。 - 與品牌合作
Operator 已與多個平台(如 OpenTable、Instacart、eBay 等)合作,優化這些網站的操作體驗。 - 自定義交互
用戶可提供個人化指令,如偏好餐廳、購物需求,甚至可儲存常用任務範本。 - 人機協作模式
在操作過程中,若遇到需要確認的情況,Operator 會回報用戶並請求指示,確保操作的準確性。
技術核心:CUA 模型
Operator 基於 OpenAI 的全新 Computer-Using Agent (CUA) 模型,這是一個特別訓練用於模擬人類操作的 AI 系統。CUA 能夠透過螢幕截圖分析網頁,並模擬鍵盤與滑鼠操作來完成任務。這使得 Operator 無需依賴 API,即可實現跨平台的靈活操作。
CUA 還將任務分解為更小的步驟,並嘗試逐步完成它們,在遇到困難時會回溯。OpenAI 表示,CUA 的訓練技術與用於所謂的推理模型 - o1 和 o3 的技術類似。
如何使用 Operator?
- 設定條件:需要訂閱 Pro 計劃並連接至美國的 VPN。
- 使用方式:用戶只需輸入簡單指令,例如預訂酒店或餐廳,Operator 即可自動操作相關網站,完成整個過程。
- 自定義功能:用戶可以儲存常用任務的模板,並設置每週執行的時間表。
實測:功能表現如何?
第一測試:預訂 Airbnb 住宿
- 指令:在 Okinawa 預訂一晚的海景房,價格低於 $6000 NTD。
- 結果:Operator 成功篩選出符合條件的房源,並完成預訂流程。
第二測試:預訂餐廳座位
- 指令:透過 Google Map 到 Inline 服務預訂兩人的晚餐。
- 結果:儘管需要手動輸入 Google 登錄信息,Operator 依然成功完成預訂。
在測試中,Operator 同時執行多項任務,包括預訂體育賽事門票與安排清潔服務,大幅提升效率。
與競品比較:為何 Operator 更勝一籌?
在現有的 AI 代理人市場中,許多產品難以穩定執行任務。然而,Operator 不僅在執行效率上遠超競爭對手,還具有以下優勢:
- 多任務處理能力:可同時執行多個操作。
- 高度準確性:在多數測試中表現穩定,可靠性遠超其他產品。
- 靈活性:支援自定義任務模板,方便用戶重複執行常規操作。
挑戰與未來改進方向
- 認證與支付
由於 Operator 使用遠端瀏覽器,目前用戶需手動輸入登入憑據及支付信息。未來的改進方向可能包括更安全、便捷的登入與支付解決方案。 - 操作準確性
雖然 Operator 已展現出色的操作能力,但在某些高精度場景中仍需進一步優化。 - 安全性與隱私保護
Operator 採用多層安全措施來防止誤用,例如限制高風險操作並加入提示確認流程。
未來展望:ChatGPT Operator 的潛力
這只是 Operator 的早期階段,但未來發展潛力無限:
- 更多預設應用程式支援:例如航空公司、電商網站等。
- 無縫整合:可能支持用戶儲存多平台登錄信息。
- 開放生態系統:其他 AI 公司或開源社群可能推出更具性價比的類似產品。
- 商務應用:協助處理預訂、客戶服務、數據收集等任務。
- 日常生活:自動化家務安排、行程規劃及網購任務。
- 未來展望:隨著技術成熟,Operator 有望進一步整合至桌面和手機應用中,成為無縫化的日常助理。
基準測試
OpenAI 已經針對多項行業基準測試了 CUA,這些基準旨在評估代理程式在電腦上執行任務的能力。該公司聲稱,其模型在所有這些基準測試中都擊敗了 Computer Use 和 Mariner。
例如,在 OSWorld 上,該基準測試代理程式執行諸如合併 PDF 檔案或操作圖像等任務的表現,CUA 的得分為 38.1%,而 Computer Use 的得分為 22.0%。相比之下,人類的得分為 72.4%。在一個名為 WebVoyager 的基準測試中,該基準測試代理程式在瀏覽器中執行任務的表現,CUA 的得分為 87%,Mariner 為 83.5%,Computer Use 為 56%。 (Mariner 只能在瀏覽器中執行任務,因此在 OSWorld 上沒有得分。)
目前,Operator 也只能在瀏覽器中執行任務。OpenAI 計劃在未來通過 API 提供 CUA 更廣泛的功能,其他開發人員可以使用該 API 來構建自己的應用程式。Anthropic 在 12 月發布 Computer Use 時就是這樣做的。
OSWorld是一個評估模型控制完整操作系統(如 Ubuntu、Windows 和 macOS)能力的基準測試。在這個基準測試中,CUA 達到了 38.1%的成功率。我們觀察到測試時間的擴展,這意味著當允許更多步驟時,CUA 的表現會有所提升。下圖比較了 CUA 在不同最大允許步驟下的表現與之前最先進的技術。人類在這個基準測試中的表現為 72.4%,因此仍有顯著的改進空間。
OpenAI 表示,它已經測試了 CUA 的安全性,來探索當用戶要求它執行不可接受的任務(例如研究如何製造生物武器)、當網站包含旨在使其脫軌的隱藏指令以及當模型本身崩潰時會發生什麼。“我們已經訓練模型在執行任何具有外部副作用的操作之前停止並要求用戶提供資訊,”該團隊的另一位研究員 Casey Chu 說。
結語:值得期待的變革
ChatGPT Operator 是一項具突破性的功能,讓 AI 不僅能提供資訊,還能實際執行任務。儘管目前 $200 的價格對大眾來說仍顯昂貴,但其強大的功能已展現出未來 AI 代理人的巨大潛力。這是 AI 讓日常生活更輕鬆的開端,值得期待!
如果您對 Operator 有任何問題或想測試特定任務,歡迎留言。我們將深入探討更多可能性,讓這項技術真正服務每一位用戶。
如果您對 Operator 感興趣,請持續關注 Tenten Thread 我們將會為你帶來更多關於 OpenAI Operator Agent 的最新動態!