OpenAI Operator: 我們使用軟體的方式將從此改變?

Q: ChatGPT Operator 的功能有哪些？

ChatGPT Operator 包括以下四大功能：1. 自主操作任務，能處理多項操作如預訂、購物等；2. 與品牌合作，提升體驗；3. 提供自定義交互功能，可儲存模板及設置週期執行任務；4. 具備人機協作模式，確保正確執行。

Q: ChatGPT Operator 如何運作？

Operator 通過 Computer-Using Agent (CUA) 模型分析螢幕畫面，模擬鍵盤和滑鼠操作來執行任務。此模型無需 API 支援，能適用於大多數網站並模仿人類行為完成操作。

Q: 使用 ChatGPT Operator 有哪些條件？

目前 ChatGPT Operator 僅向美國區域的 ChatGPT Pro 訂閱用戶開放，需支付每月 $200 訂閱費，並連接美國的 VPN 才能使用。

Q: ChatGPT Operator 的未來發展潛力如何？

ChatGPT Operator 的未來潛力包括：更多平台支援如航空公司或電商網站，無縫整合跨平台登入，多層安全性提升，以及應用於日常生活、家務及商務場景的自動化。

深入解析 OpenAI Operator 的 ChatGPT 代理功能，探討其工作原理、應用場景及未來發展潛力。

經過數週的熱議，OpenAI 發布了 Operator，這是他們首個 AI 代理程式。Operator 是一個網路應用程式，可以在瀏覽器中執行簡單的線上任務，例如預訂演唱會門票或填寫線上雜貨訂單。該應用程式由一個名為 Computer-Using Agent—CUA（簡稱“coo-ah”）的新模型驅動，該模型建立在 OpenAI 的多模態大型語言模型 GPT-4o 之上。

Operator 今天起在 operator.chatgpt.com 向美國地區已訂閱 ChatGPT Pro（OpenAI 每月 200 美元的付費服務）的用戶開放。該公司表示，計劃未來將該工具推廣給更多用戶。

OpenAI 聲稱 Operator 的性能優於類似的競爭對手工具，包括 Anthropic 的 Computer Use（Claude 3.5 Sonnet 的一個版本，可以在電腦上執行簡單任務）和 Google DeepMind 的 Mariner（一個基於 Gemini 2.0 構建的網路瀏覽代理程式）。

世界頂級 AI 公司中的三家在代理程式模型的願景上達成一致，這清楚地表明了一件事。AI 霸權之戰有了一個新的前沿 - 那就是我們的電腦螢幕。

與 Anthropic 的 Computer Use 和 Google DeepMind 的 Mariner 一樣，Operator 會擷取電腦螢幕的螢幕截圖並掃描像素，以找出它可以採取的行動。其背後的模型 CUA 經過訓練，可以與人們在網路上做事時使用的相同圖形使用者介面（按鈕、文字框、選單）進行互動。它掃描螢幕，採取一個動作，再次掃描螢幕，再採取另一個動作，依此類推。這使得該模型可以在大多數人們可以使用的網站上執行任務。

OpenAI 的科學家 Reiichiro Nakano 說：“傳統上，模型使用軟體的方式是通過專用的 API。” （API，或應用程式介面，是一段程式碼，充當一種連接器，允許將不同的軟體位元相互連接。）他說，這使得許多應用程式和大多數網站都受到限制：“但是，如果您創建一個可以使用人類每天使用的相同介面的模型，那麼它將開創一個全新的軟體應用。”

AI 代理 Operator：OpenAI 如何重塑人機交互介面

ChatGPT Operator。這個功能被認為是 ChatGPT 的未來方向，並讓我們得以一窺 AI 代理人如何簡化日常任務。本文將帶您了解這項新功能的核心特點、實際表現，以及對未來的影響。

Operator 是 OpenAI 最新推出的 AI 代理人系統，其核心能力在於能夠自主操作遠端瀏覽器來完成指定任務。例如，您可以要求它預訂餐廳、購買商品或安排家務清潔。Operator 的操作方式模仿人類，能進行鍵盤和滑鼠操作，讓執行過程更加自然。

什麼是 ChatGPT Operator？

ChatGPT Operator 是 OpenAI 推出的全新代理人功能，允許 ChatGPT 遠程控制您的鍵盤和滑鼠來執行任務。這項功能目前僅對美國用戶開放，並需要訂閱每月 $200 的 Pro 計劃。不過，OpenAI 已承諾在未來幾個月內擴展到團隊訂閱，最終有望面向更廣泛的用戶群體。

Operator 的主要功能

自主操作任務
透過遠端瀏覽器，Operator 可以完成如餐廳預訂、購物清單處理等任務，甚至同時執行多個操作。
與品牌合作
Operator 已與多個平台（如 OpenTable、Instacart、eBay 等）合作，優化這些網站的操作體驗。
自定義交互
用戶可提供個人化指令，如偏好餐廳、購物需求，甚至可儲存常用任務範本。
人機協作模式
在操作過程中，若遇到需要確認的情況，Operator 會回報用戶並請求指示，確保操作的準確性。

技術核心：CUA 模型

Operator 基於 OpenAI 的全新 Computer-Using Agent (CUA) 模型，這是一個特別訓練用於模擬人類操作的 AI 系統。CUA 能夠透過螢幕截圖分析網頁，並模擬鍵盤與滑鼠操作來完成任務。這使得 Operator 無需依賴 API，即可實現跨平台的靈活操作。

CUA 還將任務分解為更小的步驟，並嘗試逐步完成它們，在遇到困難時會回溯。OpenAI 表示，CUA 的訓練技術與用於所謂的推理模型 - o1 和 o3 的技術類似。

如何使用 Operator？

設定條件：需要訂閱 Pro 計劃並連接至美國的 VPN。
使用方式：用戶只需輸入簡單指令，例如預訂酒店或餐廳，Operator 即可自動操作相關網站，完成整個過程。
自定義功能：用戶可以儲存常用任務的模板，並設置每週執行的時間表。

實測：功能表現如何？

第一測試：預訂 Airbnb 住宿

指令：在 Okinawa 預訂一晚的海景房，價格低於 $6000 NTD。
結果：Operator 成功篩選出符合條件的房源，並完成預訂流程。

第二測試：預訂餐廳座位

指令：透過 Google Map 到 Inline 服務預訂兩人的晚餐。
結果：儘管需要手動輸入 Google 登錄信息，Operator 依然成功完成預訂。

在測試中，Operator 同時執行多項任務，包括預訂體育賽事門票與安排清潔服務，大幅提升效率。

與競品比較：為何 Operator 更勝一籌？

在現有的 AI 代理人市場中，許多產品難以穩定執行任務。然而，Operator 不僅在執行效率上遠超競爭對手，還具有以下優勢：

多任務處理能力：可同時執行多個操作。
高度準確性：在多數測試中表現穩定，可靠性遠超其他產品。
靈活性：支援自定義任務模板，方便用戶重複執行常規操作。

挑戰與未來改進方向

認證與支付
由於 Operator 使用遠端瀏覽器，目前用戶需手動輸入登入憑據及支付信息。未來的改進方向可能包括更安全、便捷的登入與支付解決方案。
操作準確性
雖然 Operator 已展現出色的操作能力，但在某些高精度場景中仍需進一步優化。
安全性與隱私保護
Operator 採用多層安全措施來防止誤用，例如限制高風險操作並加入提示確認流程。

未來展望：ChatGPT Operator 的潛力

這只是 Operator 的早期階段，但未來發展潛力無限：

更多預設應用程式支援：例如航空公司、電商網站等。
無縫整合：可能支持用戶儲存多平台登錄信息。
開放生態系統：其他 AI 公司或開源社群可能推出更具性價比的類似產品。
商務應用：協助處理預訂、客戶服務、數據收集等任務。
日常生活：自動化家務安排、行程規劃及網購任務。
未來展望：隨著技術成熟，Operator 有望進一步整合至桌面和手機應用中，成為無縫化的日常助理。

基準測試

OpenAI 已經針對多項行業基準測試了 CUA，這些基準旨在評估代理程式在電腦上執行任務的能力。該公司聲稱，其模型在所有這些基準測試中都擊敗了 Computer Use 和 Mariner。

例如，在 OSWorld 上，該基準測試代理程式執行諸如合併 PDF 檔案或操作圖像等任務的表現，CUA 的得分為 38.1%，而 Computer Use 的得分為 22.0%。相比之下，人類的得分為 72.4%。在一個名為 WebVoyager 的基準測試中，該基準測試代理程式在瀏覽器中執行任務的表現，CUA 的得分為 87%，Mariner 為 83.5%，Computer Use 為 56%。（Mariner 只能在瀏覽器中執行任務，因此在 OSWorld 上沒有得分。）

目前，Operator 也只能在瀏覽器中執行任務。OpenAI 計劃在未來通過 API 提供 CUA 更廣泛的功能，其他開發人員可以使用該 API 來構建自己的應用程式。Anthropic 在 12 月發布 Computer Use 時就是這樣做的。

OSWorld⁠是一個評估模型控制完整操作系統（如 Ubuntu、Windows 和 macOS）能力的基準測試。在這個基準測試中，CUA 達到了 38.1%的成功率。我們觀察到測試時間的擴展，這意味著當允許更多步驟時，CUA 的表現會有所提升。下圖比較了 CUA 在不同最大允許步驟下的表現與之前最先進的技術。人類在這個基準測試中的表現為 72.4%，因此仍有顯著的改進空間。

OpenAI 表示，它已經測試了 CUA 的安全性，來探索當用戶要求它執行不可接受的任務（例如研究如何製造生物武器）、當網站包含旨在使其脫軌的隱藏指令以及當模型本身崩潰時會發生什麼。“我們已經訓練模型在執行任何具有外部副作用的操作之前停止並要求用戶提供資訊，”該團隊的另一位研究員 Casey Chu 說。

Operator CUA 電腦使用代理 | OpenAI — Computer-Using Agent | OpenAI

結語：值得期待的變革

ChatGPT Operator 是一項具突破性的功能，讓 AI 不僅能提供資訊，還能實際執行任務。儘管目前 $200 的價格對大眾來說仍顯昂貴，但其強大的功能已展現出未來 AI 代理人的巨大潛力。這是 AI 讓日常生活更輕鬆的開端，值得期待！

如果您對 Operator 有任何問題或想測試特定任務，歡迎留言。我們將深入探討更多可能性，讓這項技術真正服務每一位用戶。

如果您對 Operator 感興趣，請持續關注 Tenten Thread 我們將會為你帶來更多關於 OpenAI Operator Agent 的最新動態！

常見問題（FAQ）

1. ChatGPT Operator 是什麼？

ChatGPT Operator 是 OpenAI 推出的全新 AI 代理人功能，能模擬人類在遠端瀏覽器上的操作，如預訂餐廳、購物等。該功能利用特別訓練的 CUA 模型，自行完成任務，而無需依賴 API。

2. ChatGPT Operator 的功能有哪些？

自主操作任務：自動完成如餐廳預訂、購物代辦等多項操作。
品牌合作：與 OpenTable、Instacart、eBay 等平台合作，提升操作體驗。
自定義交互：用戶可儲存模板並設置週期性任務。
人機協作模式：遇到需要確認的情況時，會即時向用戶請示。

3. ChatGPT Operator 如何運作？

Operator 透過其核心技術 Computer-Using Agent (CUA) 模型，能分析螢幕畫面，操作鍵盤和滑鼠來執行任務。此模型無需 API 支援，可適用於絕大多數的網站。

4. 使用 ChatGPT Operator 有哪些條件？

目前，ChatGPT Operator 僅在美國區域開放，使用者需訂閱每月 $200 的 ChatGPT Pro 計劃，並需連接美國的 VPN。

5. ChatGPT Operator 的未來發展潛力如何？

Operator 發展前景廣闊，包括更多平台支援、無縫整合多平台登入、多層安全性改進，以及將其應用於商務和日常家務自動化等場景。

OpenAI Operator: 我們使用軟體的方式將從此改變?

AI 代理 Operator：OpenAI 如何重塑人機交互介面

什麼是 ChatGPT Operator？

Operator 的主要功能

技術核心：CUA 模型

如何使用 Operator？

實測：功能表現如何？

與競品比較：為何 Operator 更勝一籌？

挑戰與未來改進方向

未來展望：ChatGPT Operator 的潛力

基準測試

結語：值得期待的變革

常見問題（FAQ）

Trae：100% 免費且開源的 AI IDE

降低NVIDIA依賴！全球科技巨頭AI晶片發展現況分析

Windsurf Wave 3 評測：效能大躍進，體驗再升級!

NVIDIA 減持 ARM、出售 AI 相關公司股份：背後的戰略意義

Perplexity 推出 Deep Research：深度研究工具

Quora 用戶互動率大降：ChatGPT 時代的問答平台困境