致力於學術傳播和科學普及,重點關注AI等前沿科學。關注 Tenten AI (Instagram)
昨天深夜,OpenAI 最強競爭對手 Anthropic 宣布:現在,Claude 可以使用電腦了。
Claude 的 Computer Use 功能,讓 AI 能夠執行各種任務。這項技術將如何改變我們的工作方式,提高效率?
據介紹,最新版本的 Claude 3.5 Sonnet 在通過適當的軟體設置運行后,可以按照用戶的指令在電腦螢幕上移動游標,點擊相關位置,並通過虛擬鍵盤輸入資訊,模擬人們與電腦進行交互的方式。
Anthropic 認為,這項技能--"Computer Use" - 目前處於公開測試階段--代表了人工智慧(AI)領域的重大突破。
在 Claude 的 Blog 中,他們分享了在開發電腦使用(computer use)模型過程中的一些研究心得,以及如何讓這些模型更加安全。
Claude 為什麼要開發 computer use?
為什麼這項新功能很重要?大量的現代工作都是通過電腦完成的。讓人工智慧能夠像人類一樣直接與電腦軟體進行交互,將開啟大量應用,而這些應用對於目前的人工智慧助手來說根本無法實現。
在過去幾年裡,強大的人工智慧發展已經取得了許多重要的里程碑式成果--例如,能夠進行複雜的邏輯推理,能夠看到和理解圖像。下一個前沿領域是電腦應用:人工智慧模型無需通過定製工具進行交互,而是可以根據指令使用任何軟體。
研究過程
Anthropic 表示,他們以前在工具使用和多模態方面的工作為這些新的電腦使用技能奠定了基礎。操作電腦需要具備查看和解釋圖像的能力,這裡指的是電腦螢幕上的圖像。它還要求推理如何以及何時根據螢幕上的內容執行特定操作。結合這些能力,他們訓練 Claude 解讀螢幕上的內容,然後使用可用的軟體工具執行任務。
當開發人員讓 Claude 使用一款電腦軟體並賦予其必要的訪問許可權時,Claude 會查看用戶可見內容的螢幕 截圖,然後計算游標需要縱向或橫向移動多少像素才能點擊正確的位置。訓練 Claude 準確計算像素至關重要。如果沒有這項技能,模型就很難下達 滑鼠指令--這就好比模型在回答「『香蕉』這個詞中有多少個 A?」這樣看似簡單的問題時經常會感到吃力一樣。
令人感到驚訝的是,Claude 在接受了計算器和文本編輯器等幾款簡單軟體的 computer-use 訓練后(出於安全考慮,模型在訓練期間無法訪問互聯網),竟然能夠迅速地掌握這些技能。結合 Claude 的其他技能,這種訓練使它具備了非凡的能力,能夠將用戶的書面提示轉化為一連串的邏輯步驟,然後在電腦上進行操作。他們觀察到,該模型甚至會在遇到障礙時進行自我糾正並重試任務。
雖然他們在取得初步突破后很快就取得了後續進展,但這需要大量的嘗試和錯誤才能實現。Anthropic 的一些研究人員指出,開發 computer use 模型的過程與他們初入人工智慧領域時想象的「理想化」人工智慧研究過程非常接近:不斷疊代,反覆回到繪圖板(drawing board),直到取得進展。
目前,Claude 是像人一樣使用電腦的 SOTA 模型,即通過觀察螢幕並採取相應行動。在 OSWorld 為測試開發者讓模型使用電腦的嘗試而創建的一項評估中,Claude 目前的得分率為 14.9%。儘管遠未達到人類水平(一般為 70%-75%),但卻遠遠高於同類產品中排名第二的人工智慧模型的 7.7%。
安全使用電腦
人工智慧的每一次進步都會帶來新的安全挑戰。computer use 主要是降低人工智慧系統應用其現有認知技能的門檻,而不是從根本上提高這些技能,因此 Anthropic 對 computer use 的主要關注點是當前的危害而非未來的危害。他們發現,更新后的 Claude 3.5 Sonnet(包括其新的 computer use 技能)仍處於人工智慧安全等級 2 級,也就是說,它並不需要比 Anthropic 現有的安全和安保措施更高的標準。
當未來的模型因存在災難性風險而需要人工智慧安全等級 3 級或 4 級保障措施時,computer use 可能會加劇這些風險。Anthropic 判斷,在模型還只需要人工智慧安全等級 2 的保障措施時,現在就引入 computer use 可能會更好。這意味著,他們可以在風險過高之前開始處理任何安全問題,而不是在風險更為嚴重的模型中首次添加 computer use 功能。
因此,Anthropic 的信任與安全團隊對新的 computer use 模型進行了廣泛的分析,以找出潛在的漏洞。他們發現的一個問題是「提示注入」--這是一種網路攻擊,即向人工智慧模型輸入惡意指令,使其推翻先前的指令或執行偏離用戶初衷的意外操作。由於 Claude 可以解讀來自聯網電腦的螢幕 截圖,因此有可能接觸到包括提示注入攻擊在內的內容。
使用公開測試版 Claude computer-use 版本的用戶應採取相關預防措施,將此類風險降至最低。作為開發人員的資源,Anthropic 在參考實現中提供了進一步的指導。
與任何人工智慧功能一樣,用戶也有可能故意濫用 Claude 的電腦技能。Anthropic 開發了分類器和其他方法來標記和減少這類濫用。
Anthropic 表示,根據他們對數據隱私採取的標準方法,默認情況下,他們不會對用戶提交的數據(包括 Claude 收到的任何 截圖)訓練他們的人工智慧生成模型。
Computer-use 的未來
Computer use 是一種完全不同的人工智慧開發方法。到目前為止,LLM 開發人員一直在讓工具與模型相匹配,創造定製環境,讓人工智慧使用專門設計的工具來完成各種任務。現在,Anthropic 可以讓模型適應工具-- Claude 可以適應人類日常使用的電腦環境。他們的目標是讓克勞德能夠像人一樣使用已有的電腦軟體。
當然,還有很多事情要做。Claude 使用電腦的速度仍然很慢,而且經常出錯。人們在電腦上經常做的許多操作(拖動、縮放等),Claude 還無法嘗試。Claude 的螢幕視圖具有「翻書」的性質– 截圖並將它們拼湊在一起,而不是觀察更細粒度的影片流--這意味著它可能會錯過短暫的操作或通知。
Anthropic 表示,即使在為今天的發布錄製 Computer use Demo時,他們也遇到了一些有趣的錯誤。例如,Claude 不小心點擊了停止長時間螢幕錄製,導致所有鏡頭丟失,以及 Claude 突然中斷了編碼Demo,開始瀏覽黃石國家公園的照片。
雖然 Anthropic 預計 Computer Use 的能力將在未來幾個月內迅速提高,但 Claude 目前使用電腦的能力並不完善。人們毫不費力地執行的一些操作(滾動、拖曳、縮放)目前為 Claude 帶來了挑戰,他們鼓勵開發人員開始探索低風險任務。由於電腦的使用可能會為垃圾郵件、錯誤訊息或詐欺等更常見的威脅提供新的載體,因此我們正在採取積極主動的方法來促進其安全部署。我們開發了新的分類器,可以識別何時使用計算機以及是否正在發生危害。這項技術仍處於早期階段,從其初始部署中學習將有助於我們更好地了解功能日益強大的人工智慧系統的潛力和影響。
同時 Claude 也發佈了新的 Claude 3.5 Sonnet 和 Claude 3.5 Haiku
升級版 Claude 3.5 Sonnet和新型號Claude 3.5 Haiku 。升級後的 Claude 3.5 Sonnet 比其前身進行了全面改進,尤其是在編碼方面取得了顯著的進步,而在該領域它已經處於領先地位。在與上一代 Haiku 相同的成本和相似的速度的許多評估中,Claude 3.5 Haiku 的性能與我們之前最大的模型 Claude 3 Opus 的性能相匹配。
升級後的 Claude 3.5 Sonnet 現已可供所有使用者使用。從今天開始,開發人員可以使用電腦使用測試版在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上進行建置。新的 Claude 3.5 Haiku 將於本月稍後發布。
Claude 3.5 Sonnet:業界領先的軟體工程技能
更新後的Claude 3.5 Sonnet在行業基準上顯示出廣泛的改進,尤其是在代理編碼和工具使用任務方面取得了顯著的進展。在編碼方面,它在SWE-bench Verified上的性能從 33.4% 提高到 49.0%,得分高於所有公開可用的模型,包括 OpenAI o1-preview 等推理模型和專為代理編碼設計的專用系統。它還將TAU-bench (一項代理工具使用任務)的性能提高,在零售領域從 62.6% 提高到 69.2%,在更具挑戰性的航空領域從 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet 以與其前身相同的價格和速度提供了這些進步。
早期客戶回饋表明,升級後的 Claude 3.5 Sonnet 代表了人工智慧編碼的重大飛躍。 GitLab 測試了 DevSecOps 任務的模型,發現它提供了更強大的推理(跨用例高達 10%),且沒有增加延遲,使其成為支援多步驟軟體開發流程的理想選擇。 Cognition 使用新的 Claude 3.5 Sonnet 進行自主人工智慧評估,與先前的版本相比,在編碼、規劃和問題解決方面經歷了實質改進。 The Browser Company 在使用該模型來自動化基於 Web 的工作流程時指出,Claude 3.5 Sonnet 的表現優於他們之前測試過的每個模型。
作為我們與外部專家持續合作的一部分,美國人工智慧安全研究所 (US AISI) 和英國安全研究所 (UK AISI) 對新的 Claude 3.5 Sonnet 模型進行了聯合部署前測試。
我們還評估了升級後的 Claude 3.5 Sonnet 的災難性風險,發現我們的負責任的擴展政策中概述的 ASL-2 標準仍然適合該模型。
Claude 3.5 Haiku:最先進的技術與經濟性和速度的結合
Claude 3.5 Haiku是我們最快的下一代型號。在與 Claude 3 Haiku 相同的成本和相似的速度下,Claude 3.5 Haiku 在各項技能上都有所提高,甚至在許多智能基準上超過了我們上一代最大的模型 Claude 3 Opus。 Claude 3.5 Haiku 在編碼任務上尤其強大。例如,它在 SWE-bench Verified 上得分為 40.6%,優於許多使用公開可用的最先進模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理。
Claude 3.5 Haiku 具有低延遲、改進的指令遵循和更準確的工具使用,非常適合面向用戶的產品、專門的子代理任務以及從大量數據(例如購買歷史記錄、定價或庫存)生成個性化體驗記錄。
Claude 3.5 Haiku 將於本月稍後透過我們的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 - 最初作為純文字模型,隨後提供圖像輸入。