探索蘋果新寵Ferret-UI:互動設計將走向何方?蘋果提出多模態大型語言模型 Ferret-UI,有望強化 Siri 能力

Ferret-UI: 讓LLM看懂手機螢幕,蘋果多模態用自然語言操控

多模態大型語言模型(Multimodal Large Language Model,MLLM)近期進展值得關注。然而,通用領域的 MLLM 在解讀螢幕資訊和使用者介面(User Interface,UI)方面常常表現不佳。蘋果最新研究描述了如何開發「Ferret-UI」,這是一種專門用於理解手機螢幕畫面的 MLLM,預期可為未來更強大的 Siri 提供動力。

MLLM 拓展了 AI 系統理解非文字資訊的能力,如圖像、影像、音訊等。然而,MLLM 目前在理解應用程式的輸出方面表現欠佳,這主要有以下幾個原因:智慧手機螢幕畫面與大多數影像訓練資料的長寬比不同,而且 MLLM 所需辨識的圖像(如圖示和按鍵)非常小。此外,解釋靜態圖像需要與應用程式互動,並非一蹴而就。

而 Apple 剛推出的 Ferret-UI 是一個創新的多模態大語言模型 (MLLM),它推動了移動用戶界面 (UI) 理解的邊界。通過結合優化的架構、豐富的訓練數據和強大的指代和定位能力,Ferret-UI 展示了在理解和互動 UI 屏幕方面的卓越能力。

原始研究鏈接:https://arxiv.org/abs/2404.05719
Ferret-UI

Ferret-UI 能夠在移動 UI 屏幕上執行指代任務(例如,小部件分類、圖標識別、OCR)和定位任務(例如,查找小部件、查找圖標、查找文本、小部件列表),並支持靈活的輸入格式(點、框、塗鴉)。

一篇題為《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》的論文日前上傳至 arXiv.org,蘋果研究人員提出的 Ferret-UI 是一種全新 MLLM,專為理解手機 UI 螢幕而設計,有望解決上述問題。

鑑於手機 UI 螢幕通常比自然圖像有更細長的長寬比,且包含更小的圖文資訊,蘋果以 Ferret MLLM 為基礎,加入「任何解析度」的功能,放大細節並強化視覺特徵。

蘋果從廣泛的基本 UI 任務中精心收集訓練樣本,例如圖示辨識、尋找文字、小工具清單等。這些樣本經過格式化以遵循指令,並附有區域註釋以便精確參考。為了強化模型的推論能力,蘋果進一步編譯用於高階任務的資料集,包括詳細描述、對話感知或互動、功能推論。

Ferret-UI 的主要特點

1. 架構

Ferret-UI 基於 Ferret MLLM 架構,並新增了一項名為“任意分辨率”的關鍵增強功能。此修改允許模型靈活處理 UI 屏幕中常見的不同縱橫比。該方法將每個屏幕根據其原始縱橫比劃分為子圖像。縱向屏幕水平分割,而橫向屏幕垂直分割。然後分別編碼這些子圖像,使模型能夠捕捉到單一調整大小的圖像中可能會丟失的精細視覺細節。

Ferret-UI-anyres 架構概覽
Ferret-UI-anyres 架構概覽

2. 訓練

數據為了讓 Ferret-UI 擁有全面的 UI 理解能力,研究人員精心策劃了豐富的數據集,用於基本和高級 UI 任務。

基本任務包括:

  • 指代任務:OCR、圖標識別、小部件分類;
  • 定位任務:查找文本、查找圖標、查找小部件、小部件列表。

這些任務有助於建立有關 UI 元素的強大視覺和空間知識基礎。

高級任務包括:

  • 詳細描述;
  • 感知/交互對話;
  • 功能推理。

通過在這些多樣化的任務上進行訓練,Ferret-UI 能夠進行有關 UI 屏幕的細緻討論、提出目標導向的行動建議,並推斷出屏幕的整體目的。

3. 基準

為了嚴格評估 Ferret-UI 的性能,研究人員建立了一個全面的測試基準,涵蓋 11 個 UI 任務,適用於 iPhone 和 Android 屏幕。他們還包括了來自先前 Spotlight 基準的 3 個任務。這個廣泛的測試集使他們能夠將 Ferret-UI 與開源 MLLM 和強大的 GPT-4V 模型進行比較。

結果

蘋果研究人員稱,Ferret-UI 不僅比多數開源 UI MLLM 表現出色,且在所有基本 UI 任務上超越 GPT-4V。媒體 Tenten 指出,Ferret-UI 具有未來潛力。首先,它可能成為評估 UI 有效性的有用工具,開發者可以建立應用程式初期版本,讓 Ferret-UI 確認其理解和使用的難易程度,這可能比人類測試更快、更有效率。

Ferret-UI 可望為盲人總結螢幕畫面顯示的內容,並列出可用選項,然後盲人可以告訴 iPhone 他想要做什麼。

Ferret-UI 還有機會為 Siri 提供一種嶄新的用戶使用形式。使用者可以向 Siri 說出需求,例如:「查看明天從甘迺迪國際機場飛往波士頓的航班,預訂一個航班的座位,上午 10 點前抵達波士頓,票價要低於 200 美元。」然後 Siri 將透過航空公司應用程式完成任務。


Ferret-UI 在各種基準測試中展示了卓越的性能:

  1. Spotlight 基準
  • 在 screen2words、小部件標題和 tap 感知任務上超越了開源 MLLM

2. 基本 UI 任務

  • 在 iPhone 和 Android 的基本任務中均達到 82.4% 的準確率
  • 顯著超越 GPT-4V,後者在 iPhone 任務上獲得 61.3%,在 Android 任務上僅獲得 37.7%

3. 高級 UI 任務

  • 在 iPhone 高級任務上獲得了 93.9% 的高分,在 Android 上獲得 71.7%
  • 在這些具有挑戰性的任務上超越了 Fuyu 和 CogAgent 模型

用戶研究

研究人員進行了用戶實驗,以更深入地了解 Ferret-UI 的性能。主要發現包括:

  1. “任意分辨率”的影響
  • 添加“任意分辨率”提高了 iPhone 基本任務的準確率 2%

2. 基本任務訓練數據的作用

  • 在基本任務上的訓練提高了高級任務的性能 3-9%
  • 這強調了建立基礎 UI 知識的重要性

結論

Ferret-UI 代表了移動 UI 理解方面的一大進步,結合了優化的架構、全面的訓練數據和強大的指代和定位能力。它在各種基準測試中的強大性能展示了其在啟用新應用程序方面的潛力,例如增強用戶的 UI 可訪問性。

通過探索 UI 屏幕的複雜性並展示對個別元素和整體屏幕功能的深刻理解,Ferret-UI 為更直觀和有效的人機互動鋪平了道路。隨著該領域研究的繼續發展,像 Ferret-UI 這樣的模型將在塑造未來的用戶界面設計和用戶體驗方面發揮重要作用。

了解更多關於 Ferret-UI

Share this post