APPLE 論文展示 FERRET-UI AI 能理解 APP 畫面內容

Apple 早前發表了一篇有關開發「Ferret-UI」AI 人工智能的論文,據悉 Ferret-UI 是一個生成式人工智能系統,能夠理解智能電話應用程式螢幕顯示的內容。

 

 

大家耳熟能詳的 AI ChatGPT 屬於大型語言模型 (Large Language Models,LLMs),主要訓練素材取材自文字內容,而更先進的多模態大語言模型(Multimodal Large Language Models,MLLMs)旨在擴展 AI 理解圖片、影片、音訊等非文字資訊的能力,但是現時大部份 MLLM 還無法有效理解智能電話上面的應用程式,主要因為以下原因:

  1. 手機螢幕長闊比例與平時訓練素材不同;
  2. 手機應用程式的按鈕尺寸較小,對目前的 MLLMs 而言難以識別;
  3. 目前的 MLLM 暫時未有與應用程式按鈕互動的理解能力。

Apple 因此構思開發名為 Ferret-UI 的全新 MLLM,以解決上述問題。Apple 指,Ferret-UI 加入了「任意解像度」,讓這個 MLLM 得以放大畫面細節,增強視覺能力。Apple 又表示從廣泛的基本 UI 任務裏收集了不少訓練樣本,例如圖標識別、尋找文字、小清單等,以提高精確度。

 

資料來源:9to5Macarxiv.orgithome

相關文章:

  • 【教學】iOS 17.3 必學功能 防盜竊 iPhone 保護 + 簡單查所有 Apple 產品保養
  •  
  • 微軟擬下月發布新 ARM 架構手提電腦 Microsoft:有信心勝 Apple M3
  •  
  • 傳 Apple 獲得 130 億張圖片授權 與 Photobucket 合作訓練 AI 模型
  •  

    The post Apple 論文展示 Ferret-UI AI 能理解 App 畫面內容 appeared first on 香港 unwire.hk 玩生活.樂科技.

    2024-04-11T09:32:02Z dg43tfdfdgfd