Apple 早前發表了一篇有關開發「Ferret-UI」AI 人工智能的論文,據悉 Ferret-UI 是一個生成式人工智能系統,能夠理解智能電話應用程式螢幕顯示的內容。
大家耳熟能詳的 AI ChatGPT 屬於大型語言模型 (Large Language Models,LLMs),主要訓練素材取材自文字內容,而更先進的多模態大語言模型(Multimodal Large Language Models,MLLMs)旨在擴展 AI 理解圖片、影片、音訊等非文字資訊的能力,但是現時大部份 MLLM 還無法有效理解智能電話上面的應用程式,主要因為以下原因:
Apple 因此構思開發名為 Ferret-UI 的全新 MLLM,以解決上述問題。Apple 指,Ferret-UI 加入了「任意解像度」,讓這個 MLLM 得以放大畫面細節,增強視覺能力。Apple 又表示從廣泛的基本 UI 任務裏收集了不少訓練樣本,例如圖標識別、尋找文字、小清單等,以提高精確度。
相關文章:
【教學】iOS 17.3 必學功能 防盜竊 iPhone 保護 + 簡單查所有 Apple 產品保養 微軟擬下月發布新 ARM 架構手提電腦 Microsoft:有信心勝 Apple M3 傳 Apple 獲得 130 億張圖片授權 與 Photobucket 合作訓練 AI 模型
The post Apple 論文展示 Ferret-UI AI 能理解 App 畫面內容 appeared first on 香港 unwire.hk 玩生活.樂科技.
2024-04-11T09:32:02Z dg43tfdfdgfd