0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

蘋果發(fā)布研究論文:揭示Ferret-UI AI系統(tǒng),破解MLLMs移動應(yīng)用理解難題

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-04-10 10:17 ? 次閱讀

據(jù)悉,Apple近期發(fā)表了有關(guān)于Ferret-UI AI系統(tǒng)的研究論文,這款新型AI系統(tǒng)可理解應(yīng)用程序屏幕上的內(nèi)容。

目前圍繞人工智能(AI)技術(shù),出現(xiàn)了如ChatGPT這樣的大語言模型(LLMs),這些模型擅長處理文本資料。然而,對于像圖片、視頻和聲音等多媒體類型的非文本n內(nèi)容,就需要擴大AI模型的適用范圍,相應(yīng)地,多模態(tài)大語言模型(MLLMs)也就應(yīng)運而生。

盡管MLLMs已表現(xiàn)出對移動應(yīng)用程序的理解不足,具體表現(xiàn)在以下幾點:

首先,智能手機屏幕的寬高比和大多數(shù)訓(xùn)練視覺模型所使用的比例不同;其次,MLLMs需要識別出較小的圖標(biāo)和按鈕。

針對以上問題,Apple提出了名為“Ferret-UI”的MLLM系統(tǒng),以應(yīng)對這些挑戰(zhàn)。系統(tǒng)通過引入WMDR(任意分辨率),提升模型在處理用戶界面任務(wù)時的辨識度,使其能更好地識別和理解小圖標(biāo)、文字等元素。

此外,我們專門采集了大量與初級用戶界面任務(wù)相關(guān)的樣本,包括圖標(biāo)識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進行設(shè)計,以便于精確解釋和實用化。

為了提高模型的認知水平,我們進一步定制了高級任務(wù)數(shù)據(jù)集,含括詳細描寫、感官/互交互對話及功能推理等方面。

該項研究表明,與現(xiàn)行的GPT-4V以及其他MLLMs模型相比,F(xiàn)erret-UI AI模型具有顯著優(yōu)勢。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46701

    瀏覽量

    237218
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    502

    瀏覽量

    10239
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1547

    瀏覽量

    7398
收藏 人收藏

    評論

    相關(guān)推薦

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    了傳統(tǒng)學(xué)科界限,使得科學(xué)家們能夠從更加全面和深入的角度理解生命的奧秘。同時,AI技術(shù)的引入也催生了一種全新的科學(xué)研究范式,即數(shù)據(jù)驅(qū)動的研究范式,這種范式強調(diào)從大量數(shù)據(jù)中提取有價值的信息
    發(fā)表于 10-14 09:21

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    ,推動科學(xué)研究的深入發(fā)展。 總結(jié) 通過閱讀《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章,我對AI for Science的技術(shù)支撐有了更加全面和深入的理解。我深刻認識到
    發(fā)表于 10-14 09:16

    蘋果調(diào)整策略:逐步摒棄年更產(chǎn)品發(fā)布模式

    10月8日訊,彭博社知名記者馬克·古爾曼在《Power On》通訊中揭示蘋果公司正逐步轉(zhuǎn)變其傳統(tǒng)的“年度更新”發(fā)布模式,邁向更為靈活的產(chǎn)品發(fā)布策略。
    的頭像 發(fā)表于 10-08 16:46 ?728次閱讀

    破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1

    破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1 9月10日,全球服務(wù)機器人領(lǐng)導(dǎo)者普渡機器人發(fā)布了全新AI智能掃地機器人,
    的頭像 發(fā)表于 09-12 14:37 ?391次閱讀

    蘋果AI模型訓(xùn)練新動向:攜手谷歌,未選英偉達

    近日,蘋果公司發(fā)布的最新研究報告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計的芯片來訓(xùn)練其AI模型,而非行業(yè)巨頭英偉達的產(chǎn)品。這
    的頭像 發(fā)表于 08-01 18:11 ?887次閱讀

    蘋果承認使用谷歌芯片來訓(xùn)練AI

    蘋果公司最近在一篇技術(shù)論文中披露,其先進的人工智能系統(tǒng)Apple Intelligence背后的兩個關(guān)鍵AI模型,是在谷歌設(shè)計的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端
    的頭像 發(fā)表于 07-30 17:03 ?672次閱讀

    蘋果轉(zhuǎn)向谷歌芯片訓(xùn)練AI,或成棄用英偉達GPU首例

    在7月29日這個令全球矚目的日子里,蘋果公司對外展示了其iPhone AI應(yīng)用的首次預(yù)覽版本,并同步發(fā)表了相關(guān)研究論文,而這篇論文十分明確地
    的頭像 發(fā)表于 07-30 16:06 ?656次閱讀

    蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

    蘋果公司在最新的技術(shù)論文中披露了一項重要信息,其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU,而是選擇了在谷歌設(shè)計的云端芯片上進行預(yù)訓(xùn)練。這一決定不僅打破了行
    的頭像 發(fā)表于 07-30 15:00 ?470次閱讀

    蘋果Apple Intelligence功能受限:端側(cè)AI發(fā)展的存儲瓶頸凸顯

    Intelligence功能,因受到存儲限制的影響,無法在其所有設(shè)備上全面使用,這一狀況無疑揭示蘋果在端側(cè)AI發(fā)展上的存儲瓶頸。
    的頭像 發(fā)表于 06-14 14:15 ?593次閱讀

    華為懸紅200萬全球求解難題 存儲技術(shù)和AI新型數(shù)據(jù)底座

    華為懸紅200萬全球求解難題? ?存儲技術(shù)和AI新型數(shù)據(jù)底座 ? ? ? 早在2019年,為加速科研成果產(chǎn)業(yè)化,突破關(guān)鍵技術(shù)難題;華為就已經(jīng)開始每年發(fā)布奧林帕斯
    的頭像 發(fā)表于 05-27 18:10 ?962次閱讀

    蘋果發(fā)布首款搭載AI芯片的iPad

    蘋果公司正式發(fā)布了全新系列的iPad Pro和尺寸升級的iPad Air,這兩款設(shè)備均深度集成了人工智能(AI)技術(shù),意圖重振近年來稍顯疲軟的平板電腦市場。新款iPad Pro的一大亮點是其13英寸的屏幕,而其厚度僅為驚人的5.
    的頭像 發(fā)表于 05-09 09:39 ?469次閱讀

    微軟發(fā)布Agent框架UFO,引領(lǐng)UI交互新紀(jì)元

    微軟近日宣布推出全新的Agent框架——UFO(UI-Focused Agent),旨在構(gòu)建更智能、更直觀的用戶界面交互體驗。該框架基于OpenAI的GPT-4V圖像識別模型開發(fā),專為Windows操作系統(tǒng)上的應(yīng)用程序設(shè)計,能夠迅速理解
    的頭像 發(fā)表于 02-19 11:15 ?1102次閱讀

    蘋果全新AI功能今年發(fā)布

    蘋果公司CEO蒂姆·庫克近日在財報會議上宣布,蘋果將在今年發(fā)布全新AI(人工智能)功能,這是繼推出Siri語音助手之后的又一重要創(chuàng)新。
    的頭像 發(fā)表于 02-03 09:16 ?1084次閱讀

    蘋果尋求利用新聞機構(gòu)素材開發(fā)AI系統(tǒng)

    繼谷歌的ChatGPT引領(lǐng)潮流之后,蘋果也開始把注意力轉(zhuǎn)向生成式人工智能的應(yīng)用,并計劃在終端設(shè)備上實現(xiàn)普及。近期,蘋果發(fā)布了兩篇關(guān)于其在人工智能領(lǐng)域研究成果的
    的頭像 發(fā)表于 12-25 10:43 ?528次閱讀

    英特爾研究院將在NeurIPS大會上展示業(yè)界領(lǐng)先的AI研究成果

    市舉辦。 在NeurIPS 2023上,英特爾研究院將展示其最新AI研究成果,并和產(chǎn)業(yè)界、學(xué)術(shù)界分享英特爾“讓AI無處不在”的愿景。大會期間,英特爾
    的頭像 發(fā)表于 12-08 19:15 ?513次閱讀