0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟視覺語言模型有顯著超越人類的表現(xiàn)

如意 ? 來源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀

視覺語言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語言描述圖像的內(nèi)容。一般來說,一個(gè)VL系統(tǒng)使用一個(gè)圖像編碼模塊和一個(gè)視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對(duì)象屬性檢測(cè)模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競(jìng)爭(zhēng)最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對(duì)象字幕(nocaps)。微軟研究團(tuán)隊(duì)還強(qiáng)調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對(duì)85.3)方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn),但我們的模型絕不是達(dá)到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標(biāo)記數(shù)據(jù),進(jìn)一步擴(kuò)大對(duì)象屬性檢測(cè)預(yù)訓(xùn)練的規(guī)模;(2)將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中,Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊(duì)還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103609
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40274
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48366
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    語言模型:原理與工程實(shí)踐+初識(shí)2

    的一系列變革。 大語言模型是深度學(xué)習(xí)的應(yīng)用之一,可以認(rèn)為,這些模型的目標(biāo)是模擬人類交流,為了理解和生成人類
    發(fā)表于 05-13 00:09

    語言模型:原理與工程時(shí)間+小白初識(shí)大語言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語言理解和能力的交互模型。 對(duì)于常說的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色,耳真正厲害的是Transformer,此框架被推出后直接
    發(fā)表于 05-12 23:57

    微軟準(zhǔn)備推出全新人工智能語言模型

    微軟近期傳出消息,正在秘密研發(fā)一款全新的人工智能語言模型,這款模型在規(guī)模上預(yù)計(jì)將具備與谷歌和OpenAI等業(yè)界巨頭相抗衡的實(shí)力。據(jù)悉,這款新模型
    的頭像 發(fā)表于 05-08 09:30 ?349次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    類任務(wù)上表現(xiàn)出色,甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù),類似于人類的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】大語言模型的評(píng)測(cè)

    ,還已成為知名企業(yè)辦公文檔工具的重要組成部分,助力用戶日常生活、學(xué)習(xí)和職業(yè)發(fā)展。值得注意的是,大語言模型在文案創(chuàng)作方面的表現(xiàn)存在顯著差異。因此,在評(píng)測(cè)大
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    如此卓越的性能,就是通過其核心能力對(duì)海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再進(jìn)行微調(diào)或?qū)ζ涫裁葱透玫母鶕?jù)人類的指令和偏好,發(fā)揮這些性能。隨著語言模型參數(shù)的不斷增加,模型完成各個(gè)任務(wù)的效果也得到了不同程
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    處理各種自然語言任務(wù)時(shí)都表現(xiàn)出了驚人的能力。這促使一個(gè)新的研究方向誕生——基于Transformer 的預(yù)訓(xùn)練語言模型。這類模型的核心思想是
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    維基百科、網(wǎng)頁內(nèi)容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結(jié)構(gòu)連貫、語義合理的句子和段落。大語言模型的一個(gè)顯著特點(diǎn)是其龐大的參數(shù)量,已達(dá)數(shù)億甚至數(shù)十億級(jí)別。這種規(guī)模賦
    發(fā)表于 05-04 23:55

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個(gè)開源庫,用于優(yōu)化從 PC 到云端的 NVIDIA GPU 上運(yùn)行的大
    的頭像 發(fā)表于 04-28 10:36 ?393次閱讀

    全球最強(qiáng)大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面全面
    的頭像 發(fā)表于 03-05 09:58 ?528次閱讀

    谷歌模型軟件哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團(tuán)隊(duì)開發(fā)的一款大型語言模型,
    的頭像 發(fā)表于 03-01 16:20 ?460次閱讀

    機(jī)器人基于開源的多模態(tài)語言視覺模型

    ByteDance Research 基于開源的多模態(tài)語言視覺模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?289次閱讀
    機(jī)器人基于開源的多模態(tài)<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    模型人類的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語言理解的作用

    近期的大語言模型(LLM)在自然語言理解和生成上展現(xiàn)出了接近人類的強(qiáng)大能力,遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型(PLM)。
    的頭像 發(fā)表于 01-04 14:06 ?331次閱讀
    <b class='flag-5'>模型</b>與<b class='flag-5'>人類</b>的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)<b class='flag-5'>模型</b><b class='flag-5'>語言</b>理解的作用

    2023年科技圈熱詞“大語言模型”,與自然語言處理何關(guān)系

    。 ? 2023年,大語言模型及其在人工智能領(lǐng)域的應(yīng)用已然成為全球科技研究的熱點(diǎn),其在規(guī)模上的增長(zhǎng)尤為引人注目,參數(shù)量已從最初的十幾億躍升到如今的一萬億。參數(shù)量的提升使得模型能夠更加精細(xì)地捕捉
    的頭像 發(fā)表于 01-02 09:28 ?2063次閱讀

    模型與AIGC藍(lán)皮書

    模型在多領(lǐng)域表現(xiàn)卓越,在自然語言理解、學(xué)習(xí)能力、視覺聽覺識(shí)別等領(lǐng)域可以媲美甚至超越人類。提高大
    的頭像 發(fā)表于 12-07 10:48 ?677次閱讀
    大<b class='flag-5'>模型</b>與AIGC藍(lán)皮書