欧美va在线高清天天看,国产手机精品一区二区,柠檬av导航性炮床八爪椅合欢

機器之心發(fā)布

來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語言預(yù)訓(xùn)練模型（Visual-Linguistic BERT，簡稱 VL-BERT），該模型采用簡單而強大的 Transformer 模型作為主干網(wǎng)絡(luò)，并將其輸入擴展為同時包含視覺與語言輸入的多模態(tài)形式，適用于絕大多數(shù)視覺-語言下游任務(wù)。

為了讓 VL-BERT 模型利用更為通用的特征表示，作者在大規(guī)模圖片描述生成數(shù)據(jù)集 ConceptualCaptions 中進行 VL-BERT 的預(yù)訓(xùn)練，實驗證明此預(yù)訓(xùn)練過程可以顯著提高下游的視覺-語言任務(wù)的效果，包含視覺常識推理、視覺問答與引用表達式理解等。值得一提的是，在視覺常識推理排行榜中，VL-BERT 取得了當前單模型的最好效果。

適用于下游任務(wù)的通用特征表示預(yù)訓(xùn)練是深度網(wǎng)絡(luò)成功的標志之一。在計算機視覺領(lǐng)域，深度網(wǎng)絡(luò)在 ImageNet 數(shù)據(jù)集進行圖像分類的預(yù)訓(xùn)練過程，被發(fā)現(xiàn)可廣泛提高多種圖像識別任務(wù)的效果。在自然語言處理領(lǐng)域中，Transformer 模型在大規(guī)模語料庫中使用語言模型進行預(yù)訓(xùn)練的過程，也被證明可廣泛提高多種自然語言處理任務(wù)的效果。

但對于計算機視覺和自然語言處理領(lǐng)域交叉的任務(wù)，例如圖像標題生成、視覺問答、視覺常識推理等，缺少這種預(yù)訓(xùn)練的通用多模態(tài)特征表示。

一般來說，之前的視覺-語言模型分別使用計算機視覺或自然語言處理領(lǐng)域中的預(yù)訓(xùn)練模型進行初始化，但如果目標任務(wù)數(shù)據(jù)量不足，模型容易過擬合從而損失性能。并且對于不同的視覺-語言任務(wù)，其網(wǎng)絡(luò)架構(gòu)一般是經(jīng)過特殊設(shè)計的，由此很難通過視覺-語言聯(lián)合預(yù)訓(xùn)練的過程幫助下游任務(wù)。

由此，在本文中，提出了一種可廣泛應(yīng)用于視覺-語言任務(wù)的預(yù)訓(xùn)練通用特征表示，稱為 Visual-LinguisitcBERT，簡稱 VL-BERT，其架構(gòu)如下圖所示：

VL-BERT 的主干網(wǎng)絡(luò)使用 TransformerAttention 模塊，并將視覺與語言嵌入特征作為輸入，其中輸入的每個元素是來自句子中的單詞、或圖像中的感興趣區(qū)域（Region of Interests，簡稱 RoIs）。在模型訓(xùn)練的過程中，每個元素均可以根據(jù)其內(nèi)容、位置、類別等信息自適應(yīng)地聚合來自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后，其特征表示即具有更為豐富的聚合與對齊視覺和語言線索的能力。

為了更好地建模通用的視覺-語言表示，在大規(guī)模視覺-語言語料庫中對 VL-BERT 進行了預(yù)訓(xùn)練。采用的預(yù)訓(xùn)練數(shù)據(jù)集為圖像標題生成數(shù)據(jù)集，Conceptual Captions，其中包含了大約 330 萬個圖像標題對。

VL-BERT 的預(yù)訓(xùn)練主要采用三個任務(wù)：a）屏蔽語言模型（Masked Language Modeling），即隨機屏蔽掉語句中的一些詞，并預(yù)測當前位置的詞是什么；b）屏蔽 RoI 分類（MaskedRoIClassification），即隨機屏蔽掉視覺輸入中的一些 RoIs，并預(yù)測此空間位置對應(yīng) RoI 的所屬類別；c）圖像標題關(guān)聯(lián)預(yù)測（Sentence-Image Relationship Prediction），即預(yù)測圖像與標題是否屬于同一對。

在預(yù)訓(xùn)練結(jié)束后，使用微調(diào)來進行下游任務(wù)的訓(xùn)練。本文中主要在三個視覺-語言下游任務(wù)中進行微調(diào)，即視覺常識推理（VisualCommonsenseReasoning）、視覺問答（VisualQuestionAnswering）與引用表達式理解（ReferringExpressionComprehension），下面將分別介紹。

視覺常識推理任務(wù)即給定圖片與相關(guān)問題，機器不僅需要回答問題，還需要提供理由來證明答案的正確性。此任務(wù)（Q-》AR）被分解為兩個子任務(wù)，即視覺問答（Q-》A，給定圖片與問題，輸出正確答案），以及視覺推理（QA-》R，給定圖片、問題與答案，輸出正確的理由）。

下面以視覺問答子任務(wù)為例，此任務(wù)的輸入為問題、答案與圖像的 RoIs，并預(yù)測此答案是否為正確答案。除此之外，作者發(fā)現(xiàn)微調(diào)時增加與預(yù)訓(xùn)練類似的 RoI 分類損失也會進一步提升性能，如下：

視覺問答任務(wù)即給定圖片，回答與圖片輸入相關(guān)的問題。由此模型的輸入即為問題與圖像，基本元素為單詞或 RoI，最終對答案進行預(yù)測，如下：

引用表達式理解任務(wù)是使用給定的引用表達式來定位圖像中的相關(guān)對象，由此輸入為查詢（引用表達式）與圖片中的 RoIs，并預(yù)測哪個 RoI 為查詢輸入的引用，如下：

下面將介紹論文中的一些主要實驗結(jié)果：

a）在視覺常識推理（Visual Commonsense Reasoning）任務(wù)中，與當前最好方法的結(jié)果比較如下：

b）在視覺問答（Visual Question Answering）任務(wù)中，與當前最好方法的結(jié)果比較如下：

c）在引用表達式理解（Referring Expression Comprehension）任務(wù)中，與當前最好方法的結(jié)果比較如下：

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6516

瀏覽量
103609
機器

機器

+關(guān)注

關(guān)注
0

文章
772

瀏覽量
40637

原文標題：牛人發(fā)明無人機自動建房，空中噴“水泥”，網(wǎng)友：建筑工人要失業(yè)

文章出處：【微信號：youuav，微信公眾號：無人機網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

通義千問發(fā)布第二代視覺語言模型Qwen2-VL

。Qwen2-VL系列模型在多模態(tài)處理領(lǐng)域取得了突破性進展，于多個權(quán)威測評中嶄露頭角，刷新了多項最佳成績記錄，展現(xiàn)出強大的視覺理解與語言交互能力。

發(fā)表于 09-03 16:31 ?401次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問世以來，在自然語言處理（NLP）領(lǐng)域取得了巨大的成功，并成為了許多先進模型（如BERT、GPT等）的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建T

發(fā)表于 07-02 11:41 ?1066次閱讀

微軟推出首個基于AI的天氣預(yù)報系統(tǒng)

微軟近日發(fā)布了其首個大型大氣基礎(chǔ)模型Aurora，該模型在天氣預(yù)測領(lǐng)域開啟了全新的高精度時代。Aurora的發(fā)布標志著微軟在人工智能和氣象科學領(lǐng)域的深度融合

發(fā)表于 06-07 15:44 ?423次閱讀

利亞德：下半年將推出50μm以下無襯底芯片Micro產(chǎn)品

近日，利亞德在接受行業(yè)機構(gòu)調(diào)研時，再次確認了Micro LED作為公司核心戰(zhàn)略產(chǎn)品的地位。利亞德在Micro LED領(lǐng)域已經(jīng)取得了顯著的技術(shù)突破和市場應(yīng)用。

發(fā)表于 06-06 10:20 ?501次閱讀

谷歌提出大規(guī)模ICL方法

谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監(jiān)督兩種新型的ICL（In-Context Learning）學習方法，這一創(chuàng)新技術(shù)能夠在多個領(lǐng)域顯著提升模型的性能。

發(fā)表于 05-14 14:17 ?260次閱讀

微軟將推出自研AI大模型

微軟正在緊鑼密鼓地訓(xùn)練一款全新的自研人工智能大模型——“MAI-1”。據(jù)悉，這款模型規(guī)模龐大，足以與谷歌的Gemini和OpenAI的ChatGPT相媲美。

發(fā)表于 05-13 11:30 ?583次閱讀

微軟自研5000億參數(shù)大模型曝光

微軟近日曝光了其內(nèi)部正在秘密研發(fā)的巨型AI模型——MAl-1，這款模型擁有驚人的5000億參數(shù)。據(jù)微軟首席技術(shù)官Kevin Scott確認，MAl-1的研發(fā)工作確實在穩(wěn)步推進中，并且該

發(fā)表于 05-08 09:56 ?384次閱讀

微軟自研AI大模型即將問世

微軟正悄然醞釀一項重大技術(shù)突破，據(jù)內(nèi)部消息人士透露，公司正全力訓(xùn)練一款名為“MAI-1”的自研人工智能大模型。這款模型備受期待，其規(guī)模龐大，足以與谷歌的Gemini和OpenAI的Ch

發(fā)表于 05-07 14:46 ?391次閱讀

微軟MSN天氣服務(wù)引入全新AI模型

微軟在天氣預(yù)測領(lǐng)域取得了突破性的進展，為MSN天氣服務(wù)引入了全新的AI預(yù)測模型。該模型由微軟Start團隊精心研發(fā)，并基于他們在arXiv上

發(fā)表于 05-07 09:25 ?418次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

之后，成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此，它還對自然語言處理領(lǐng)域產(chǎn)生了深遠的影響。基于Transformer的預(yù)訓(xùn)練模型，如GPT系列和BERT系列，已在多種任務(wù)上取得了卓越的成績。目前的大型語言

發(fā)表于 05-05 12:17

關(guān)于大模型在軟件測試領(lǐng)域應(yīng)用的全面綜述

大模型（LLM）由于其卓越的自然語言理解、推理等能力，已經(jīng)被應(yīng)用于各種場景，取得了前所未有的效果。

發(fā)表于 01-18 09:33 ?4882次閱讀

關(guān)于大<b class='flag-5'>模型</b>在軟件測試領(lǐng)域應(yīng)用的全面綜述

單模雙纖和單模單纖的區(qū)別單模單纖和雙纖哪個好效果一樣嗎

單模雙纖和單模單纖的區(qū)別單模單纖和雙纖哪個好單纖和雙纖效果一樣嗎? 單模雙纖和單模單纖是光纖

發(fā)表于 12-07 10:09 ?9254次閱讀

大模型數(shù)據(jù)集：突破邊界，探索未來

隨著人工智能技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在自然語言處理領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集，為模型

發(fā)表于 12-06 16:10 ?515次閱讀

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來趨勢

隨著深度學習技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集，為模型

發(fā)表于 12-06 15:28 ?1229次閱讀

解讀大模型FP量化的解決方案

在 LLaMA, BERT 以及 ViTs 模型上，4-bit 量化皆取得了遠超 SOTA 的結(jié)果。特別是，這篇文章展示了 4-bit 量化的 LLaMA-13B 模型，在零樣本推理任

發(fā)表于 11-24 11:15 ?774次閱讀

搜索歷史

微軟亞研提出VL-BERT，現(xiàn)取得了當前單模型的最好效果

評論