0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer多模態(tài)先導(dǎo)性工作

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器翻譯學(xué)堂 ? 2023-08-21 09:49 ? 次閱讀

多模態(tài)(Multimodality)是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺等,它們共同作用來傳遞更豐富、更全面的信息。在多模態(tài)系統(tǒng)中,不同模態(tài)之間的信息可以相互補(bǔ)充、交互作用,從而提供更深入、更全面的理解和溝通。

以人類的感知為例,我們?cè)谌粘I钪型ǔ?huì)同時(shí)接收多種感知信息。當(dāng)我們觀看一部電影時(shí),我們不僅僅依靠視覺信息來理解情節(jié)和角色,還借助于聽覺信息(對(duì)話、音效)、語言信息(字幕或?qū)Π祝⒁约扒楦猩系挠|覺體驗(yàn)等,這些信息相互交織,共同構(gòu)成我們對(duì)電影的感知和理解。

在計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域,多模態(tài)的概念也得到廣泛應(yīng)用。例如,在自然語言處理中,多模態(tài)模型可以結(jié)合文本和圖像信息,使得計(jì)算機(jī)能夠更好地理解和生成豐富的內(nèi)容。在人機(jī)交互中,多模態(tài)界面可以通過語音、觸控和手勢(shì)等方式,讓用戶更自然、更便捷地與計(jì)算機(jī)進(jìn)行交互。此外,多模態(tài)也在自動(dòng)駕駛、醫(yī)療診斷、情感分析等領(lǐng)域有著廣泛的應(yīng)用前景。

正文:

不同模態(tài)語義的對(duì)齊問題一直是多模態(tài)人工智能研究的一個(gè)重點(diǎn)課題。傳統(tǒng)意義上的多模態(tài)數(shù)據(jù)包括有:視覺數(shù)據(jù)、文字?jǐn)?shù)據(jù)、聲音數(shù)據(jù)、觸覺數(shù)據(jù)等等;在不斷地研究與發(fā)展中,多模態(tài)數(shù)據(jù)又細(xì)化為圖像數(shù)據(jù)、視頻數(shù)據(jù)、語言文字?jǐn)?shù)據(jù)、其他文字?jǐn)?shù)據(jù)(如代碼等)、聲音數(shù)據(jù)、語音數(shù)據(jù)、紅外數(shù)據(jù)、3d點(diǎn)云數(shù)據(jù)等等眾多的數(shù)據(jù)形式。

1 引言

a2520baa-3f03-11ee-ac96-dac502259ad0.png

圖1. Vision Transformer Overview

不同模態(tài)數(shù)據(jù)的語義密度不同、信噪比不同、能覆蓋的知識(shí)范圍也不同。因此不同模態(tài)數(shù)據(jù)的對(duì)齊就面臨著巨大的困難。以視覺-語言數(shù)據(jù)的語義對(duì)齊為例,對(duì)齊不同模態(tài)數(shù)據(jù)需要解決形式對(duì)齊和內(nèi)容對(duì)齊兩個(gè)問題。

首先是形式對(duì)齊的問題。NLP領(lǐng)域的經(jīng)典工作ELMo[3]提出用上下文雙向預(yù)測(cè)來提取詞元底層語義向量的方法,Bert[4]中改善為類似完型填空的語句重建任務(wù),利用Transformer[5]的高并行性和更深的深度為大模型時(shí)代的到來解決了語言數(shù)據(jù)的人工標(biāo)注成本問題。NLP領(lǐng)域的高速發(fā)展同樣也刺激著計(jì)算機(jī)視覺領(lǐng)域?qū)W者們的眼球,探索Transformer在視覺領(lǐng)域的潛力,其中影響力最大的便是來自Google的Vision Transformer[6],此工作將一張分辨率為224*224的圖片分割為16*16個(gè)分辨率為14*14的patch,每個(gè)patch當(dāng)做一個(gè)token交給Transformer Encoder模塊進(jìn)行運(yùn)算。至此,Transformer統(tǒng)一了語言數(shù)據(jù)和視覺數(shù)據(jù)的數(shù)據(jù)格式和計(jì)算方式,解決了形式對(duì)齊的問題。

今天要給大家分享的論文,ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision,就是基于以上工作的Transformer多模態(tài)先導(dǎo)性工作。

2 相關(guān)工作

a26943d8-3f03-11ee-ac96-dac502259ad0.png 圖2. 四類視覺語言模型

在論文的第一部分作者總結(jié)了截止到2021年為止的多模態(tài)方法,并以計(jì)算量進(jìn)行了分類。如圖2所示,其中VE代表視覺編碼,TE代表文字編碼,MI代表模態(tài)融合,方框的面積代表計(jì)算量。

在ViT出現(xiàn)之前,視覺-語言模型的視覺部分由CNN[8] Backbone統(tǒng)治,VE部分也幾乎都是以基于像素和CNN的模型進(jìn)行嵌入,如Pixel-Bert[7]等工作。本文提到,大多數(shù)視覺-語言模型的研究都集中在提高VE部分的性能和計(jì)算量,又由于區(qū)域特征通常在訓(xùn)練時(shí)提前緩存,以減輕特征提取的負(fù)擔(dān),因此在學(xué)術(shù)嚴(yán)重中往往會(huì)忽略了過重的VE部分的缺點(diǎn),比如在實(shí)際的應(yīng)用場(chǎng)景中,需要極大的開銷和推理時(shí)間用于提取視覺特征,其推理過于緩慢,十分影響其真實(shí)可用性。同時(shí)筆者也認(rèn)為,此類方法過于依賴CNN Backbone的泛化性和訓(xùn)練數(shù)據(jù)量,有很大的優(yōu)化空間。

因此,在此篇工作中作者們專注于研究視覺嵌入的輕量化和快速化,并只使用Transformer作為網(wǎng)絡(luò)主體,以一種統(tǒng)一的方式處理兩種模態(tài)。區(qū)別于以往的視覺-語言模型,ViLT模型是沒有卷積網(wǎng)絡(luò)的,通過特殊的設(shè)計(jì),去除了專門用于視覺輸入的深度嵌入器顯著減少了模型大小和運(yùn)行時(shí)間,從圖3中可以看出此工作的參數(shù)有效模型(parameter-efficient model)的運(yùn)行速度比使用區(qū)域特征的VLP(Vision-Language Pretrain)模型要快幾十倍,比使用網(wǎng)格特征的VLP模型要快四倍以上,同時(shí)在性能上,并沒有比上述模型有明顯下降,甚至在某些任務(wù)上要優(yōu)于上述模型。

a281fd38-3f03-11ee-ac96-dac502259ad0.png 圖3.推理代價(jià)對(duì)比圖

ViLT工作的主要貢獻(xiàn)被作者總結(jié)為如下:

ViLT是迄今為止最簡(jiǎn)單的視覺-語言模型架構(gòu),它統(tǒng)一使用Transformer來處理視覺和語言特征,這種設(shè)計(jì)顯著降低了運(yùn)行時(shí)間并提高了參數(shù)效率。

ViLT首次證明了CNN不是視覺-語言任務(wù)上的唯一解,在不適用任何CNN網(wǎng)絡(luò)的情況下,在視覺和語言任務(wù)上取得了令人滿意的性能。視覺語義嵌入(VSE)模型,如VSE++(Faghri等人,2017年)和SCAN(Lee等人,2018年)屬于圖2a。他們對(duì)圖像和文本使用不同的嵌入器,前者要重得多。然后,它們用簡(jiǎn)單的點(diǎn)積或淺的注意層來表示兩種模態(tài)中嵌入特征的相似性。

ViLT證明了,在多模態(tài)任務(wù)的訓(xùn)練中,使用整詞掩蔽和圖像增強(qiáng)能進(jìn)一步增強(qiáng)模型的性能。

3 背景

3.1 視覺語言模型的分類方式

作者提出視覺和語言模型的分類法基于兩點(diǎn):( 1 )兩種模態(tài)在專用參數(shù)和,或計(jì)算方面是否具有均勻的表達(dá)能力;( 2 )兩種模態(tài)在深度網(wǎng)絡(luò)中是否存在相互作用。這些點(diǎn)的組合導(dǎo)致了圖2中的四個(gè)原型。

視覺語義嵌入(VSE)模型,如VSE++[9]和SCAN[10]屬于圖2a。他們對(duì)圖像和文本使用不同的嵌入器,前者要重得多。然后,它們用簡(jiǎn)單的點(diǎn)積或淺的注意層來表示兩種模態(tài)中嵌入特征的相似性。

CLIP[11](雷德福等人,2021年)屬于圖2b,因?yàn)樗鼮槊糠N模態(tài)使用單獨(dú)但同樣昂貴的Transformer model嵌入器。合并的圖像矢量和文本矢量之間的交互仍然很淺(點(diǎn)積)。盡管CLIP在圖像到文本檢索方面表現(xiàn)出色,但我們無法在其他視覺和語言下游任務(wù)中觀察到相同水平的表現(xiàn)。例如,使用來自CLIP的匯集的視覺和文本向量的點(diǎn)積作為多模態(tài)表示來微調(diào)NLVR2[12]上的MLP頭,給出了50.99±0.38的低dev精度(用三種不同的種子運(yùn)行);由于機(jī)會(huì)水平準(zhǔn)確度為0.5,我們得出結(jié)論,表示不能學(xué)習(xí)這項(xiàng)任務(wù)。這也符合Suhr[13]等人的發(fā)現(xiàn)。(2018)所有簡(jiǎn)單融合多模態(tài)表示的模型都無法學(xué)習(xí)NLVR2。

這一結(jié)果支持了作者的推測(cè),即使來自高性能單模態(tài)Embedder的輸出的簡(jiǎn)單融合也可能不足以學(xué)習(xí)復(fù)雜的視覺和語言任務(wù),這體現(xiàn)了對(duì)更嚴(yán)格的模態(tài)間交互方案的需求。

與具有淺層交互的模型不同,圖2c中較新的VLP模型使用深層transformer來模擬圖像和文本特征的交互。然而,除了交互模塊之外,卷積網(wǎng)絡(luò)仍然參與提取和嵌入圖像特征,這占了圖3所示的大部分計(jì)算。Modulation-based視覺和語言模型[14]也屬于圖2c,它們的視覺CNN詞干對(duì)應(yīng)于視覺嵌入器,RNN產(chǎn)生文本嵌入器的調(diào)制參數(shù),調(diào)制CNN產(chǎn)生模態(tài)交互。

本文提出的ViLT是屬于圖2d的第一個(gè)模型,其中原始像素的嵌入層很淺,并且與文本標(biāo)記相比計(jì)算量很輕。因此,這種架構(gòu)將大部分計(jì)算集中在建模模態(tài)交互上。

3.2 模態(tài)交互

Transformer技術(shù)是當(dāng)前VLP模型的核心,它們用視覺和文本嵌入序列作為輸入,在整個(gè)層中模擬模態(tài)內(nèi)和模態(tài)間的交互,然后輸出上下文相關(guān)的特征序列。

布利亞雷羅等人[15]將交互模式分為兩類:(1)單流方法(如VisualBERT[16]、UNITER[17]),其中各層集體操作圖像和文本輸入的串聯(lián);以及(2)雙流方法(例如,ViLBERT[18],LXMERT[19]),其中兩種模式在輸入級(jí)別上沒有連接。對(duì)于交互Transformer model模塊,作者遵循單流方法,因?yàn)殡p流方法引入了額外的參數(shù)。

3.3 視覺Embedding

所有高性能的VLP模型都共享相同的Text Embedding——BERT但它們?cè)谝曈X嵌入器上有所不同。盡管如此,在大多數(shù)(如果不是全部)情況下,視覺嵌入仍然是現(xiàn)有VLP模型的瓶頸。我們通過引入Patch Projection而不是使用區(qū)域或網(wǎng)格特征來減少這一瓶頸,因?yàn)閰^(qū)域或網(wǎng)格特征使用了更大的提取模塊。

區(qū)域特征。VLP模型主要利用區(qū)域特征,也稱為自下而上特征[20]。它們是從現(xiàn)成的物體檢測(cè)器如Faster R-CNN[21]獲得的。

生成區(qū)域特征的一般流程如下。首先,使用RPN基于從CNN主干網(wǎng)匯集的網(wǎng)格特征來建議感興趣的區(qū)域(RoI)。然后,非最大抑制(NMS)將ROI的數(shù)量減少到幾千個(gè)。在被RoI Align[22]等操作匯集后,RoI通過RoI頭并成為區(qū)域特征。NMS再次應(yīng)用于每個(gè)類,最終將特征的數(shù)量減少到100個(gè)以下。

上述過程涉及幾個(gè)影響性能和運(yùn)行時(shí)的因素:主干、NMS的風(fēng)格、RoI頭.以前的工作對(duì)控制這些因素很寬容,如下所示:

?骨干網(wǎng):ResNet-101[1]和ResNext-152[1]是兩種常用的骨干網(wǎng)。

?NMS:NMS通常以逐類的方式完成。在每個(gè)類中應(yīng)用NMS成為運(yùn)行時(shí)一個(gè)主要的瓶頸,例如在VG數(shù)據(jù)集[23]中有1.6 K的類。為了解決這個(gè)問題,最近引入了分類NMS[24]。

?RoI頭:最初使用的是C4[20]。頭是后來引入的[25]。當(dāng)heads為所有RoI工作時(shí),帶來了巨大的運(yùn)行時(shí)間負(fù)擔(dān)。

然而輕量級(jí)的目標(biāo)檢測(cè)模型不太可能比backbone或單層卷積更快。提前凍結(jié)視覺backbone和緩存區(qū)域特征只在訓(xùn)練時(shí)有幫助,在推理期間沒有幫助,更不用說它本就抑制性能。

網(wǎng)格特征。除了目標(biāo)檢測(cè)頭,卷積神經(jīng)網(wǎng)絡(luò)(如ResNets)的輸出特征網(wǎng)格也可以用作視覺和語言預(yù)訓(xùn)練的視覺特征。直接使用網(wǎng)格特征首先是由特定模型提出的[26],主要是為了避免使用嚴(yán)重緩慢的區(qū)域選擇操作。

X-LXMERT[27]通過將目標(biāo)區(qū)域固定為網(wǎng)格而不是來自區(qū)域建議網(wǎng)絡(luò)的網(wǎng)格來重新研究網(wǎng)格特征。然而,他們對(duì)特征的緩存排除了對(duì)主干網(wǎng)的進(jìn)一步調(diào)整。

Pixel - BERT是唯一一個(gè)將VG預(yù)訓(xùn)練的目標(biāo)檢測(cè)器替換為預(yù)訓(xùn)練ImageNet分類的ResNet變體主干的VLP模型。與基于區(qū)域特征的VLP模型中的凍結(jié)檢測(cè)器不同,Pixel - BERT的主干在視覺和語言預(yù)訓(xùn)練過程中進(jìn)行了調(diào)整。Pixel - BERT與ResNet - 50的下游性能低于基于區(qū)域特征的VLP模型,但與其他競(jìng)爭(zhēng)者相比,它使用了更重的ResNeXt - 152。

但作者聲稱網(wǎng)格特征不是首選項(xiàng),由于深度卷積神經(jīng)網(wǎng)絡(luò)代價(jià)昂貴,它們占整個(gè)計(jì)算很大一部分,如圖3所示。

Patch Projection.為了最小化開銷,作者采用最簡(jiǎn)單的視覺Embedding方案:在圖像塊上操作的線性投影。針對(duì)圖像分類任務(wù),ViT引入了塊投影Embedding。補(bǔ)丁投影將視覺Embedding步驟大大簡(jiǎn)化到文本Embedding的水平,同樣由簡(jiǎn)單的投影(projection)操作組成。

作者使用32 × 32的面片投影,只需要2.4 M的參數(shù)。這與復(fù)雜的ResNe(X)t Backbone和目標(biāo)檢測(cè)元件形成鮮明對(duì)比。其運(yùn)行時(shí)間也可忽略不計(jì),如圖3所示,在原文的4.6節(jié)做了詳細(xì)的運(yùn)行時(shí)分析。

4 ViLT

4.1 模型概述

本文所提出的ViLT模型是一個(gè)追求簡(jiǎn)潔的,單流視覺語言模型,具有本文所提所有方法中最小的VE模塊。具體的結(jié)構(gòu)可以參考圖2。

比較反直覺的是,作者在實(shí)際的實(shí)驗(yàn)過程中對(duì)模型進(jìn)行參數(shù)初始化以加速訓(xùn)練,直接使用bert進(jìn)行參數(shù)初始化的時(shí)候效果很差,在多次的實(shí)驗(yàn)中作者又分別嘗試了使用預(yù)訓(xùn)練的ViT初始化IM模塊的參數(shù)和僅使用ViT的patch embedding初始化ViLT的patch embedding。最后作者發(fā)現(xiàn),使用預(yù)訓(xùn)練的ViT初始化IM模塊的效果最好,其中ViT和Bert模型的結(jié)構(gòu)不同之處在于他們layer normalization(LN)的位置不同,在ViT中LN層位于多頭注意力和FC層的前面,而在Bert中則位于此兩層的后面。本工作所使用的預(yù)訓(xùn)練模型是ViT-B/32,在ImageNet上進(jìn)行預(yù)訓(xùn)練。

4.2 預(yù)訓(xùn)練目標(biāo)

作者使用兩個(gè)常用于訓(xùn)練VLP模型的目標(biāo)訓(xùn)練ViLT:圖像文本匹配( ITM )和掩蔽語言建模( MLM )。

ITM.圖像文本匹配。作者以0.5的概率將對(duì)齊后的圖像隨機(jī)替換為不同的圖像。單個(gè)線性層ITM頭將池化的輸出特征p投影到二進(jìn)制類上,我們計(jì)算負(fù)對(duì)數(shù)似然損失作為我們的ITM損失。

另外作者還使用基于最優(yōu)運(yùn)輸原理的此塊對(duì)齊思想,輔助ITM任務(wù)的訓(xùn)練。

MLM.掩蔽語言建模。作者在次任務(wù)中使用0.15的掩蔽概率進(jìn)行隨機(jī)掩蔽,進(jìn)行掩蔽重建任務(wù)以計(jì)算損失,其方法同Bert。

同時(shí)作者使用了不同于Bert的整詞掩蔽方式,使用視覺信息重建掩蔽詞,以加強(qiáng)模態(tài)之間的交互性。

4.3 圖像增強(qiáng)

在多模態(tài)任務(wù)中,由于圖像增強(qiáng)方法經(jīng)常會(huì)影響圖像的語義,故很少使用,比如圖片的裁剪可能會(huì)影響目標(biāo)的數(shù)量,圖像的歸一化會(huì)影響圖像本身的色彩。但圖像增強(qiáng)本身作為一個(gè)很好的增強(qiáng)模型魯棒性和泛化性的trick,故作者在微調(diào)過程中還是使用了部分不影響圖像語義的數(shù)據(jù)增強(qiáng)方法。

5 實(shí)驗(yàn)

a2a36da6-3f03-11ee-ac96-dac502259ad0.png

圖4.數(shù)據(jù)集

具體的實(shí)驗(yàn)方法不在這里贅述,這里介紹一下本工作的數(shù)據(jù)集和評(píng)估效果。本工作使用了四個(gè)數(shù)據(jù)集共4M張圖片和約10M條描述用于預(yù)訓(xùn)練,如圖4所示。并在VQAv2和NLVR2上進(jìn)行評(píng)估,評(píng)估效果如下圖5-7所示。

a2c11270-3f03-11ee-ac96-dac502259ad0.png 圖5.評(píng)估結(jié)果-1

a3084c12-3f03-11ee-ac96-dac502259ad0.png 圖6.評(píng)估結(jié)果-2

圖片所展示的效果很清晰,可以看到ViLT的主要提升在Time上,大幅提升了推理速度,在分?jǐn)?shù)和效果上,ViLT并沒有因?yàn)橥评硭俣却蠓忍岣叨档停炊谀承┤蝿?wù)上有小幅度提升。

a3639658-3f03-11ee-ac96-dac502259ad0.png 圖7.消融實(shí)驗(yàn)

圖7所示的消融實(shí)驗(yàn)探究了模型的哪些設(shè)計(jì)提升了性能,可以看到整詞掩蔽和圖像增強(qiáng)都帶來了幾個(gè)點(diǎn)的效果提升。

6 可視化效果

a39f612e-3f03-11ee-ac96-dac502259ad0.png

圖8.可視化多模態(tài)對(duì)齊展示

作者展示了ViLT的圖像可視化對(duì)齊效果,可以看到把更多了計(jì)算量分配給IM模塊時(shí),模型會(huì)展現(xiàn)出強(qiáng)大的對(duì)齊能力。作者認(rèn)為他們?cè)赪PA任務(wù)上的設(shè)計(jì)增強(qiáng)了模型的對(duì)齊能力。

審核編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6713

    瀏覽量

    88300
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234951
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    5943
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21932
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2134

    瀏覽量

    1970

原文標(biāo)題:ViLT: 沒有卷積和區(qū)域監(jiān)督的視覺-語言Transformer模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    CSI工作模態(tài)分析

    CSI拓?fù)銫SI開關(guān)狀態(tài)CSI工作模態(tài)分析CSI與VSI的聯(lián)系
    發(fā)表于 11-15 07:38

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在文化場(chǎng)景下的模態(tài)情感識(shí)別問題.我們從語音聲學(xué)和面部表情等模態(tài)
    發(fā)表于 12-18 14:47 ?0次下載

    聯(lián)想楊元慶:5G是行業(yè)智能化轉(zhuǎn)型的先導(dǎo)性技術(shù)

    出, 5G是產(chǎn)業(yè)智能化變革的先導(dǎo)性技術(shù),也推動(dòng)形成了行業(yè)智能化變革所需要的新技術(shù)架構(gòu)——“端-邊-云-網(wǎng)-智”。
    的頭像 發(fā)表于 02-23 17:10 ?2411次閱讀

    如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?

    一個(gè)模型完成了CV,NLP方向的7個(gè)任務(wù),每個(gè)任務(wù)上表現(xiàn)都非常好。 ? Transformer架構(gòu)在自然語言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個(gè)領(lǐng)域或特定的
    的頭像 發(fā)表于 03-08 10:30 ?2644次閱讀
    如何讓<b class='flag-5'>Transformer</b>在多種<b class='flag-5'>模態(tài)</b>下處理不同領(lǐng)域的廣泛應(yīng)用?

    Transformer模型的模態(tài)學(xué)習(xí)應(yīng)用

    隨著Transformer在視覺中的崛起,Transformer模態(tài)中應(yīng)用也是合情合理的事情,甚至以后可能會(huì)有更多的類似的paper。
    的頭像 發(fā)表于 03-25 09:29 ?1w次閱讀
    <b class='flag-5'>Transformer</b>模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學(xué)習(xí)應(yīng)用

    如何在模態(tài)的語境中利用Transformer強(qiáng)大的表達(dá)能力?

    NLPer在跨界上忙活的不亦樂乎,提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中,加大力度預(yù)訓(xùn)練,總有意想不到的SOTA。 如何在模態(tài)的語境中更細(xì)致準(zhǔn)確地利用Transf
    的頭像 發(fā)表于 03-29 16:47 ?3651次閱讀
    如何在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的語境中利用<b class='flag-5'>Transformer</b>強(qiáng)大的表達(dá)能力?

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    Transformer常用的輕量化方法

    引言:近年來,Transformer模型在人工智能的各個(gè)領(lǐng)域得到了廣泛應(yīng)用,成為了包括計(jì)算機(jī)視覺,自然語言處理以及模態(tài)領(lǐng)域內(nèi)的主流方法。
    的頭像 發(fā)表于 10-25 14:10 ?5495次閱讀

    中文模態(tài)對(duì)話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1200次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對(duì)話數(shù)據(jù)集

    微軟模態(tài)ChatGPT的常見測(cè)試介紹

    研究者將一個(gè)基于 Transformer 的語言模型作為通用接口,并將其與感知模塊對(duì)接。他們?cè)诰W(wǎng)頁規(guī)模的模態(tài)語料庫上訓(xùn)練模型,語料庫包括了文本數(shù)據(jù)、任意交錯(cuò)的圖像和文本、以及圖像字幕對(duì)。
    發(fā)表于 03-13 11:23 ?770次閱讀

    基于視覺的模態(tài)觸覺感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到模態(tài)觸覺信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜,以及需要應(yīng)對(duì)來自不同刺激間的干
    發(fā)表于 10-18 11:24 ?708次閱讀
    基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺感知系統(tǒng)

    探究編輯模態(tài)大語言模型的可行

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手,將單模態(tài)
    發(fā)表于 11-09 14:53 ?399次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型的可行<b class='flag-5'>性</b>

    成都匯陽投資關(guān)于模態(tài)驅(qū)動(dòng)應(yīng)用前景廣闊,上游算力迎機(jī)會(huì)!

    “Cloud TPU v5p”, 以及來自谷歌云的人工智能超級(jí)計(jì)算機(jī)。 本次谷歌推出的模態(tài)大模型Gemini 依然采用Transformer架構(gòu),采用高效Attention機(jī)制,支持32k 的上下文長(zhǎng)度
    的頭像 發(fā)表于 12-18 13:08 ?386次閱讀
    成都匯陽投資關(guān)于<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>驅(qū)動(dòng)應(yīng)用前景廣闊,上游算力迎機(jī)會(huì)!

    基于Transformer模態(tài)BEV融合方案

    由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題是很困難的。
    發(fā)表于 01-23 11:39 ?546次閱讀
    基于<b class='flag-5'>Transformer</b>的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>BEV融合方案