插插无码视频大全不卡网站,欧美日韩一级二级三区高清视频,秋葵视频安卓下载老司机视频

多模態(tài)（Multimodality）是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。在多模態(tài)系統(tǒng)中，不同模態(tài)之間的信息可以相互補(bǔ)充、交互作用，從而提供更深入、更全面的理解和溝通。

以人類的感知為例，我們?cè)谌粘Ｉ钪型ǔ?huì)同時(shí)接收多種感知信息。當(dāng)我們觀看一部電影時(shí)，我們不僅僅依靠視覺信息來理解情節(jié)和角色，還借助于聽覺信息（對(duì)話、音效）、語言信息（字幕或?qū)Π祝⒁约扒楦猩系挠|覺體驗(yàn)等，這些信息相互交織，共同構(gòu)成我們對(duì)電影的感知和理解。

在計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域，多模態(tài)的概念也得到廣泛應(yīng)用。例如，在自然語言處理中，多模態(tài)模型可以結(jié)合文本和圖像信息，使得計(jì)算機(jī)能夠更好地理解和生成豐富的內(nèi)容。在人機(jī)交互中，多模態(tài)界面可以通過語音、觸控和手勢(shì)等方式，讓用戶更自然、更便捷地與計(jì)算機(jī)進(jìn)行交互。此外，多模態(tài)也在自動(dòng)駕駛、醫(yī)療診斷、情感分析等領(lǐng)域有著廣泛的應(yīng)用前景。

正文：

不同模態(tài)語義的對(duì)齊問題一直是多模態(tài)人工智能研究的一個(gè)重點(diǎn)課題。傳統(tǒng)意義上的多模態(tài)數(shù)據(jù)包括有：視覺數(shù)據(jù)、文字?jǐn)?shù)據(jù)、聲音數(shù)據(jù)、觸覺數(shù)據(jù)等等；在不斷地研究與發(fā)展中，多模態(tài)數(shù)據(jù)又細(xì)化為圖像數(shù)據(jù)、視頻數(shù)據(jù)、語言文字?jǐn)?shù)據(jù)、其他文字?jǐn)?shù)據(jù)（如代碼等）、聲音數(shù)據(jù)、語音數(shù)據(jù)、紅外數(shù)據(jù)、3d點(diǎn)云數(shù)據(jù)等等眾多的數(shù)據(jù)形式。

1 引言

圖1. Vision Transformer Overview

不同模態(tài)數(shù)據(jù)的語義密度不同、信噪比不同、能覆蓋的知識(shí)范圍也不同。因此不同模態(tài)數(shù)據(jù)的對(duì)齊就面臨著巨大的困難。以視覺-語言數(shù)據(jù)的語義對(duì)齊為例，對(duì)齊不同模態(tài)數(shù)據(jù)需要解決形式對(duì)齊和內(nèi)容對(duì)齊兩個(gè)問題。

首先是形式對(duì)齊的問題。NLP領(lǐng)域的經(jīng)典工作ELMo[3]提出用上下文雙向預(yù)測(cè)來提取詞元底層語義向量的方法，Bert[4]中改善為類似完型填空的語句重建任務(wù)，利用Transformer[5]的高并行性和更深的深度為大模型時(shí)代的到來解決了語言數(shù)據(jù)的人工標(biāo)注成本問題。NLP領(lǐng)域的高速發(fā)展同樣也刺激著計(jì)算機(jī)視覺領(lǐng)域?qū)W者們的眼球，探索Transformer在視覺領(lǐng)域的潛力，其中影響力最大的便是來自Google的Vision Transformer[6]，此工作將一張分辨率為224*224的圖片分割為16*16個(gè)分辨率為14*14的patch，每個(gè)patch當(dāng)做一個(gè)token交給Transformer Encoder模塊進(jìn)行運(yùn)算。至此，Transformer統(tǒng)一了語言數(shù)據(jù)和視覺數(shù)據(jù)的數(shù)據(jù)格式和計(jì)算方式，解決了形式對(duì)齊的問題。

今天要給大家分享的論文，ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision，就是基于以上工作的Transformer多模態(tài)先導(dǎo)性工作。

2 相關(guān)工作

圖2. 四類視覺語言模型

在論文的第一部分作者總結(jié)了截止到2021年為止的多模態(tài)方法，并以計(jì)算量進(jìn)行了分類。如圖2所示，其中VE代表視覺編碼，TE代表文字編碼，MI代表模態(tài)融合，方框的面積代表計(jì)算量。

在ViT出現(xiàn)之前，視覺-語言模型的視覺部分由CNN[8] Backbone統(tǒng)治，VE部分也幾乎都是以基于像素和CNN的模型進(jìn)行嵌入，如Pixel-Bert[7]等工作。本文提到，大多數(shù)視覺-語言模型的研究都集中在提高VE部分的性能和計(jì)算量，又由于區(qū)域特征通常在訓(xùn)練時(shí)提前緩存，以減輕特征提取的負(fù)擔(dān)，因此在學(xué)術(shù)嚴(yán)重中往往會(huì)忽略了過重的VE部分的缺點(diǎn)，比如在實(shí)際的應(yīng)用場(chǎng)景中，需要極大的開銷和推理時(shí)間用于提取視覺特征，其推理過于緩慢，十分影響其真實(shí)可用性。同時(shí)筆者也認(rèn)為，此類方法過于依賴CNN Backbone的泛化性和訓(xùn)練數(shù)據(jù)量，有很大的優(yōu)化空間。

因此，在此篇工作中作者們專注于研究視覺嵌入的輕量化和快速化，并只使用Transformer作為網(wǎng)絡(luò)主體，以一種統(tǒng)一的方式處理兩種模態(tài)。區(qū)別于以往的視覺-語言模型，ViLT模型是沒有卷積網(wǎng)絡(luò)的，通過特殊的設(shè)計(jì)，去除了專門用于視覺輸入的深度嵌入器顯著減少了模型大小和運(yùn)行時(shí)間，從圖3中可以看出此工作的參數(shù)有效模型（parameter-efficient model）的運(yùn)行速度比使用區(qū)域特征的VLP（Vision-Language Pretrain）模型要快幾十倍，比使用網(wǎng)格特征的VLP模型要快四倍以上，同時(shí)在性能上，并沒有比上述模型有明顯下降，甚至在某些任務(wù)上要優(yōu)于上述模型。

圖3.推理代價(jià)對(duì)比圖

ViLT工作的主要貢獻(xiàn)被作者總結(jié)為如下：

ViLT是迄今為止最簡(jiǎn)單的視覺-語言模型架構(gòu)，它統(tǒng)一使用Transformer來處理視覺和語言特征，這種設(shè)計(jì)顯著降低了運(yùn)行時(shí)間并提高了參數(shù)效率。

ViLT首次證明了CNN不是視覺-語言任務(wù)上的唯一解，在不適用任何CNN網(wǎng)絡(luò)的情況下，在視覺和語言任務(wù)上取得了令人滿意的性能。視覺語義嵌入（VSE）模型，如VSE++（Faghri等人，2017年）和SCAN（Lee等人，2018年）屬于圖2a。他們對(duì)圖像和文本使用不同的嵌入器，前者要重得多。然后，它們用簡(jiǎn)單的點(diǎn)積或淺的注意層來表示兩種模態(tài)中嵌入特征的相似性。

ViLT證明了，在多模態(tài)任務(wù)的訓(xùn)練中，使用整詞掩蔽和圖像增強(qiáng)能進(jìn)一步增強(qiáng)模型的性能。

3 背景

3.1 視覺語言模型的分類方式

作者提出視覺和語言模型的分類法基于兩點(diǎn)：( 1 )兩種模態(tài)在專用參數(shù)和，或計(jì)算方面是否具有均勻的表達(dá)能力；( 2 )兩種模態(tài)在深度網(wǎng)絡(luò)中是否存在相互作用。這些點(diǎn)的組合導(dǎo)致了圖2中的四個(gè)原型。

視覺語義嵌入（VSE）模型，如VSE++[9]和SCAN[10]屬于圖2a。他們對(duì)圖像和文本使用不同的嵌入器，前者要重得多。然后，它們用簡(jiǎn)單的點(diǎn)積或淺的注意層來表示兩種模態(tài)中嵌入特征的相似性。

CLIP[11]（雷德福等人，2021年）屬于圖2b，因?yàn)樗鼮槊糠N模態(tài)使用單獨(dú)但同樣昂貴的Transformer model嵌入器。合并的圖像矢量和文本矢量之間的交互仍然很淺（點(diǎn)積）。盡管CLIP在圖像到文本檢索方面表現(xiàn)出色，但我們無法在其他視覺和語言下游任務(wù)中觀察到相同水平的表現(xiàn)。例如，使用來自CLIP的匯集的視覺和文本向量的點(diǎn)積作為多模態(tài)表示來微調(diào)NLVR2[12]上的MLP頭，給出了50.99±0.38的低dev精度（用三種不同的種子運(yùn)行）；由于機(jī)會(huì)水平準(zhǔn)確度為0.5，我們得出結(jié)論，表示不能學(xué)習(xí)這項(xiàng)任務(wù)。這也符合Suhr[13]等人的發(fā)現(xiàn)。（2018）所有簡(jiǎn)單融合多模態(tài)表示的模型都無法學(xué)習(xí)NLVR2。

這一結(jié)果支持了作者的推測(cè)，即使來自高性能單模態(tài)Embedder的輸出的簡(jiǎn)單融合也可能不足以學(xué)習(xí)復(fù)雜的視覺和語言任務(wù)，這體現(xiàn)了對(duì)更嚴(yán)格的模態(tài)間交互方案的需求。

與具有淺層交互的模型不同，圖2c中較新的VLP模型使用深層transformer來模擬圖像和文本特征的交互。然而，除了交互模塊之外，卷積網(wǎng)絡(luò)仍然參與提取和嵌入圖像特征，這占了圖3所示的大部分計(jì)算。Modulation-based視覺和語言模型[14]也屬于圖2c，它們的視覺CNN詞干對(duì)應(yīng)于視覺嵌入器，RNN產(chǎn)生文本嵌入器的調(diào)制參數(shù)，調(diào)制CNN產(chǎn)生模態(tài)交互。

本文提出的ViLT是屬于圖2d的第一個(gè)模型，其中原始像素的嵌入層很淺，并且與文本標(biāo)記相比計(jì)算量很輕。因此，這種架構(gòu)將大部分計(jì)算集中在建模模態(tài)交互上。

3.2 模態(tài)交互

Transformer技術(shù)是當(dāng)前VLP模型的核心，它們用視覺和文本嵌入序列作為輸入，在整個(gè)層中模擬模態(tài)內(nèi)和模態(tài)間的交互，然后輸出上下文相關(guān)的特征序列。

布利亞雷羅等人[15]將交互模式分為兩類：（1）單流方法（如VisualBERT[16]、UNITER[17]），其中各層集體操作圖像和文本輸入的串聯(lián)；以及（2）雙流方法（例如，ViLBERT[18]，LXMERT[19]），其中兩種模式在輸入級(jí)別上沒有連接。對(duì)于交互Transformer model模塊，作者遵循單流方法，因?yàn)殡p流方法引入了額外的參數(shù)。

3.3 視覺Embedding

所有高性能的VLP模型都共享相同的Text Embedding——BERT但它們?cè)谝曈X嵌入器上有所不同。盡管如此，在大多數(shù)（如果不是全部）情況下，視覺嵌入仍然是現(xiàn)有VLP模型的瓶頸。我們通過引入Patch Projection而不是使用區(qū)域或網(wǎng)格特征來減少這一瓶頸，因?yàn)閰^(qū)域或網(wǎng)格特征使用了更大的提取模塊。

區(qū)域特征。VLP模型主要利用區(qū)域特征，也稱為自下而上特征[20]。它們是從現(xiàn)成的物體檢測(cè)器如Faster R-CNN[21]獲得的。

生成區(qū)域特征的一般流程如下。首先，使用RPN基于從CNN主干網(wǎng)匯集的網(wǎng)格特征來建議感興趣的區(qū)域（RoI）。然后，非最大抑制（NMS）將ROI的數(shù)量減少到幾千個(gè)。在被RoI Align[22]等操作匯集后，RoI通過RoI頭并成為區(qū)域特征。NMS再次應(yīng)用于每個(gè)類，最終將特征的數(shù)量減少到100個(gè)以下。

上述過程涉及幾個(gè)影響性能和運(yùn)行時(shí)的因素：主干、NMS的風(fēng)格、RoI頭.以前的工作對(duì)控制這些因素很寬容，如下所示：

?骨干網(wǎng)：ResNet-101[1]和ResNext-152[1]是兩種常用的骨干網(wǎng)。

?NMS：NMS通常以逐類的方式完成。在每個(gè)類中應(yīng)用NMS成為運(yùn)行時(shí)一個(gè)主要的瓶頸，例如在VG數(shù)據(jù)集[23]中有1.6 K的類。為了解決這個(gè)問題，最近引入了分類NMS[24]。

?RoI頭：最初使用的是C4[20]。頭是后來引入的[25]。當(dāng)heads為所有RoI工作時(shí)，帶來了巨大的運(yùn)行時(shí)間負(fù)擔(dān)。

然而輕量級(jí)的目標(biāo)檢測(cè)模型不太可能比backbone或單層卷積更快。提前凍結(jié)視覺backbone和緩存區(qū)域特征只在訓(xùn)練時(shí)有幫助，在推理期間沒有幫助，更不用說它本就抑制性能。

網(wǎng)格特征。除了目標(biāo)檢測(cè)頭，卷積神經(jīng)網(wǎng)絡(luò)（如ResNets）的輸出特征網(wǎng)格也可以用作視覺和語言預(yù)訓(xùn)練的視覺特征。直接使用網(wǎng)格特征首先是由特定模型提出的[26]，主要是為了避免使用嚴(yán)重緩慢的區(qū)域選擇操作。

X-LXMERT[27]通過將目標(biāo)區(qū)域固定為網(wǎng)格而不是來自區(qū)域建議網(wǎng)絡(luò)的網(wǎng)格來重新研究網(wǎng)格特征。然而，他們對(duì)特征的緩存排除了對(duì)主干網(wǎng)的進(jìn)一步調(diào)整。

Pixel - BERT是唯一一個(gè)將VG預(yù)訓(xùn)練的目標(biāo)檢測(cè)器替換為預(yù)訓(xùn)練ImageNet分類的ResNet變體主干的VLP模型。與基于區(qū)域特征的VLP模型中的凍結(jié)檢測(cè)器不同，Pixel - BERT的主干在視覺和語言預(yù)訓(xùn)練過程中進(jìn)行了調(diào)整。Pixel - BERT與ResNet - 50的下游性能低于基于區(qū)域特征的VLP模型，但與其他競(jìng)爭(zhēng)者相比，它使用了更重的ResNeXt - 152。

但作者聲稱網(wǎng)格特征不是首選項(xiàng)，由于深度卷積神經(jīng)網(wǎng)絡(luò)代價(jià)昂貴，它們占整個(gè)計(jì)算很大一部分，如圖3所示。

Patch Projection.為了最小化開銷，作者采用最簡(jiǎn)單的視覺Embedding方案：在圖像塊上操作的線性投影。針對(duì)圖像分類任務(wù)，ViT引入了塊投影Embedding。補(bǔ)丁投影將視覺Embedding步驟大大簡(jiǎn)化到文本Embedding的水平，同樣由簡(jiǎn)單的投影(projection)操作組成。

作者使用32 × 32的面片投影，只需要2.4 M的參數(shù)。這與復(fù)雜的ResNe(X)t Backbone和目標(biāo)檢測(cè)元件形成鮮明對(duì)比。其運(yùn)行時(shí)間也可忽略不計(jì)，如圖3所示，在原文的4.6節(jié)做了詳細(xì)的運(yùn)行時(shí)分析。

4 ViLT

4.1 模型概述

本文所提出的ViLT模型是一個(gè)追求簡(jiǎn)潔的，單流視覺語言模型，具有本文所提所有方法中最小的VE模塊。具體的結(jié)構(gòu)可以參考圖2。

比較反直覺的是，作者在實(shí)際的實(shí)驗(yàn)過程中對(duì)模型進(jìn)行參數(shù)初始化以加速訓(xùn)練，直接使用bert進(jìn)行參數(shù)初始化的時(shí)候效果很差，在多次的實(shí)驗(yàn)中作者又分別嘗試了使用預(yù)訓(xùn)練的ViT初始化IM模塊的參數(shù)和僅使用ViT的patch embedding初始化ViLT的patch embedding。最后作者發(fā)現(xiàn)，使用預(yù)訓(xùn)練的ViT初始化IM模塊的效果最好，其中ViT和Bert模型的結(jié)構(gòu)不同之處在于他們layer normalization（LN）的位置不同，在ViT中LN層位于多頭注意力和FC層的前面，而在Bert中則位于此兩層的后面。本工作所使用的預(yù)訓(xùn)練模型是ViT-B/32，在ImageNet上進(jìn)行預(yù)訓(xùn)練。

4.2 預(yù)訓(xùn)練目標(biāo)

作者使用兩個(gè)常用于訓(xùn)練VLP模型的目標(biāo)訓(xùn)練ViLT：圖像文本匹配( ITM )和掩蔽語言建模( MLM )。

ITM.圖像文本匹配。作者以0.5的概率將對(duì)齊后的圖像隨機(jī)替換為不同的圖像。單個(gè)線性層ITM頭將池化的輸出特征p投影到二進(jìn)制類上，我們計(jì)算負(fù)對(duì)數(shù)似然損失作為我們的ITM損失。

另外作者還使用基于最優(yōu)運(yùn)輸原理的此塊對(duì)齊思想，輔助ITM任務(wù)的訓(xùn)練。

MLM.掩蔽語言建模。作者在次任務(wù)中使用0.15的掩蔽概率進(jìn)行隨機(jī)掩蔽，進(jìn)行掩蔽重建任務(wù)以計(jì)算損失，其方法同Bert。

同時(shí)作者使用了不同于Bert的整詞掩蔽方式，使用視覺信息重建掩蔽詞，以加強(qiáng)模態(tài)之間的交互性。

4.3 圖像增強(qiáng)

在多模態(tài)任務(wù)中，由于圖像增強(qiáng)方法經(jīng)常會(huì)影響圖像的語義，故很少使用，比如圖片的裁剪可能會(huì)影響目標(biāo)的數(shù)量，圖像的歸一化會(huì)影響圖像本身的色彩。但圖像增強(qiáng)本身作為一個(gè)很好的增強(qiáng)模型魯棒性和泛化性的trick，故作者在微調(diào)過程中還是使用了部分不影響圖像語義的數(shù)據(jù)增強(qiáng)方法。

5 實(shí)驗(yàn)

圖4.數(shù)據(jù)集

具體的實(shí)驗(yàn)方法不在這里贅述，這里介紹一下本工作的數(shù)據(jù)集和評(píng)估效果。本工作使用了四個(gè)數(shù)據(jù)集共4M張圖片和約10M條描述用于預(yù)訓(xùn)練，如圖4所示。并在VQAv2和NLVR2上進(jìn)行評(píng)估，評(píng)估效果如下圖5-7所示。

圖5.評(píng)估結(jié)果-1

圖6.評(píng)估結(jié)果-2

圖片所展示的效果很清晰，可以看到ViLT的主要提升在Time上，大幅提升了推理速度，在分?jǐn)?shù)和效果上，ViLT并沒有因?yàn)橥评硭俣却蠓忍岣叨档停炊谀承┤蝿?wù)上有小幅度提升。

圖7.消融實(shí)驗(yàn)

圖7所示的消融實(shí)驗(yàn)探究了模型的哪些設(shè)計(jì)提升了性能，可以看到整詞掩蔽和圖像增強(qiáng)都帶來了幾個(gè)點(diǎn)的效果提升。

6 可視化效果

圖8.可視化多模態(tài)對(duì)齊展示

作者展示了ViLT的圖像可視化對(duì)齊效果，可以看到把更多了計(jì)算量分配給IM模塊時(shí)，模型會(huì)展現(xiàn)出強(qiáng)大的對(duì)齊能力。作者認(rèn)為他們?cè)赪PA任務(wù)上的設(shè)計(jì)增強(qiáng)了模型的對(duì)齊能力。

審核編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6713

瀏覽量
88300
人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46060

瀏覽量
234951
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
135

瀏覽量
5943
nlp

nlp

+關(guān)注

關(guān)注
1

文章
481

瀏覽量
21932
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2134

瀏覽量
1970

原文標(biāo)題：ViLT: 沒有卷積和區(qū)域監(jiān)督的視覺-語言Transformer模型

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

CSI工作模態(tài)分析

CSI拓?fù)銫SI開關(guān)狀態(tài)CSI工作模態(tài)分析CSI與VSI的聯(lián)系

發(fā)表于 11-15 07:38

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

發(fā)表于 05-17 17:47 ?0次下載

多文化場(chǎng)景下的多模態(tài)情感識(shí)別

自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價(jià)值．本文探討了在多文化場(chǎng)景下的多模態(tài)情感識(shí)別問題．我們從語音聲學(xué)和面部表情等模態(tài)

發(fā)表于 12-18 14:47 ?0次下載

聯(lián)想楊元慶:5G是行業(yè)智能化轉(zhuǎn)型的先導(dǎo)性技術(shù)

出， 5G是產(chǎn)業(yè)智能化變革的先導(dǎo)性技術(shù)，也推動(dòng)形成了行業(yè)智能化變革所需要的新技術(shù)架構(gòu)——“端-邊-云-網(wǎng)-智”。

發(fā)表于 02-23 17:10 ?2411次閱讀

如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用？

一個(gè)模型完成了CV，NLP方向的7個(gè)任務(wù)，每個(gè)任務(wù)上表現(xiàn)都非常好。 ? Transformer架構(gòu)在自然語言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功，但大多僅限于單個(gè)領(lǐng)域或特定的多

發(fā)表于 03-08 10:30 ?2644次閱讀

如何讓<b class='flag-5'>Transformer</b>在多種<b class='flag-5'>模態(tài)</b>下處理不同領(lǐng)域的廣泛應(yīng)用？

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會(huì)有更多的類似的paper。

發(fā)表于 03-25 09:29 ?1w次閱讀

<b class='flag-5'>Transformer</b>模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學(xué)習(xí)應(yīng)用

如何在多模態(tài)的語境中利用Transformer強(qiáng)大的表達(dá)能力？

NLPer在跨界上忙活的不亦樂乎，提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中，加大力度預(yù)訓(xùn)練，總有意想不到的SOTA。如何在多模態(tài)的語境中更細(xì)致準(zhǔn)確地利用Transf

發(fā)表于 03-29 16:47 ?3651次閱讀

多模態(tài)MR和多特征融合的GBM自動(dòng)分割算法

多模態(tài)MR和多特征融合的GBM自動(dòng)分割算法

發(fā)表于 06-27 11:45 ?32次下載

Transformer常用的輕量化方法

引言：近年來，Transformer模型在人工智能的各個(gè)領(lǐng)域得到了廣泛應(yīng)用，成為了包括計(jì)算機(jī)視覺，自然語言處理以及多模態(tài)領(lǐng)域內(nèi)的主流方法。

發(fā)表于 10-25 14:10 ?5495次閱讀

中文多模態(tài)對(duì)話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語言模型在文本對(duì)話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對(duì)話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多

發(fā)表于 02-22 11:03 ?1200次閱讀

微軟多模態(tài)ChatGPT的常見測(cè)試介紹

研究者將一個(gè)基于 Transformer 的語言模型作為通用接口，并將其與感知模塊對(duì)接。他們?cè)诰W(wǎng)頁規(guī)模的多模態(tài)語料庫上訓(xùn)練模型，語料庫包括了文本數(shù)據(jù)、任意交錯(cuò)的圖像和文本、以及圖像字幕對(duì)。

發(fā)表于 03-13 11:23 ?770次閱讀

基于視覺的多模態(tài)觸覺感知系統(tǒng)

傳統(tǒng)的多模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到多模態(tài)觸覺信息的解耦，但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性，以及需要應(yīng)對(duì)來自不同刺激間的干

發(fā)表于 10-18 11:24 ?708次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)

發(fā)表于 11-09 14:53 ?399次閱讀

成都匯陽投資關(guān)于多模態(tài)驅(qū)動(dòng)應(yīng)用前景廣闊，上游算力迎機(jī)會(huì)!

“Cloud TPU v5p”, 以及來自谷歌云的人工智能超級(jí)計(jì)算機(jī)。本次谷歌推出的多模態(tài)大模型Gemini 依然采用Transformer架構(gòu)，采用高效Attention機(jī)制，支持32k 的上下文長(zhǎng)度

發(fā)表于 12-18 13:08 ?386次閱讀

基于Transformer的多模態(tài)BEV融合方案

由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì)，將 Transformer 架構(gòu)簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題是很困難的。

發(fā)表于 01-23 11:39 ?546次閱讀