人成视频永久免费播放,欧美日韩免费专区在线

引言

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)非常重要的基礎(chǔ)任務(wù)，與常見的的圖像分類/識(shí)別任務(wù)不同，目標(biāo)檢測(cè)需要模型在給出目標(biāo)的類別之上，進(jìn)一步給出目標(biāo)的位置和大小信息，在 CV三大任務(wù)（識(shí)別、檢測(cè)、分割）中處于承上啟下的關(guān)鍵地位。當(dāng)前大火的多模態(tài) GPT4在視覺能力上只具備目標(biāo)識(shí)別的能力，還無法完成更高難度的目標(biāo)檢測(cè)任務(wù)。而識(shí)別出圖像或視頻中物體的類別、位置和大小信息，是現(xiàn)實(shí)生產(chǎn)中眾多人工智能應(yīng)用的關(guān)鍵，例如自動(dòng)駕駛中的行人車輛識(shí)別、安防監(jiān)控應(yīng)用中的人臉鎖定、醫(yī)學(xué)圖像分析中的腫瘤定位等等。

已有的目標(biāo)檢測(cè)方法如 YOLO系列、R-CNN系列等耳熟能詳?shù)哪繕?biāo)檢測(cè)算法在科研人員的不斷努力下已經(jīng)具備很高的目標(biāo)檢測(cè)精度與效率，但由于現(xiàn)有方法需要在模型訓(xùn)練前就定義好待檢測(cè)目標(biāo)的集合（閉集），導(dǎo)致它們無法檢測(cè)訓(xùn)練集合之外的目標(biāo)，比如一個(gè)被訓(xùn)練用于檢測(cè)人臉的模型就不能用于檢測(cè)車輛；另外，現(xiàn)有方法高度依賴人工標(biāo)注的數(shù)據(jù)，當(dāng)需要增加或者修改待檢測(cè)的目標(biāo)類別時(shí)，一方面需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重新標(biāo)注，另一方面需要對(duì)模型進(jìn)行重新訓(xùn)練，既費(fèi)時(shí)又費(fèi)力。一個(gè)可能的解決方案是，收集海量的圖像，并人工標(biāo)注Box信息與語義信息，但這將需要極高的標(biāo)注成本，而且使用海量數(shù)據(jù)對(duì)檢測(cè)模型進(jìn)行訓(xùn)練也對(duì)科研工作者提出了嚴(yán)峻的挑戰(zhàn)，如數(shù)據(jù)的長尾分布問題與人工標(biāo)注的質(zhì)量不穩(wěn)定等因素都將影響檢測(cè)模型的性能表現(xiàn)。

發(fā)表于 CVPR2021的文章 OVR-CNN［1］提出了一種全新的目標(biāo)檢測(cè)范式：開放詞集目標(biāo)檢測(cè)（Open-Vocabulary Detection，OVD，亦稱為開放世界目標(biāo)檢測(cè)），來應(yīng)對(duì)上文提到的問題，即面向開放世界未知物體的檢測(cè)場(chǎng)景。OVD由于能夠在無需人工擴(kuò)充標(biāo)注數(shù)據(jù)量的情形下識(shí)別并定位任意數(shù)量和類別目標(biāo)的能力，自提出后吸引了學(xué)術(shù)界與工業(yè)界持續(xù)增長的關(guān)注，也為經(jīng)典的目標(biāo)檢測(cè)任務(wù)帶來了新的活力與新的挑戰(zhàn)，有望成為目標(biāo)檢測(cè)的未來新范式。具體地，OVD技術(shù)不需要人工標(biāo)注海量的圖片來增強(qiáng)檢測(cè)模型對(duì)未知類別的檢測(cè)能力，而是通過將具有良好泛化性的無類別（class-agnostic）區(qū)域檢測(cè)器與經(jīng)過海量無標(biāo)注數(shù)據(jù)訓(xùn)練的跨模態(tài)模型相結(jié)合，通過圖像區(qū)域特征與待檢測(cè)目標(biāo)的描述性文字進(jìn)行跨模態(tài)對(duì)齊來擴(kuò)展目標(biāo)檢測(cè)模型對(duì)開放世界目標(biāo)的理解能力?？缒B(tài)和多模態(tài)大模型工作近期的發(fā)展非常迅速，如 CLIP［2］、ALIGN［3］與R2D2［4］（鏈接：https://github.com/yuxie11/R2D2）等，而它們的發(fā)展也促進(jìn)了 OVD的誕生與 OVD領(lǐng)域相關(guān)工作的快速迭代與進(jìn)化。

OVD技術(shù)涉及兩大關(guān)鍵問題的解決：1）如何提升區(qū)域（Region）信息與跨模態(tài)大模型之間的適配；2）如何提升泛類別目標(biāo)檢測(cè)器對(duì)新類別的泛化能力。從這個(gè)兩個(gè)角度出發(fā)，下文我們將詳細(xì)介紹一些 OVD領(lǐng)域的相關(guān)工作。

OVD基本流程示意［1］

OVD的基礎(chǔ)概念：OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場(chǎng)景，few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別，zero-shot則是指不存在任何人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別。在常用的學(xué)術(shù)評(píng)測(cè)數(shù)據(jù)集 COCO、LVIS上，數(shù)據(jù)集會(huì)被劃分為 Base類和 Novel類，其中Base類對(duì)應(yīng) few-shot場(chǎng)景，Novel類對(duì)應(yīng) zero-shot場(chǎng)景。如 COCO數(shù)據(jù)集包含65種類別，常用的評(píng)測(cè)設(shè)定是 Base集包含48種類別，few-shot訓(xùn)練中只使用該48個(gè)類別。Novel集包含17種類別，在訓(xùn)練時(shí)完全不可見。測(cè)試指標(biāo)主要參考 Novel類的 AP50數(shù)值進(jìn)行比較。

Open-Vocabulary Object Detection Using Captions

論文地址：https://arxiv.org/pdf/2011.10678.pdf

代碼地址：https://github.com/alirezazareian/ovr-cnn

OVR-CNN是 CVPR2021的 Oral-Paper，也是 OVD領(lǐng)域的開山之作。它的二階段訓(xùn)練范式，影響了后續(xù)很多的 OVD工作。如下圖所示，第一階段主要使用 image-caption pairs對(duì)視覺編碼器進(jìn)行預(yù)訓(xùn)練，其中借助 BERT（參數(shù)固定）來生成詞掩碼，并與加載 ImageNet預(yù)訓(xùn)練權(quán)重的 ResNet50進(jìn)行弱監(jiān)督的 Grounding匹配，作者認(rèn)為弱監(jiān)督會(huì)讓匹配陷入局部最優(yōu)，于是加入多模態(tài) Transformer進(jìn)行詞掩碼預(yù)測(cè)來增加魯棒性。

第二階段的訓(xùn)練流程與 Faster-RCNN類似，區(qū)別點(diǎn)在于，特征提取的 Backbone來自于第一階段預(yù)訓(xùn)練得到的 ResNet50的1-3層，RPN后依然使用 ResNet50的第四層進(jìn)行特征加工，隨后將特征分別用于 Box回歸與分類預(yù)測(cè)。分類預(yù)測(cè)是 OVD任務(wù)區(qū)別于常規(guī)檢測(cè)的關(guān)鍵標(biāo)志，OVR-CNN中將特征輸入一階段訓(xùn)練得到的 V2L模塊（參數(shù)固定的圖向量轉(zhuǎn)詞向量模塊）得到一個(gè)圖文向量，隨后與標(biāo)簽詞向量組進(jìn)行匹配，對(duì)類別進(jìn)行預(yù)測(cè)。在二階段訓(xùn)練中，主要使用 Base類對(duì)檢測(cè)器模型進(jìn)行框回歸訓(xùn)練與類別匹配訓(xùn)練。由于 V2L模塊始終固定，配合目標(biāo)檢測(cè)模型定位能力向新類別遷移，使得檢測(cè)模型能夠識(shí)別并定位到全新類別的目標(biāo)。

如下圖所示，OVR-CNN在 COCO數(shù)據(jù)集上的表現(xiàn)遠(yuǎn)超之前的 Zero-shot目標(biāo)檢測(cè)算法。

RegionCLIP： Region-based Language-Image Pretraining

論文地址：https://arxiv.org/abs/2112.09106

代碼地址：https://github.com/microsoft/RegionCLIP

OVR-CNN中使用 BERT與多模態(tài) Transfomer進(jìn)行 iamge-text pairs預(yù)訓(xùn)練，但隨著跨模態(tài)大模型研究的興起，科研工作者開始利用 CLIP，ALIGN等更強(qiáng)力的跨模態(tài)大模型對(duì) OVD任務(wù)進(jìn)行訓(xùn)練。檢測(cè)器模型本身主要針對(duì) Proposals，即區(qū)域信息進(jìn)行分類識(shí)別，發(fā)表于 CVPR2022的 RegionCLIP［5］發(fā)現(xiàn)當(dāng)前已有的大模型，如 CLIP，對(duì)裁剪區(qū)域的分類能力遠(yuǎn)低于對(duì)原圖本身的分類能力，為了改進(jìn)這一點(diǎn)，RegionCLIP提出了一個(gè)全新的兩階段 OVD方案。

第一階段，數(shù)據(jù)集主要使用 CC3M，COCO-caption等圖文匹配數(shù)據(jù)集進(jìn)行區(qū)域級(jí)別的蒸餾預(yù)訓(xùn)練。具體地，

將原先存在于長文本中的詞匯進(jìn)行提取，組成Concept Pool，進(jìn)一步形成一組關(guān)于Region的簡單描述，用于訓(xùn)練。

利用基于LVIS預(yù)訓(xùn)練的RPN提取Proposal Regions，并利用原始CLIP對(duì)提取到的不同Region與準(zhǔn)備好的描述進(jìn)行匹配分類，并進(jìn)一步組裝成偽造的語義標(biāo)簽。

將準(zhǔn)備好的Proposal Regions與語義標(biāo)簽在新的CLIP模型上進(jìn)行Region-text對(duì)比學(xué)習(xí)，進(jìn)而得到一個(gè)專精于Region信息的CLIP模型。

在預(yù)訓(xùn)練中，新的CLIP模型還會(huì)通過蒸餾策略學(xué)習(xí)原始CLIP的分類能力，以及進(jìn)行全圖級(jí)別的image-text對(duì)比學(xué)習(xí)，來維持新的CLIP模型對(duì)完整圖像的表達(dá)能力。

第二階段，將得到的預(yù)訓(xùn)練模型在檢測(cè)模型上進(jìn)行遷移學(xué)習(xí)。

RegionCLIP進(jìn)一步拓展了已有跨模態(tài)大模型在常規(guī)檢測(cè)模型上的表征能力，進(jìn)而取得了更加出色的性能，如下圖所示，RegionCLIP相比 OVR-CNN在 Novel類別上取得了較大提升。RegionCLIP通過一階段的預(yù)訓(xùn)練有效地的提升了區(qū)域（Region）信息與多模態(tài)大模型之間的適應(yīng)能力，但 CORA認(rèn)為其使用更大參數(shù)規(guī)模的跨模態(tài)大模型進(jìn)行一階段訓(xùn)練時(shí)，訓(xùn)練成本將會(huì)非常高昂。

CORA： Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

論文地址：https://arxiv.org/abs/2303.13076

代碼地址：https://github.com/tgxs002/CORA

CORA［6］已被收錄于 CVPR2023，為了克服其所提出當(dāng)前 OVD任務(wù)所面臨的兩個(gè)阻礙，設(shè)計(jì)了一個(gè)類 DETR的OVD模型。如其文章標(biāo)題所示，該模型中主要包含了 Region Prompting與 Anchor Pre-Matching兩個(gè)策略。前者通過 Prompt技術(shù)來優(yōu)化基于 CLIP的區(qū)域分類器所提取的區(qū)域特征，進(jìn)而緩解整體與區(qū)域的分布差距，后者通過 DETR檢測(cè)方法中的錨點(diǎn)預(yù)匹配策略來提升 OVD模型對(duì)新類別物體定位能力的泛化性。

CLIP 原始視覺編碼器的整體圖像特征與區(qū)域特征之間存在分布差距，進(jìn)而導(dǎo)致檢測(cè)器的分類精度較低（這一點(diǎn)與 RegionCLIP的出發(fā)點(diǎn)類似）。因此，CORA提出 Region Prompting來適應(yīng) CLIP圖像編碼器，提高對(duì)區(qū)域信息的分類性能。具體地，首先通過 CLIP編碼器的前3層將整幅圖像編碼成一個(gè)特征映射，然后由 RoI Align生成錨點(diǎn)框或預(yù)測(cè)框，并將其合并成區(qū)域特征。隨后由 CLIP 圖像編碼器的第四層進(jìn)行編碼。為了緩解 CLIP 圖像編碼器的全圖特征圖與區(qū)域特征之間存在分布差距，設(shè)置了可學(xué)習(xí)的 Region Prompts并與第四層輸出的特征進(jìn)行組合，進(jìn)而生成最終的區(qū)域特征用來與文本特征進(jìn)行匹配，匹配損失使用了樸素的交叉熵?fù)p失，且訓(xùn)練過程中與 CLIP相關(guān)的參數(shù)模型全都凍結(jié)。

CORA是一個(gè)類 DETR的檢測(cè)器模型，類似于 DETR，其也使用了錨點(diǎn)預(yù)匹配策略來提前生成候選框用于框回歸訓(xùn)練。具體來說，錨點(diǎn)預(yù)匹配是將每個(gè)標(biāo)簽框與最接近的一組錨點(diǎn)框進(jìn)行匹配，以確定哪些錨點(diǎn)框應(yīng)該被視為正樣本，哪些應(yīng)該被視為負(fù)樣本。這個(gè)匹配過程通常是基于 IoU（交并比）進(jìn)行的，如果錨點(diǎn)框與標(biāo)簽框的 IoU 超過一個(gè)預(yù)定義的閾值，則將其視為正樣本，否則將其視為負(fù)樣本。CORA表明該策略能夠有效提高對(duì)新類別定位能力的泛化性。

但是使用錨點(diǎn)預(yù)匹配機(jī)制也會(huì)帶來一些問題，比如只有在至少有一個(gè)錨點(diǎn)框與標(biāo)簽框形成匹配時(shí)，才可正常進(jìn)行訓(xùn)練。否則，該標(biāo)簽框?qū)⒈缓雎?，同時(shí)阻礙模型的收斂。進(jìn)一步，即使標(biāo)簽框獲得了較為準(zhǔn)確的錨點(diǎn)框，由于Region Classifier的識(shí)別精度有限，進(jìn)而導(dǎo)致該標(biāo)簽框仍可能被忽略，即標(biāo)簽框?qū)?yīng)的類別信息沒有與基于CLIP訓(xùn)練的Region Classifier形成對(duì)齊。因此，CORA用CLIP-Aligned技術(shù)利用CLIP的語義識(shí)別能力，與預(yù)訓(xùn)練ROI的定位能力，在較少人力情形下對(duì)訓(xùn)練數(shù)據(jù)集的圖像進(jìn)行重新標(biāo)注，使用這種技術(shù)，可以讓模型在訓(xùn)練中匹配更多的標(biāo)簽框。

相比于RegionCLIP，CORA在COCO數(shù)據(jù)集上進(jìn)一步提升了2.4的AP50數(shù)值。

360人工智能研究院在OVD技術(shù)上的實(shí)踐

OVD技術(shù)不僅與當(dāng)前流行的跨/多模態(tài)大模型的發(fā)展緊密聯(lián)系，同時(shí)也承接了過去科研工作者對(duì)目標(biāo)檢測(cè)領(lǐng)域的技術(shù)耕耘，是傳統(tǒng)AI技術(shù)與面向通用AI能力研究的一次成功銜接。OVD更是一項(xiàng)面向未來的全新目標(biāo)檢測(cè)技術(shù)，可以預(yù)料到的是，OVD可以檢測(cè)并定位任意目標(biāo)的能力，也將反過來推進(jìn)多模態(tài)大模型的進(jìn)一步發(fā)展，有希望成為多模態(tài)AGI發(fā)展中的重要基石。

360 人工智能研究院近年來的研發(fā)重點(diǎn)包括：21年跨模態(tài)方向，22年OVD和視頻分析方向，23年AIGC和多模態(tài)大模型方向。在底層海量圖文數(shù)據(jù)及多模態(tài)方向長期技術(shù)積累的加持下，360人工智能研究院自研OVD大模型，目前已在互聯(lián)網(wǎng)、智能硬件等業(yè)務(wù)中落地，在長尾目標(biāo)檢測(cè)、巡店、看護(hù)、設(shè)備巡檢等場(chǎng)景中實(shí)現(xiàn)廣泛應(yīng)用。未來我們計(jì)劃將OVD與多模態(tài)大模型MLLM相結(jié)合，賦予LLM在基礎(chǔ)的視覺能力之外更為重要的開放世界目標(biāo)檢測(cè)能力，讓多模態(tài)大模型的能力向通用人工智能更近一步。

號(hào)外

為了推動(dòng)OVD研究在國內(nèi)的普及和發(fā)展，360人工智能研究院聯(lián)合中國圖象圖形學(xué)學(xué)會(huì)舉辦了2023開放世界目標(biāo)檢測(cè)競(jìng)賽（鏈接：https://360cvgroup.github.io/OVD_Contest/），目前競(jìng)賽正在火熱報(bào)名中。競(jìng)賽可以幫助大家找到OVD方向的研究同好，與他們切磋交流，并能接觸實(shí)際業(yè)務(wù)場(chǎng)景數(shù)據(jù)，體驗(yàn)OVD技術(shù)在實(shí)際生產(chǎn)中的優(yōu)勢(shì)與魅力，歡迎報(bào)名和轉(zhuǎn)發(fā)。

360人工智能研究院簡介：360人工智能研究院隸屬于360技術(shù)中臺(tái)。自2015年成立以來積累了大量人工智能與機(jī)器學(xué)習(xí)前沿能力，范圍包括但不限于自然語言理解、機(jī)器視覺與運(yùn)動(dòng)、語音語義交互等方面，技術(shù)水平行業(yè)領(lǐng)先，核心成員和團(tuán)隊(duì)多次榮獲AI相關(guān)比賽冠軍/提名獎(jiǎng)項(xiàng)，發(fā)表頂會(huì)、頂刊論文數(shù)十篇。業(yè)務(wù)落地方面，研究院提供智能安全大數(shù)據(jù)、互聯(lián)網(wǎng)信息分發(fā)、企業(yè)數(shù)字化、AIoT、智能汽車等360集團(tuán)全量業(yè)務(wù)場(chǎng)景支持，支持千萬級(jí)硬件設(shè)備，億級(jí)用戶，產(chǎn)生千億規(guī)模數(shù)據(jù)量。2023年著重攻堅(jiān)大語言模型、CV大模型和多模態(tài)大模型，為360集團(tuán)和行業(yè) AIGC技術(shù)發(fā)展應(yīng)用提供底層技術(shù)支撐。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4552

瀏覽量
92020
目標(biāo)檢測(cè)

目標(biāo)檢測(cè)

+關(guān)注

關(guān)注
0

文章
196

瀏覽量
15564
Agi

Agi

+關(guān)注

關(guān)注
0

文章
71

瀏覽量
10156

原文標(biāo)題：邁向多模態(tài)AGI之開放世界目標(biāo)檢測(cè)

文章出處：【微信號(hào)：AI科技大本營，微信公眾號(hào)：AI科技大本營】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

發(fā)表于 05-17 17:47 ?0次下載

多文化場(chǎng)景下的多模態(tài)情感識(shí)別

自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價(jià)值．本文探討了在多文化場(chǎng)景下的多模態(tài)情感識(shí)別問題．我們從語音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制

發(fā)表于 12-18 14:47 ?0次下載

基于聯(lián)合壓縮感知的多模態(tài)目標(biāo)統(tǒng)一跟蹤方法

針對(duì)多模態(tài)目標(biāo)跟蹤中大多僅考慮單個(gè)圖像的異種特征融合或不同模態(tài)圖像的同種特征融合，為了使得這兩者間能自然集成，提出基于聯(lián)合壓縮感知的多

發(fā)表于 04-27 15:59 ?0次下載

基于聯(lián)合壓縮感知的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>目標(biāo)</b>統(tǒng)一跟蹤方法

多尺度卷積特征融合的SSD目標(biāo)檢測(cè)

提岀了一種改進(jìn)的多尺度卷積特征目標(biāo)檢測(cè)方法，用以提高SSD（ single shot multibox detector）模型對(duì)中目標(biāo)和小目標(biāo)

發(fā)表于 06-11 16:21 ?11次下載

多模態(tài)MR和多特征融合的GBM自動(dòng)分割算法

多模態(tài)MR和多特征融合的GBM自動(dòng)分割算法

發(fā)表于 06-27 11:45 ?32次下載

中文多模態(tài)對(duì)話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語言模型在文本對(duì)話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對(duì)話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多

發(fā)表于 02-22 11:03 ?1201次閱讀

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)

發(fā)表于 05-11 17:09 ?811次閱讀

邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

LLM 與通用人工智能（AGI）之間仍存在顯著差距。首先，大多數(shù)當(dāng)前 LLM 只能感知和理解多模態(tài)內(nèi)容，而不能自然而然地生成多模態(tài)內(nèi)容。其

發(fā)表于 05-22 14:38 ?577次閱讀

自動(dòng)駕駛深度多模態(tài)目標(biāo)檢測(cè)和語義分割:數(shù)據(jù)集、方法和挑戰(zhàn)

了許多解決深度多模態(tài)感知問題的方法。然而，對(duì)于網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)，并沒有通用的指導(dǎo)方針，關(guān)于“融合什么”、“何時(shí)融合”和“如何融合”的問題仍然沒有定論。本文系統(tǒng)地總結(jié)了自動(dòng)駕駛中深度多模態(tài)

發(fā)表于 06-06 10:37 ?0次下載

VisCPM：邁向多語言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（

發(fā)表于 07-10 10:05 ?638次閱讀

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對(duì)多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型 Flamingo ，它使用單一視覺語言模型處理多項(xiàng)任務(wù)，在

發(fā)表于 07-16 20:45 ?614次閱讀

GPT-4只是AGI的火花？LLM終將退場(chǎng)，世界模型才是未來

導(dǎo)讀人類距離AGI還有多遠(yuǎn)？也許大語言模型不是最終答案，一個(gè)理解世界的模型才是未來的方向。在人類的認(rèn)知之中，似乎早已習(xí)慣將通用人工智能（AGI）設(shè)定為人工智能的終極形態(tài)和發(fā)展的最終目標(biāo)

發(fā)表于 08-18 08:30 ?478次閱讀

基于多模態(tài)學(xué)習(xí)的虛假新聞檢測(cè)研究

目前，單流架構(gòu)模型在視頻分類、情感分析、圖像生成等多模態(tài)領(lǐng)域中得以廣泛應(yīng)用，單流模型具有結(jié)構(gòu)簡單、容易實(shí)現(xiàn)、高準(zhǔn)確率等優(yōu)勢(shì)，在虛假新聞檢測(cè)領(lǐng)域中，是一個(gè)極具潛力的研究方向。

發(fā)表于 09-11 16:26 ?1879次閱讀

人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代多模態(tài)大模型Awaker 1.0，這一里程碑式的成果標(biāo)志著公司在通用人工智能（AGI）領(lǐng)域取得了重要突破。與前代ChatImg序列模型相比，Awaker 1.0憑借其獨(dú)特的MOE架構(gòu)和業(yè)

發(fā)表于 05-06 09:59 ?471次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多

發(fā)表于 08-27 15:20 ?257次閱讀