91香蕉app下载无限看,日本又色又爽又黄又高潮,熟女俱乐部五十路二区av

隨著最近幾年多模態(tài)大火的，越來(lái)越多的任務(wù)都被推陳出新為多模態(tài)版本。譬如，傳統(tǒng)對(duì)話任務(wù)，推出了考慮視覺(jué)信息的多模態(tài)數(shù)據(jù)集；事件抽取，也推出視頻形式的多模態(tài)版本；就連 grammar induction（語(yǔ)法歸納），也有了多模態(tài)版的（詳見 NAACL'2021 best paper）。

然而，多模態(tài)大火雖是最近的事情，但它并不是近兩年才有的什么新技術(shù)。如果是想要對(duì)這一領(lǐng)域有比較深的研究，甚至想要做出工作、有所創(chuàng)新，那僅僅了解多模態(tài)最近兩年幾個(gè)大火的多模態(tài)模型顯然是不足夠的。

事實(shí)上，有些任務(wù)已經(jīng)天生就是多模態(tài)很多年了。早在多模態(tài)成為焦點(diǎn)之前，就已經(jīng)默默被研究二十來(lái)年了。比如，智能文檔（Document AI）技術(shù)。所謂智能文檔技術(shù)，也就是自動(dòng)理解、分析業(yè)務(wù)文檔技術(shù)，文檔內(nèi)容可包含文字、圖片、視頻等多種形式。由于理解多模態(tài)形式的多模態(tài)形式文的需求其實(shí)廣泛長(zhǎng)期存在，所以智能文檔技術(shù)很多年來(lái)都是幾個(gè)大廠的研究重點(diǎn)之一。近年來(lái)，深度學(xué)習(xí)技術(shù)的普及也更好地推動(dòng)了例如文檔布局分析、可視化信息提取、文檔可視化問(wèn)答、文檔圖像分類等智能文檔算法的發(fā)展。近期，微軟亞研院發(fā)表了一篇綜述，簡(jiǎn)要回顧了一些有代表性的DocumentAI的模型、任務(wù)和基準(zhǔn)數(shù)據(jù)集。小編認(rèn)為這篇概述的總結(jié)體系非常扎實(shí)，是值得細(xì)細(xì)閱讀的多模態(tài)相關(guān)綜述，故與各位分享。

Document AI 發(fā)展歷程

作者概述智能文檔的發(fā)展大致經(jīng)歷了以下三個(gè)階段:

第一階段: 啟發(fā)式階段

20世紀(jì)90年代初,研究人員主要使用基于規(guī)則的啟發(fā)式(Heuristic rule-based document layout analysis)來(lái)理解和分析文檔，通過(guò)手動(dòng)觀察文檔的布局信息，從而總結(jié)出一些啟發(fā)式規(guī)則。啟發(fā)式規(guī)則方法主要使用固定的布局信息來(lái)處理文檔.方法較為固定，定制的規(guī)則可擴(kuò)展性較差,通用性較差。

基于啟發(fā)式規(guī)則的文檔的布局分析大致分為三種方式:
(1)自頂向下:文檔圖像逐步劃分到不同的區(qū)域,遞歸執(zhí)行切割直到該區(qū)域被劃分為預(yù)定義的標(biāo)準(zhǔn)，通常是塊或列。例如projection profile,采用X-Y cut算法對(duì)文檔進(jìn)行剪切,通常用于文本區(qū)域和行距固定的結(jié)構(gòu)化文本,對(duì)特定格式的文檔進(jìn)行更快、更有效的分析.但其對(duì)邊界噪聲敏感，對(duì)傾斜文本的處理效果不佳。
(2)自底向上:使用像素或組件作為基本單元,將其分組并合并成一個(gè)更大的同質(zhì)區(qū)域,自底向上方法雖然需要更多的計(jì)算資源，但更通用，可以覆蓋更多具有不同布局類型的文檔。
(3)混合策略:將自上而下和自下而上相結(jié)合，例如Okamoto & Takahashi使用分隔符和空格來(lái)切割塊，并將內(nèi)部組件進(jìn)一步合并到每個(gè)塊中的文本行中,進(jìn)而解析文檔的布局。

第二階段:機(jī)器學(xué)習(xí)階段

直到從2000年來(lái) 隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展，以機(jī)器學(xué)習(xí)模型逐漸成為文檔處理的主流方法。研究者設(shè)計(jì)功能模板以了解不同功能的權(quán)重，進(jìn)而理解和分析文檔的內(nèi)容和布局。

基于機(jī)器學(xué)習(xí)的文檔分析過(guò)程通常分為兩個(gè)階段:
1)對(duì)文檔圖像進(jìn)行分割，獲得多個(gè)候選區(qū)域;
2)對(duì)文檔區(qū)域進(jìn)行分類和區(qū)分，如文本塊和圖像。

盡管帶注釋的數(shù)據(jù)被用于監(jiān)督學(xué)習(xí)，并且以前的方法可以帶來(lái)一定程度的性能改進(jìn)，但是由于缺乏定制規(guī)則和訓(xùn)練樣本數(shù)量，通用性仍然不令人滿意。此外，不同類型文檔的遷移和適應(yīng)成本相對(duì)較高，這使得以前的方法不適合廣泛的商業(yè)應(yīng)用。

第三階段:深度學(xué)習(xí)階段

隨著深度學(xué)習(xí)的發(fā)展和大量未標(biāo)注電子文檔的積累，可以通過(guò)工具HTML/XML提取、PDF解析器、OCR等提取不同類型的文檔中的內(nèi)容，其文本內(nèi)容、布局信息和基本圖像信息等基本組織良好,然后對(duì)大規(guī)模深度神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練和微調(diào)，以完成各種下游文檔AI任務(wù).包括文檔布局分析、視覺(jué)信息提取、文檔視覺(jué)問(wèn)答和文檔圖像分類等?，F(xiàn)有的基于深度學(xué)習(xí)的智能文檔模型主要分為兩大類:

針對(duì)特定任務(wù)的深度學(xué)習(xí)模型

支持各種下游任務(wù)的通用預(yù)訓(xùn)練模型

DocumentAI的主要任務(wù)

Document AI在我們現(xiàn)實(shí)的應(yīng)用場(chǎng)景主要有以下四類任務(wù):

Document Layout Analysis

該任務(wù)主要是對(duì)文檔布局中的圖像、文本、表格、圖等位置關(guān)系進(jìn)行自動(dòng)分析、識(shí)別、理解的過(guò)程.主要分為兩個(gè)主任務(wù):Visual analysis 與Semantic analysis.Visual analysis為視覺(jué)元素的分析,主要目的是檢測(cè)文檔的結(jié)構(gòu),確定相似區(qū)域的邊界,而Semantic analysis為語(yǔ)義分析檢測(cè)區(qū)域識(shí)別特定的文檔元素,例如標(biāo)題、段落、表格等。

Visual Information Extraction

該任務(wù)從文檔中的大量非結(jié)構(gòu)化內(nèi)容中提取實(shí)體及關(guān)系.對(duì)于視覺(jué)豐富的文檔建模為計(jì)算機(jī)視覺(jué)問(wèn)題，通過(guò)語(yǔ)義分割或文本框檢測(cè)來(lái)進(jìn)行信息提取,將文檔圖像視為像素網(wǎng)格，將文本特征添加到視覺(jué)特征圖中。根據(jù)文本信息的粒度，該任務(wù)從字符級(jí)發(fā)展到單詞級(jí)，再發(fā)展到上下文級(jí)。

Document Visual Question Answering

該任務(wù)為通過(guò)判斷識(shí)別文本的內(nèi)部邏輯來(lái)回答關(guān)于文檔的自然語(yǔ)言問(wèn)題。文檔VQA中的文本信息在任務(wù)中起著至關(guān)重要的作用，現(xiàn)有的有代表性的方法都是以文檔圖像的OCR獲取的文本作為輸入。獲得文檔文本后，將VQA任務(wù)建模為不同的問(wèn)題.主流方法將其建模為機(jī)器閱讀理解(MRC)問(wèn)題,根據(jù)問(wèn)題從給定文檔中提取文本片段作為相應(yīng)的答案。

Document Image Classi?cation

該任務(wù)是對(duì)文檔圖像進(jìn)行分析和識(shí)別，并將其劃分為不同類別的過(guò)程，如科學(xué)論文、簡(jiǎn)歷、發(fā)票、收據(jù)等。最早文檔圖像分類問(wèn)題的方法與自然圖像分類方法基本一樣,例如基于CNN的文檔圖像分類方法使用經(jīng)過(guò)ImageNet訓(xùn)練的Alexnet作為初始化對(duì)文檔圖像進(jìn)行模型適配。

下圖為作者整理的四大Task的Benchmark:

Document AI 主流模型

Documents layout analysis with convolutional neural networks

文檔布局分析可以看作是對(duì)文檔圖像進(jìn)行目標(biāo)檢測(cè)的任務(wù)。將文檔中的標(biāo)題、段落、表格、圖表等基本單元是需要檢測(cè)和識(shí)別的對(duì)象。Yang等人將文檔布局分析作為像素級(jí)的分割任務(wù)，利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行像素分類，取得了較好的效果.

Visual information extraction with graph networks

對(duì)于視覺(jué)信息豐富的文檔的結(jié)構(gòu)不僅僅由文本內(nèi)容的結(jié)構(gòu)決定,與布局、排版、格式、表/圖結(jié)構(gòu)等視覺(jué)元素同樣相關(guān).例如收據(jù)、證書、保險(xiǎn)文件等.Liu等人提出的利用圖卷積神經(jīng)網(wǎng)絡(luò)建模視覺(jué)元素豐富的文檔,首先通過(guò)OCR系統(tǒng)獲得一組Text Blocks,每一個(gè)Text Block包含其在圖像中與文本內(nèi)容的坐標(biāo)信息,將其構(gòu)成一個(gè)完全連通的有向圖,即每個(gè)Text Blocks構(gòu)成一個(gè)節(jié)點(diǎn),通過(guò)Bi-LSTM獲取節(jié)點(diǎn)的初始特征,邊的初始特征是相鄰文本塊與當(dāng)前文本塊之間的相對(duì)距離以及這兩個(gè)文本塊的長(zhǎng)寬比。對(duì)“節(jié)點(diǎn)-邊緣-節(jié)點(diǎn)”三元特征集進(jìn)行卷積,實(shí)驗(yàn)表明，視覺(jué)信息發(fā)揮了主要作用，增加了文本識(shí)別相似語(yǔ)義的能力,對(duì)視覺(jué)信息也起到一定的輔助作用。

General-purpose multimodal pre-training with the transformer

文本塊的空間關(guān)系通常包含豐富的語(yǔ)義信息。例如,在表格中本塊通常以網(wǎng)格布局排列，標(biāo)題通常出現(xiàn)在第一列或第一行。不同文檔類型之間的布局不變性是通用預(yù)訓(xùn)練的一個(gè)關(guān)鍵屬性。通過(guò)預(yù)訓(xùn)練與文本自然對(duì)齊的位置信息可以為下游任務(wù)提供更豐富的語(yǔ)義信息。對(duì)于視覺(jué)信息豐富的文檔,其視覺(jué)信息如字體類型、大小、樣式等明顯的視覺(jué)差異，其可以通過(guò)視覺(jué)編碼器提取出來(lái)，結(jié)合到預(yù)訓(xùn)練階段，從而有效地改善下游任務(wù)。為了利用布局和視覺(jué)信息，2020年Xu提出通用文檔預(yù)訓(xùn)練模型LayoutLM，在已有預(yù)訓(xùn)練模型的基礎(chǔ)上，增加了2-Dposition embedding 和image embedding.首先根據(jù)OCR得到的文本邊界框得到文本在文檔中的坐標(biāo)。將對(duì)應(yīng)的坐標(biāo)轉(zhuǎn)換為虛坐標(biāo)后，模型計(jì)算出x、y、w、h四個(gè)embedding sublayers對(duì)應(yīng)的坐標(biāo)表示，最終的二維位置嵌入是四個(gè)子層的embedding之和。在imageembedding 中，模型將每個(gè)文本對(duì)應(yīng)的邊框作為Faster R-CNN,提取相應(yīng)的局部特征。特別是，由于[CLS]符號(hào)用于表示整個(gè)文檔的語(yǔ)義，因此模型還使用整個(gè)文檔的image作為image embedding以保持多模態(tài)對(duì)齊,Layout模型在三個(gè)下游任務(wù)，表單理解，票據(jù)理解，文檔圖像分類，都取得了顯著的準(zhǔn)確率提升。

LayoutLM的兩個(gè)自監(jiān)督預(yù)訓(xùn)練任務(wù)Masked Visual-Language :隨機(jī)mask除了2D postionembedding,以及其他文本的text embdedding,讓模型預(yù)測(cè)mask的 token.Task2:Multi-Label Document Classi?cation:在給定一組掃描文檔的情況下，利用文檔標(biāo)簽對(duì)訓(xùn)練前的過(guò)程進(jìn)行監(jiān)督，使模型能夠?qū)?lái)自不同領(lǐng)域的知識(shí)進(jìn)行聚類，生成更好的文檔級(jí)表示.該模型的相關(guān)實(shí)驗(yàn)表明，利用布局和視覺(jué)信息的預(yù)訓(xùn)練可以有效地轉(zhuǎn)移到下游任務(wù)中。

小結(jié)

除了這篇文章介紹的之外LayoutLM等經(jīng)典模型，最近DocumentAI的研究工作中幾個(gè)后起之秀也非常值得關(guān)注。例如LayouLM后出現(xiàn)的LayoutLMv2以及LayoutXML，將跨模態(tài)對(duì)齊的思路貫徹在模型訓(xùn)練的過(guò)程中。不僅僅利用文本和布局信息，將圖像信息也融合到文檔多模態(tài)的框架內(nèi)。除此之外，跨模態(tài)文檔理解模型ERINE-Layout，提出閱讀順序預(yù)測(cè)和細(xì)粒度圖文匹配兩個(gè)與訓(xùn)練任務(wù)，除了跨模態(tài)予以對(duì)齊能力外，增加了布局理解能力。我們可以看到，在預(yù)訓(xùn)練時(shí)代下，DocumentAI正在逐漸向“多模態(tài)文檔理解”方向前進(jìn)，從模態(tài)之間的對(duì)齊到預(yù)測(cè)，DocumentAI將會(huì)怎樣找尋可以建模的更多元素，挖掘視覺(jué)與文本、布局之間的精細(xì)關(guān)系，變得更加值得期待了。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48359
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131843
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24538

原文標(biāo)題：MSRA-萬(wàn)字綜述直擊多模態(tài)文檔理解

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測(cè)試（MTEB）涵蓋 56 項(xiàng)嵌入任務(wù)。

發(fā)表于 08-23 16:54 ?1797次閱讀

NVIDIA文本嵌入<b class='flag-5'>模型</b>NV-Embed的精度<b class='flag-5'>基準(zhǔn)</b>

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

在知識(shí)獲取、邏輯推理、代碼生成等方面的能力。這些評(píng)測(cè)基準(zhǔn)包括語(yǔ)言建模能力、綜合知識(shí)能力、數(shù)學(xué)計(jì)算能力、代碼能力和垂直領(lǐng)域等多個(gè)維度。對(duì)于微調(diào)模型，對(duì)話能力的評(píng)測(cè)關(guān)注模型在對(duì)話任務(wù)中的全

發(fā)表于 05-07 17:12

請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)集該如何構(gòu)建？

我想用NanoEdge來(lái)識(shí)別異常的聲音，但我目前沒(méi)有辦法生成模型，我感覺(jué)可能是數(shù)據(jù)集的問(wèn)題，請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)集？或者生成

發(fā)表于 05-28 07:27

高階API構(gòu)建模型和數(shù)據(jù)集使用

了TensorFlow2.0Beta版本，同pytorch一樣支持動(dòng)態(tài)執(zhí)行(TensorFlow2.0默認(rèn)eager模式，無(wú)需啟動(dòng)會(huì)話執(zhí)行計(jì)算圖)，同時(shí)刪除了雜亂低階API，使用高階API簡(jiǎn)單地構(gòu)建復(fù)雜神經(jīng)網(wǎng)絡(luò)模型，本文主要分享用高階API構(gòu)建模型和

發(fā)表于 11-04 07:49

一個(gè)深度學(xué)習(xí)模型能完成幾項(xiàng)NLP任務(wù)？

對(duì)于機(jī)器翻譯、文本摘要、Q&A、文本分類等自然語(yǔ)言處理任務(wù)來(lái)說(shuō)，深度學(xué)習(xí)的出現(xiàn)一遍遍刷新了state-of-the-art的模型性能記錄，給研究帶來(lái)諸多驚喜。但這些任務(wù)一般都有各自的度量基準(zhǔn)

發(fā)表于 06-26 15:19 ?4463次閱讀

Google發(fā)布用于訓(xùn)練通用智能助理的架構(gòu)數(shù)據(jù)集

為了滿足智能助理需要執(zhí)行越來(lái)越多復(fù)雜任務(wù)的需求，Google發(fā)布了最新的架構(gòu)引導(dǎo)對(duì)話（Schema-Guided Dialogue，SGD）數(shù)據(jù)集，以擴(kuò)展智能助理模型，使其有能力處理多

發(fā)表于 10-31 17:05 ?2303次閱讀

基于不均衡醫(yī)學(xué)數(shù)據(jù)集的疾病預(yù)測(cè)模型

基于不均衡醫(yī)學(xué)數(shù)據(jù)集的疾病預(yù)測(cè)模型

發(fā)表于 06-15 14:15 ?9次下載

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語(yǔ)言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來(lái)引起了人們的極大興趣，但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來(lái)測(cè)試大語(yǔ)言模型

發(fā)表于 06-20 15:39 ?1626次閱讀

大模型如何快速構(gòu)建指令遵循數(shù)據(jù)集

：instruction-tuned方法是指利用非常多的指令數(shù)據(jù)【人類instructions指令和respond回答數(shù)據(jù)】去finetuned LLM模型，讓模型能夠理解人類指令，訓(xùn)

發(fā)表于 06-27 16:56 ?2544次閱讀

如何構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)集

構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)集是訓(xùn)練強(qiáng)大自然語(yǔ)言處理模型的關(guān)鍵一步。以下是一些關(guān)鍵步驟和考慮因素，有助于創(chuàng)建具有多樣性、準(zhǔn)確性和時(shí)效性的數(shù)據(jù)

發(fā)表于 09-11 17:00 ?1288次閱讀

MS-COCO數(shù)據(jù)集的可靠嗎？

視覺(jué)數(shù)據(jù)集通常用于分類、檢測(cè)和分割等任務(wù)的算法基準(zhǔn)測(cè)試或大型神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練。然而，這存在一個(gè)問(wèn)題，那就是實(shí)際的目標(biāo)并不總是與數(shù)據(jù)集中提供的

發(fā)表于 11-21 11:19 ?540次閱讀

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來(lái)趨勢(shì)

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個(gè)領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集，為模型

發(fā)表于 12-06 15:28 ?1228次閱讀

大模型數(shù)據(jù)集：突破邊界，探索未來(lái)

隨著人工智能技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在自然語(yǔ)言處理領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集，為模型

發(fā)表于 12-06 16:10 ?515次閱讀

大模型數(shù)據(jù)集：力量的源泉，進(jìn)步的階梯

一、引言在? ? 的繁榮發(fā)展中，大模型數(shù)據(jù)集的作用日益凸顯。它們?nèi)琮嫶蟮闹R(shí)庫(kù)，為AI提供了豐富的信息和理解能力。本文將用一種獨(dú)特的風(fēng)格來(lái)探討大模型

發(fā)表于 12-07 17:18 ?526次閱讀

大模型數(shù)據(jù)集：揭秘AI背后的魔法世界

一、引言在人工智能的奇幻世界中，大模型數(shù)據(jù)集如同神秘的魔法書，蘊(yùn)藏著無(wú)盡的智慧與力量。它們?yōu)锳I注入了生命，使其具備了理解和改變世界的能力。今天，就讓我們一起揭開大模型

發(fā)表于 12-07 17:33 ?442次閱讀