0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

StrucTexTv2:端到端文檔圖像理解預(yù)訓(xùn)練框架

CVer ? 來(lái)源:CSIG文檔圖像分析與識(shí)別專 ? 2023-04-10 11:29 ? 次閱讀

本文簡(jiǎn)要介紹ICLR 2023錄用論文“StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training”的主要工作。針對(duì)當(dāng)前主流多模態(tài)文檔理解預(yù)訓(xùn)練模型需要同時(shí)輸入文檔圖像和OCR結(jié)果,導(dǎo)致欠缺端到端的表達(dá)能力且推理效率偏低等問(wèn)題,論文提出了一種全新的端到端文檔圖像多模態(tài)表征學(xué)習(xí)預(yù)訓(xùn)練框架StrucTexTv2。該框架設(shè)計(jì)了一種基于詞粒度圖像區(qū)域掩碼、多模態(tài)自監(jiān)督預(yù)訓(xùn)練任務(wù)(MIM+MLM),僅需要圖像單模態(tài)輸入,使得編碼器網(wǎng)絡(luò)能在大規(guī)模無(wú)標(biāo)注文檔圖像上充分學(xué)習(xí)視覺(jué)和語(yǔ)言聯(lián)合特征表達(dá),并在多個(gè)下游任務(wù)的公開(kāi)基準(zhǔn)上取得SOTA效果。

一、研究背景

視覺(jué)富文檔理解技術(shù)例如文檔分類、版式分析、表單理解、OCR以及信息提取,逐漸成為文檔智能領(lǐng)域一個(gè)熱門研究課題。為了有效處理這些任務(wù),前沿的方法大多利用視覺(jué)和文本線索,將圖像、文本、布局等信息輸入到參數(shù)網(wǎng)絡(luò),并基于大規(guī)模數(shù)據(jù)上的自監(jiān)督預(yù)訓(xùn)練挖掘出文檔的多模態(tài)特征。由于視覺(jué)和語(yǔ)言之間的模態(tài)差異較大,如圖1所示,主流的文檔理解預(yù)訓(xùn)練方法大致可分為兩類:a)掩碼語(yǔ)言建模(Masked Language Modeling)[9],對(duì)輸入的掩碼文本Token進(jìn)行語(yǔ)言建模,運(yùn)行時(shí)文本的獲取依賴于OCR引擎,整個(gè)系統(tǒng)的性能提升需要對(duì)OCR引擎和文檔理解模型兩個(gè)部件進(jìn)行同步優(yōu)化;b)掩碼圖像建模(Masked Image Modeling)[10],對(duì)輸入的掩碼圖像塊區(qū)進(jìn)行像素重建,此類方法傾向應(yīng)用于圖像分類和版式分析等任務(wù)上,對(duì)文檔強(qiáng)語(yǔ)義理解能力欠佳。針對(duì)上述兩種預(yù)訓(xùn)練方案呈現(xiàn)的瓶頸,本文提出了StrucTexTv2:c)統(tǒng)一圖像重建與語(yǔ)言建模方式,在大規(guī)模文檔圖像上學(xué)習(xí)視覺(jué)和語(yǔ)言聯(lián)合特征表達(dá)。

b763a806-d6f2-11ed-bfe3-dac502259ad0.png

圖1 主流文檔圖像理解預(yù)訓(xùn)練框架比較

二、方法原理簡(jiǎn)述

b78e650a-d6f2-11ed-bfe3-dac502259ad0.png

圖2 整體框架圖

圖2描繪了StrucTexTv2的整體框架,主要包含編碼器網(wǎng)絡(luò)和預(yù)訓(xùn)練任務(wù)分支兩部分。編碼器網(wǎng)絡(luò),主要通過(guò)FPN結(jié)構(gòu)串聯(lián)CNN組件和Transformer組件構(gòu)成;預(yù)訓(xùn)練分支則包含了掩碼語(yǔ)言建模(MLM)和掩碼圖像建模(MIM)雙預(yù)訓(xùn)練任務(wù)頭。

2.1 編碼器網(wǎng)絡(luò)

StrucTexTv2采用CNN和Transformer的串聯(lián)編碼器來(lái)提取文檔圖像的視覺(jué)和語(yǔ)義特征。文檔圖像首先經(jīng)過(guò)ResNet網(wǎng)絡(luò)以獲取1/4到1/32的四個(gè)不同尺度的特征圖。隨后采用一個(gè)標(biāo)準(zhǔn)的Transformer網(wǎng)絡(luò)接收最小尺度的特征圖并加上1D位置編碼向量,提取出包含全局上下文的語(yǔ)義特征。該特征被重新轉(zhuǎn)化為2D形態(tài)后,與CNN的其余三個(gè)尺度特征圖通過(guò)FPN[6]融合成4倍下采樣的特征圖,作為整圖的多模態(tài)特征表示。

2.2 預(yù)訓(xùn)練策略

為了統(tǒng)一建模MLM和MIM兩種模態(tài)預(yù)訓(xùn)練方式,論文提出了一種基于詞粒度圖像區(qū)域掩碼預(yù)測(cè)方式來(lái)學(xué)習(xí)視覺(jué)和語(yǔ)言聯(lián)合特征表達(dá)。首先,隨機(jī)篩選30%的詞粒度OCR預(yù)測(cè)結(jié)果(僅在預(yù)訓(xùn)練階段使用),根據(jù)OCR的位置信息直接在原圖對(duì)應(yīng)位置像素進(jìn)行掩碼操作(比如填充0值)。接著,掩碼后的文檔圖像直接送入編碼器網(wǎng)絡(luò)去獲得整圖的多模態(tài)特征表示。最后,再次根據(jù)選中的OCR位置信息,采用ROIAlign[11]操作去獲得每個(gè)掩碼區(qū)域的多模態(tài)ROI特征。

掩碼語(yǔ)言建模:借鑒于BERT[9]構(gòu)建的掩碼語(yǔ)言模型思路,語(yǔ)言建模分支使用一個(gè)2層的MLP將詞區(qū)域的ROI特征映射到預(yù)定義的詞表類別上,使用Cross Entropy Loss監(jiān)督。同時(shí)為了避免使用詞表對(duì)文本序列進(jìn)行標(biāo)記化時(shí)單個(gè)詞組被拆分成多個(gè)子詞導(dǎo)致的一對(duì)多匹配問(wèn)題,論文使用分詞后每個(gè)單詞的首個(gè)子詞作為分類標(biāo)簽。此設(shè)計(jì)帶來(lái)的優(yōu)勢(shì)是:StrucTexTv2的語(yǔ)言建模無(wú)需文本作為輸入。

掩碼圖像建模:考慮到基于圖像Patch的掩碼重建在文檔預(yù)訓(xùn)練中展現(xiàn)出一定的潛力,但Patch粒度的特征表示難以恢復(fù)文本細(xì)節(jié)。因此,論文將詞粒度掩碼同時(shí)用作圖像重建,即預(yù)測(cè)被掩碼區(qū)域的原始像素值。詞區(qū)域的ROI特征首先通過(guò)一個(gè)全局池化操作被壓縮成特征向量。其次,為了提升圖像重建的視覺(jué)效果,論文將通過(guò)語(yǔ)言建模后的概率特征與池化特征進(jìn)行拼接,為圖像建模引入“Content”信息,使得圖像預(yù)訓(xùn)練專注于復(fù)原文本區(qū)域的“Style”部分。圖像建模分支由3個(gè)全卷積 Block構(gòu)成。每個(gè)Block包含一個(gè)Kernel=2×2,Stride=4的反卷積層,一個(gè)Kernel=1×1,以及兩個(gè)Kernel=3×1卷積層。最后,每個(gè)單詞的池化向量被映射成一個(gè)大小為64×64×3的圖像,并逐像素與原本的圖像區(qū)域做MSE Loss。

論文提供了Small和Large兩種參數(shù)規(guī)格的模型,并在IIT-CDIP數(shù)據(jù)集上使用百度通用高精OCR的文字識(shí)別結(jié)果預(yù)訓(xùn)練編碼網(wǎng)絡(luò)。

三、實(shí)驗(yàn)結(jié)果

論文在四個(gè)基準(zhǔn)數(shù)據(jù)集上測(cè)試模型對(duì)文檔理解的能力,在五個(gè)下游任務(wù)上使用不同的Head進(jìn)行Fine-tune并給出實(shí)驗(yàn)結(jié)論。表1給出模型在RVL-CDIP[13]驗(yàn)證文檔圖像分類的效果。同比基于圖像單模態(tài)輸入的方法DiT[4],StrucTexTv2以更少的參數(shù)量取得了更優(yōu)的分類精度。

表1 RVL-CDIP數(shù)據(jù)集上文檔圖像分類的實(shí)驗(yàn)結(jié)果

b7a649f4-d6f2-11ed-bfe3-dac502259ad0.png

如表2和表3所示,論文結(jié)合預(yù)訓(xùn)練模型和Cascade R-CNN[1]框架fine-tune去檢測(cè)文檔中的版式元素以及表格結(jié)構(gòu),在PubLaynet[8]以及WWW[12]數(shù)據(jù)集上取得了當(dāng)前的最好性能。

表2 PubLaynet數(shù)據(jù)集上版式分析的檢測(cè)結(jié)果

b7c91768-d6f2-11ed-bfe3-dac502259ad0.png

表3 WWW數(shù)據(jù)集上表格結(jié)構(gòu)識(shí)別的性能對(duì)比

b7dc946e-d6f2-11ed-bfe3-dac502259ad0.png

在表4中,論文同時(shí)在FUNSD[3]數(shù)據(jù)集上進(jìn)行了端到端OCR和信息提取兩項(xiàng)實(shí)驗(yàn),在基準(zhǔn)測(cè)試中都取得了同期最優(yōu)的效果。對(duì)比如StrucTexTv1[5]和LayoutLMv3[2]等OCR+文檔理解的兩階段方法,證明了提出方法端到端優(yōu)化的優(yōu)越性。

表4 FUNSD數(shù)據(jù)集上端到端OCR以及信息抽取實(shí)驗(yàn)

b7f781de-d6f2-11ed-bfe3-dac502259ad0.png

接下來(lái),論文對(duì)比了SwinTransformer[7]、ViT[10]以及StrucTexTv2的編碼網(wǎng)絡(luò)。從表5對(duì)比結(jié)果來(lái)看,論文提出CNN+Transformer的串聯(lián)結(jié)構(gòu)更有效地支持預(yù)訓(xùn)練任務(wù)。同時(shí),論文給出了不同預(yù)訓(xùn)練配置的模型在文檔圖像分類和版式分析的性能增益,對(duì)兩種模態(tài)預(yù)訓(xùn)練進(jìn)行了有效性驗(yàn)證。

表5 預(yù)訓(xùn)練任務(wù)以及編碼器結(jié)構(gòu)的消融實(shí)驗(yàn)

b805550c-d6f2-11ed-bfe3-dac502259ad0.png

同時(shí),論文中評(píng)估了模型在預(yù)測(cè)時(shí)的耗時(shí)和顯存開(kāi)銷。表6中給出了兩種OCR引擎帶來(lái)的開(kāi)銷以及并與現(xiàn)階段最優(yōu)的多模態(tài)方法LayoutLMv3進(jìn)行了比較。

表6 與兩階段的方法LayoutLMv3的資源開(kāi)銷對(duì)比

b822d208-d6f2-11ed-bfe3-dac502259ad0.png

最后,論文評(píng)估了表7所示在圖像重建預(yù)訓(xùn)練中使用不同的掩碼方式對(duì)下游任務(wù)的影響。在RVL-CDIP和PubLaynet兩個(gè)數(shù)據(jù)集上,基于詞粒度掩碼的策略可以獲取到更有效的視覺(jué)語(yǔ)義特征,確保更好的性能。

表7 預(yù)訓(xùn)練任務(wù)以及編碼器結(jié)構(gòu)的消融實(shí)驗(yàn)

b834a3e8-d6f2-11ed-bfe3-dac502259ad0.png

總結(jié)及討論

論文出的StructTexTv2模型用于端到端學(xué)習(xí)文檔圖像的視覺(jué)和語(yǔ)言聯(lián)合特征表達(dá),圖像單模態(tài)輸入條件下即可實(shí)現(xiàn)高效的文檔理解。論文提出的預(yù)訓(xùn)練方法基于詞粒度的圖像掩碼,能同時(shí)預(yù)測(cè)相應(yīng)的視覺(jué)和文本內(nèi)容,此外,所提出的編碼器網(wǎng)絡(luò)能夠更有效地挖掘大規(guī)模文檔圖像信息。實(shí)驗(yàn)表明,StructTexTv2在模型大小和推理效率方面對(duì)比之前的方法都有顯著提高。更多的方法原理介紹和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參考論文原文。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1076

    瀏覽量

    40279
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    16264

原文標(biāo)題:ICLR 2023 | StrucTexTv2:端到端文檔圖像理解預(yù)訓(xùn)練框架

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    測(cè)試用例怎么寫

    編寫測(cè)試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是一個(gè)詳細(xì)的指南,介紹如何編寫
    的頭像 發(fā)表于 09-20 10:29 ?87次閱讀

    測(cè)試不正常如何處理

    正確地協(xié)同工作。然而,當(dāng)測(cè)試出現(xiàn)問(wèn)題時(shí),處理起來(lái)可能會(huì)相當(dāng)復(fù)雜。 1. 理解測(cè)試失敗的原因 1.1 確定測(cè)試失敗的類型 功能失敗 :測(cè)試用例未能通過(guò)因?yàn)楣δ懿环项A(yù)期。 性能失敗
    的頭像 發(fā)表于 09-20 10:25 ?71次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設(shè)備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應(yīng)有盡有,為Matter標(biāo)準(zhǔn)的規(guī)模化商用提供有力支撐。
    的頭像 發(fā)表于 08-26 18:04 ?2127次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>解決方案

    預(yù)端接光纜怎么接

    預(yù)端接光纜的接法主要遵循一系列標(biāo)準(zhǔn)化的步驟,以確保連接的質(zhì)量和穩(wěn)定性。以下是詳細(xì)的接法步驟: 一、準(zhǔn)備工作 確認(rèn)光纜和預(yù)端接頭的規(guī)格:首先,需要確認(rèn)光纜的類型(如單模或多模)、規(guī)格以及預(yù)
    的頭像 發(fā)表于 08-19 09:53 ?107次閱讀

    實(shí)現(xiàn)自動(dòng)駕駛,唯有?

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標(biāo)都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?362次閱讀
    實(shí)現(xiàn)自動(dòng)駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    大語(yǔ)言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)語(yǔ)言的通用知識(shí),為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大
    的頭像 發(fā)表于 07-11 10:11 ?259次閱讀

    周光:不是真“無(wú)圖”,談何

    “如果智能駕駛系統(tǒng)不能徹底擺脫高精度地圖,談何?!?? 6月1日,元戎啟行CEO周光在粵港澳大灣區(qū)車展暨2024(第二屆)未來(lái)汽車先行者大會(huì)上表示。 ? 這并非周光第一次強(qiáng)調(diào)“無(wú)圖”方案與
    發(fā)表于 06-03 11:06 ?2023次閱讀
    周光:不是真“無(wú)圖”,談何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>

    小鵬汽車發(fā)布大模型

    小鵬汽車近日宣布,其成功研發(fā)并發(fā)布了“國(guó)內(nèi)首個(gè)量產(chǎn)上車”的大模型,該模型可直接通過(guò)傳感器輸入內(nèi)容來(lái)控制車輛,標(biāo)志著智能駕駛技術(shù)的新突破。
    的頭像 發(fā)表于 05-21 15:09 ?580次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    佐思汽研發(fā)布《2024年自動(dòng)駕駛研究報(bào)告》

    自動(dòng)駕駛是直接從傳感器信息輸入(如攝像頭圖像、LiDAR等)控制命令輸出(如轉(zhuǎn)向、加減速等)映射的一套系統(tǒng),最早出現(xiàn)在1988年的A
    的頭像 發(fā)表于 04-20 11:21 ?2584次閱讀
    佐思汽研發(fā)布《2024年<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛研究報(bào)告》

    理想汽車自動(dòng)駕駛模型實(shí)現(xiàn)

    理想汽車在感知、跟蹤、預(yù)測(cè)、決策和規(guī)劃等方面都進(jìn)行了模型化,最終實(shí)現(xiàn)了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環(huán)境中進(jìn)行訓(xùn)練和測(cè)試。
    發(fā)表于 04-12 12:17 ?345次閱讀
    理想汽車自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型實(shí)現(xiàn)

    移動(dòng)協(xié)作機(jī)器人的RGB-D感知的處理方案

    本文提出了一種用于具有雙目視覺(jué)的自主機(jī)器人的三維語(yǔ)義場(chǎng)景感知的流程。該流程包括實(shí)例分割、特征匹配和點(diǎn)集配準(zhǔn)。首先,利用RGB圖像進(jìn)行單視圖三維語(yǔ)義場(chǎng)景分割,將
    發(fā)表于 02-21 15:55 ?495次閱讀
    移動(dòng)協(xié)作機(jī)器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>處理方案

    什么是通信?

    在嵌入式系統(tǒng)領(lǐng)域,無(wú)論是在汽車、航空航天還是工業(yè)應(yīng)用中,確保關(guān)鍵數(shù)據(jù)安全準(zhǔn)確地傳輸至關(guān)重要。為了應(yīng)對(duì)這一挑戰(zhàn),一種被稱為通信的安全措施已經(jīng)成為一項(xiàng)基本原則。 什么是
    的頭像 發(fā)表于 11-24 11:07 ?1115次閱讀

    如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來(lái)與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來(lái)完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)
    的頭像 發(fā)表于 10-29 16:54 ?1174次閱讀
    如何利用CLIP 的<b class='flag-5'>2</b>D <b class='flag-5'>圖像</b>-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景<b class='flag-5'>理解</b>

    語(yǔ)音識(shí)別技術(shù):的挑戰(zhàn)與解決方案

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別技術(shù)得到了越來(lái)越廣泛的應(yīng)用。語(yǔ)音識(shí)別技術(shù)是近年來(lái)備受關(guān)注的一種新型語(yǔ)音識(shí)別技術(shù),它能夠直接將語(yǔ)音轉(zhuǎn)換成文本,省略了傳統(tǒng)的語(yǔ)音特征提取步驟。本文將
    的頭像 發(fā)表于 10-18 17:06 ?778次閱讀