0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Transformer架構的文檔圖像自監(jiān)督預訓練技術

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 作者:CSIG文檔圖像分析與 ? 2022-11-15 11:32 ? 次閱讀

本文簡要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。該論文是2022年微軟亞研院發(fā)表的LayoutLM V3[2]的前身工作,主要解決了文檔領域中標注數(shù)據(jù)稀少和以視覺為中心的文檔智能任務骨干網絡的預訓練問題。

一、研究背景

近年來自監(jiān)督預訓練技術已在文檔智能領域進行了許多的實踐,大多數(shù)技術是將圖片、文本、布局結構信息一起輸入統(tǒng)一的Transformer架構中。在這些技術中,經典的流程是先經過一個視覺模型提取額外文檔圖片信息,例如OCR引擎或版面分析模型,這些模型通常依賴于有標注數(shù)據(jù)訓練的視覺骨干網絡。已有的工作已經證明一些視覺模型在實際應用中的性能經常受到域遷移、數(shù)據(jù)分布不一致等問題的影響。而且現(xiàn)有的文檔有標注數(shù)據(jù)集稀少、樣式單一,訓練出來的骨干網絡并非最適用于文檔任務。因此,有必要研究如何利用自監(jiān)督預訓練技術訓練一個專用于文檔智能領域的骨干網絡。本文針對上述問題,利用離散變分編碼器和NLP領域的常用預訓練方式實現(xiàn)了文檔圖像的預訓練。

5053a420-62a5-11ed-8abf-dac502259ad0.png

圖1具有不同布局和格式的視覺豐富的業(yè)務文檔,用于預培訓DiT

二、DiT原理簡述

2.1總體結構

5088a166-62a5-11ed-8abf-dac502259ad0.png

圖2 DiT的總體架構

Fig 2是DiT的整體結構。DiT使用ViT[3]作為預訓練的骨干網絡,模型的輸入是圖像Patch化后的Embedding特征向量,Patch的數(shù)量和離散變分編碼器的下采樣比例有關。輸入經過ViT后輸出到線性層進行圖像分類,分類層的大小是8192。預訓練任務和NLP領域的完型填空任務一致,先對輸入的Patch隨機掩膜,在模型輸出處預測被遮蓋的Patch對應的Token,Token由Fig 2 中左側的離散變分編碼器生成,作為每個Patch的Label,預訓練過程使用CE Loss監(jiān)督。

2.2 離散變分編碼器dVAE

離散變分編碼器作為Image Tokenizer,將輸入的Patch Token化,來源于論文DALL-E[4],在預訓練任務開始前需要額外訓練。本文使用數(shù)據(jù)集IIT-CDIP[5]重新訓練了DALL-E中的離散變分編碼器以適用于文檔任務。在預訓練任務中只使用到編碼器的部分,解碼器不參與預訓練,編碼器將輸入圖片下采樣到原來的1/8,例如輸入尺度為112*112,那編碼后的Token Map為14*14,此時的Map大小,應與ViT輸入Patch數(shù)保持一致。

2.3 模型微調

50e1f356-62a5-11ed-8abf-dac502259ad0.png

圖3在不同檢測框架中應用DiT作為骨干網絡的圖示

模型預訓練完成后,需針對下游任務進行微小的結構改動,針對分類任務,輸入經過平均池化和線性層進行分類。針對檢測任務,如Fig 3所示,在ViT的特定層進行下采樣或上采樣,然后輸入到FPN和后續(xù)的檢測框架中。

三、主要實驗結果及可視化效果

表1.RVL-CDIP上的文檔圖像分類精度(%),其中所有模型都使用224×224分辨率的純圖像信息(無文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet驗證集上的文檔布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d縮短為ResNext,級聯(lián)為C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表檢測精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本檢測精度(IoU@0.5)在FUNSD任務#1中,掩碼R-CNN與不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用。“+syn”表示使用包含1M文檔圖像的合成數(shù)據(jù)集訓練DiT,然后使用FUNSD訓練數(shù)據(jù)進行微調。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

圖4使用不同標記器進行圖像重建

從左到右:原始文檔圖像,使用自訓練dVAE標記器進行圖像重建,使用DALL-E標記器進行的圖像重建從表1、表2、表3、表4

來看,文章所提方法在各種下游任務中取得了state-of-the-art的結果,驗證了該方法在文檔領域的有效性。Fig 4中展示了重新訓練的離散變分編碼器的可視化輸出,結果顯示本文中的離散變分編碼器效果更好。

四、總結及討論

本文設計了一個利用大量無標簽文檔圖像預訓練ViT的自監(jiān)督方法,該方法的核心是利用離散變分編碼器對圖像Patch進行Token化,再使用NLP領域的掩碼重建任務進行預訓練。從實驗結果可以看出,該方法在多個下游任務的有效性,探索了自監(jiān)督任務在文檔領域的可能性。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    44

    文章

    3529

    瀏覽量

    133300
  • 數(shù)據(jù)

    關注

    8

    文章

    6715

    瀏覽量

    88311

原文標題:上交&微軟提出DiT:一種基于Transformer的文檔圖像自監(jiān)督預訓練方法 | ACM MM 2022

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數(shù)據(jù)作為訓練材料。這些數(shù)據(jù)集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 監(jiān)督學習:模型采用
    發(fā)表于 08-02 11:03

    訓練和遷移學習的區(qū)別和聯(lián)系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關鍵作用。本文將從定義、原理、應用、區(qū)別和聯(lián)系等方面詳細探討
    的頭像 發(fā)表于 07-11 10:12 ?361次閱讀

    大語言模型的訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的訓練是這一技術發(fā)展的關鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓練,使模型學習到語言的通用知識,為后續(xù)的任務微調奠定基礎。本文將深入探討大
    的頭像 發(fā)表于 07-11 10:11 ?249次閱讀

    神經網絡如何用無監(jiān)督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監(jiān)督學習是一種重要的訓練策略。無監(jiān)督學習旨在從未標記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內在的結構、模式或規(guī)律,從而提取有用的特征表示。這種
    的頭像 發(fā)表于 07-09 18:06 ?573次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。訓練模型指的是在大
    的頭像 發(fā)表于 07-03 18:20 ?1433次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、
    的頭像 發(fā)表于 07-02 11:41 ?1065次閱讀

    【大語言模型:原理與工程實踐】大語言模型的訓練

    大語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養(yǎng)通用的處理能力。然而,隨著學習容量的增加,對訓練數(shù)據(jù)的需求也相應
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然語言處理訓練的經典結構Tr
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    訓練和微調,直到模型的部署和性能評估。以下是對這些技術的綜述: 模型架構: LLMs通常采用深層的神經網絡架構,最常見的是
    發(fā)表于 05-05 10:56

    Transformer迎來強勁競爭者 新架構Mamba引爆AI圈!

    作為通用序列模型的骨干,Mamba 在語言、音頻和基因組學等多種模態(tài)中都達到了 SOTA 性能。在語言建模方面,無論是訓練還是下游評估,他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于
    發(fā)表于 12-07 14:14 ?429次閱讀
    <b class='flag-5'>Transformer</b>迎來強勁競爭者 新<b class='flag-5'>架構</b>Mamba引爆AI圈!

    基于transformer監(jiān)督學習的路面異常檢測方法分享

    鋪設異常檢測可以幫助減少數(shù)據(jù)存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer監(jiān)督學習的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1216次閱讀
    基于<b class='flag-5'>transformer</b>和<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學習的路面異常檢測方法分享

    動態(tài)場景下的監(jiān)督單目深度估計方案

    監(jiān)督單目深度估計的訓練可以在大量無標簽視頻序列來進行,訓練集獲取很方便。但問題是,實際采集的視頻序列往往會有很多動態(tài)物體,而
    發(fā)表于 11-28 09:21 ?480次閱讀
    動態(tài)場景下的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>單目深度估計方案

    Backbone之戰(zhàn):計算機視覺任務模型大比較

    盡管Vision Transformer(ViTs)和監(jiān)督學習(SSL)越來越受歡迎,但在大多數(shù)任務中,文章發(fā)現(xiàn)在大型訓練集上以監(jiān)督方式
    的頭像 發(fā)表于 11-13 15:41 ?721次閱讀
    Backbone之戰(zhàn):計算機視覺任務模型大比較

    NeurIPS 2023 | 全新的監(jiān)督視覺訓練代理任務:DropPos

    ://arxiv.org/pdf/2309.03576 代碼鏈接:? https://github.com/Haochen-Wang409/DropPos 今天介紹我們在 監(jiān)督視覺訓練
    的頭像 發(fā)表于 10-15 20:25 ?429次閱讀
    NeurIPS 2023 | 全新的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>視覺<b class='flag-5'>預</b><b class='flag-5'>訓練</b>代理任務:DropPos

    中科院&amp;曠視提出DropPos:全新的監(jiān)督視覺訓練代理任務

    我們提出了一種全新的監(jiān)督代理任務 DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings (PE),然后利用簡單的 cross-entropy loss
    的頭像 發(fā)表于 10-10 17:10 ?564次閱讀
    中科院&amp;曠視提出DropPos:全新的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>視覺<b class='flag-5'>預</b><b class='flag-5'>訓練</b>代理任務