0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

引入Mask R-CNN思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別

電子工程師 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-07 14:24 ? 次閱讀

引入Mask R-CNN思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別。

華中科技大學(xué)白翔老師團(tuán)隊(duì)在自然場(chǎng)景文本檢測(cè)與識(shí)別領(lǐng)域成果頗豐,這篇被ECCV2018接收的論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出,最近,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)主導(dǎo)了場(chǎng)景文本檢測(cè)和識(shí)別領(lǐng)域。在該文中,研究了場(chǎng)景“text spotting”的問(wèn)題,其旨在自然圖像中同時(shí)進(jìn)行文本檢測(cè)和識(shí)別。

該文受到Mask R-CNN的啟發(fā)提出了一種用于場(chǎng)景text spotting的可端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型:Mask TextSpotter。與以前使用端到端可訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)完成text spotting的方法不同,Mask TextSpotter利用簡(jiǎn)單且平滑的端到端學(xué)習(xí)過(guò)程,通過(guò)語(yǔ)義分割獲得精確的文本檢測(cè)和識(shí)別。此外,它在處理不規(guī)則形狀的文本實(shí)例(例如,彎曲文本)方面優(yōu)于之前的方法。

ICDAR2013、ICDAR2015和Total-Text數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,所提出的方法在場(chǎng)景文本檢測(cè)和端到端文本識(shí)別任務(wù)中都達(dá)到了state-of-the-art的水平。

彎曲形狀文本檢測(cè)與識(shí)別的例子:

左圖是水平text spotting方法的結(jié)果,它的檢測(cè)框是水平的;中間圖是具有方向的text spotting方法的結(jié)果,它的檢測(cè)框傾斜;右圖是該文提出的Mask TextSpotter算法的結(jié)果,它的檢測(cè)框不是外接矩形而是一個(gè)最小外接多邊形,對(duì)這種彎曲文本達(dá)到了更精確的文本檢測(cè)和識(shí)別。

網(wǎng)絡(luò)架構(gòu)

網(wǎng)絡(luò)架構(gòu)由四部分組成,骨干網(wǎng)feature pyramid network (FPN),文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN),文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN,文本實(shí)例分割與字符分割網(wǎng)絡(luò)mask branch。

▌?dòng)?xùn)練階段

RPN首先生成大量的文本候選區(qū)域,然后這些候選區(qū)域的RoI特征被送入Fast R-CNN branch和mask branch,由它們?nèi)シ謩e生成精確的文本候選包圍盒(text candidate boxes)、文本實(shí)例分割圖(text instance segmentation maps)、字符分割圖(character segmentation maps)。

尤其值得一提的是Mask Branch,如下圖:

它將輸入的RoI(固定大小16*64)經(jīng)過(guò)4層卷積層和1層反卷積層,生成38通道的圖(大小32*128),包括一個(gè)全局文本實(shí)例圖——它給出了文本區(qū)域的精確定位,無(wú)論文本排列的形狀如何它都能分割出來(lái),還包括36個(gè)字符圖(對(duì)應(yīng)于字符0~9,A~Z),一個(gè)字符背景圖(排除字符后的的所有背景區(qū)域),在后處理階段字符背景圖會(huì)被用到。

這是一個(gè)多任務(wù)模型,其Loss組成:

▌推理階段

推理階段mask branch的輸入RoIs來(lái)自于Fast R-CNN的輸出。

推理的過(guò)程如下:首先輸入一幅測(cè)試圖像,通過(guò)Fast R-CNN獲取候選文本區(qū)域,然后通過(guò)NMS(非極大抑制)過(guò)濾掉冗余的候選區(qū)域,剩下的候選區(qū)域resize后送入mask branch,得到全局文本實(shí)例圖,和字符圖。通過(guò)計(jì)算全局文本實(shí)例圖的輪廓可以直接得到包圍文本的多邊形,通過(guò)在字符圖上使用提出的pixel voting方法生成字符序列。

如上圖所示,Pixel voting方法根據(jù)字符背景圖中每一個(gè)聯(lián)通區(qū)域,計(jì)算每一字符層相應(yīng)區(qū)域的平均字符概率,即得到了識(shí)別的結(jié)果。

為了在識(shí)別出來(lái)的字符序列中找到最佳匹配單詞,作者在編輯距離(Edit Distance)基礎(chǔ)上發(fā)明了加權(quán)編輯距離(Weighted Edit Distance)。

識(shí)別結(jié)果示例:

▌ICDAR2013的結(jié)果

該庫(kù)主要用來(lái)驗(yàn)證在水平文本上的識(shí)別效果。

▌ICDAR2015的結(jié)果

用來(lái)驗(yàn)證方向變化的文本的結(jié)果。

▌Total-Text結(jié)果

驗(yàn)證彎曲的文本檢測(cè)識(shí)別結(jié)果。

彎曲文本識(shí)別示例

▌速度

在Titan Xp顯卡上,720*1280的圖像,速度可以達(dá)到6.9FPS。

▌效果分析

作者通過(guò)進(jìn)一步的實(shí)驗(yàn)分析,發(fā)現(xiàn):如果去除字符圖子網(wǎng)絡(luò),只訓(xùn)練檢測(cè)模型,檢測(cè)的性能會(huì)下降,說(shuō)明檢測(cè)可以受益于識(shí)別模塊。下圖中Ours(det only)為只有檢測(cè)的模型。

如果去除訓(xùn)練樣本中的真實(shí)世界字符標(biāo)注圖像,模型依然可以達(dá)到相當(dāng)競(jìng)爭(zhēng)力的性能。下圖中Ours(a)即不使用真實(shí)世界字符標(biāo)注圖像的訓(xùn)練結(jié)果。

通過(guò)加權(quán)編輯距離(weighted edit distance)和原始編輯距離的比較,發(fā)現(xiàn),加權(quán)編輯距離可以明顯提高識(shí)別性能。下圖中Ours(b)為原始編輯距離的結(jié)果。

該文將Mask R-CNN語(yǔ)義分割的方法用于文本檢測(cè)與識(shí)別,取得了顯著的性能改進(jìn),并能成功應(yīng)對(duì)任意形狀的文本,其他語(yǔ)義分割方法是否也能拿來(lái)試一下呢?(該文目前還沒(méi)有開(kāi)源代碼。)

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4733

    瀏覽量

    100417
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17055

原文標(biāo)題:ECCV 2018 | 華科白翔老師團(tuán)隊(duì)ECCV2018 OCR論文:Mask TextSpotter

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    手把手教你使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割(含源碼)

    使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割
    的頭像 發(fā)表于 03-21 13:39 ?2182次閱讀
    手把手教你使用LabVIEW實(shí)現(xiàn)<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>圖像實(shí)例<b class='flag-5'>分割</b>(含源碼)

    介紹目標(biāo)檢測(cè)工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理

    在本篇文章中,公司的研究人員介紹了他們?cè)谘芯窟^(guò)程中所使用的先進(jìn)目標(biāo)檢測(cè)工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理。
    的頭像 發(fā)表于 01-27 11:49 ?1.8w次閱讀
    介紹目標(biāo)<b class='flag-5'>檢測(cè)</b>工具Faster <b class='flag-5'>R-CNN</b>,包括它的構(gòu)造及實(shí)現(xiàn)原理

    Mask R-CNN:自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖

    用深度學(xué)習(xí)模型——Mask R-CNN,自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖。
    的頭像 發(fā)表于 02-03 14:19 ?1.1w次閱讀

    什么是Mask R-CNNMask R-CNN的工作原理

    它的概念很簡(jiǎn)單:對(duì)于每個(gè)目標(biāo)對(duì)象,F(xiàn)aster R-CNN都有兩個(gè)輸出,一是分類(lèi)標(biāo)簽,二是候選窗口;為了分割目標(biāo)像素,我們可以在前兩個(gè)輸出的基礎(chǔ)上增加第三個(gè)輸出——指示對(duì)象在窗口中像素位置的二進(jìn)制
    的頭像 發(fā)表于 07-20 08:53 ?6.8w次閱讀

    手把手教你操作Faster R-CNNMask R-CNN

    R-CNN又承繼于R-CNN,因此,為了能讓大家更好的理解基于CNN的目標(biāo)檢測(cè)方法,我們從R-CNN開(kāi)始切入,一直介紹到
    的頭像 發(fā)表于 04-04 16:32 ?1.3w次閱讀

    FAIR何愷明、Ross等人最新提出實(shí)例分割的通用框架TensorMask

    然而,盡管目前性能最好的對(duì)象檢測(cè)器依賴(lài)于滑動(dòng)窗口預(yù)測(cè)來(lái)生成初始候選區(qū)域,但獲得更準(zhǔn)確的預(yù)測(cè)主要來(lái)自對(duì)這些候選區(qū)域進(jìn)行細(xì)化的階段,如 Faster R-CNNMask
    的頭像 發(fā)表于 04-08 12:00 ?1.2w次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例分割語(yǔ)義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個(gè)用于語(yǔ)義分割的分支。這一新架構(gòu)可以同時(shí)對(duì)圖像
    的頭像 發(fā)表于 04-22 11:46 ?2847次閱讀
    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例<b class='flag-5'>分割</b>和<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>

    基于改進(jìn)Faster R-CNN的目標(biāo)檢測(cè)方法

    為提高小尺度行人檢測(cè)的準(zhǔn)確性,提出一種基于改進(jìn) Faster r-CNN的目標(biāo)檢測(cè)方法。通過(guò)引入基于雙線(xiàn)性插值的對(duì)齊池化層,避免感興趣區(qū)域池
    發(fā)表于 03-23 14:52 ?3次下載
    基于改進(jìn)Faster <b class='flag-5'>R-CNN</b>的目標(biāo)<b class='flag-5'>檢測(cè)</b>方法

    一種基于Mask R-CNN的人臉檢測(cè)分割方法

    針對(duì)現(xiàn)有主流的人臉檢測(cè)算法不具備像素級(jí)分割,從而存在人臉特征具有噪聲及檢測(cè)精度不理想的問(wèn)題提出了一種基于 Mask r-CNN的人臉
    發(fā)表于 04-01 10:42 ?5次下載
    一種基于<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>的人臉<b class='flag-5'>檢測(cè)</b>及<b class='flag-5'>分割</b>方法

    基于Mask R-CNN的遙感圖像處理技術(shù)綜述

    較為密集,且容易與港口混合。當(dāng)前對(duì)艦船檢測(cè)的輸岀結(jié)果主要是檢測(cè)框,缺少對(duì)艦船掩碼的輸岀,使得無(wú)法全面分析岀模型存在的不足;冋時(shí),由于遙感圖像中的艦船??棵芗?,容易產(chǎn)生漏檢問(wèn)題。為解決上述問(wèn)題,利用 Mask
    發(fā)表于 05-08 16:39 ?3次下載

    用于實(shí)例分割Mask R-CNN框架

    我們的方法稱(chēng)為 Mask R-CNN,擴(kuò)展了 Faster RCNN ,方法是在每個(gè)感興趣區(qū)域 (RoI) 上添加一個(gè)用于預(yù)測(cè)分割掩碼的分支,與用于分類(lèi)和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支
    的頭像 發(fā)表于 04-13 10:40 ?2573次閱讀

    3D視覺(jué)技術(shù)內(nèi)容理解領(lǐng)域的研究進(jìn)展

    Mesh R-CNN 是一種新型的當(dāng)前最優(yōu)方法,可基于大量 2D 現(xiàn)實(shí)世界圖像預(yù)測(cè)出最準(zhǔn)確的 3D 形狀。該方法利用目標(biāo)實(shí)例分割任務(wù)的通用 Mask
    的頭像 發(fā)表于 04-27 14:34 ?1418次閱讀

    PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:09 ?0次下載
    PyTorch教程14.8之基于區(qū)域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8。基于區(qū)域的 CNN (R-CNN)

    Studio 實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開(kāi)筆記本 除了第 14.7 節(jié)中描述的單次多框檢測(cè)之外,基于區(qū)域的 CNN 或具有 CNN 特征的區(qū)域 (R-CNN
    的頭像 發(fā)表于 06-05 15:44 ?616次閱讀
    PyTorch教程-14.8?;趨^(qū)域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)

    圖像分割語(yǔ)義分割中的CNN模型綜述

    圖像分割語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?599次閱讀