引入Mask R-CNN思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別。
華中科技大學(xué)白翔老師團(tuán)隊(duì)在自然場(chǎng)景文本檢測(cè)與識(shí)別領(lǐng)域成果頗豐,這篇被ECCV2018接收的論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。
文章指出,最近,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)主導(dǎo)了場(chǎng)景文本檢測(cè)和識(shí)別領(lǐng)域。在該文中,研究了場(chǎng)景“text spotting”的問(wèn)題,其旨在自然圖像中同時(shí)進(jìn)行文本檢測(cè)和識(shí)別。
該文受到Mask R-CNN的啟發(fā)提出了一種用于場(chǎng)景text spotting的可端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型:Mask TextSpotter。與以前使用端到端可訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)完成text spotting的方法不同,Mask TextSpotter利用簡(jiǎn)單且平滑的端到端學(xué)習(xí)過(guò)程,通過(guò)語(yǔ)義分割獲得精確的文本檢測(cè)和識(shí)別。此外,它在處理不規(guī)則形狀的文本實(shí)例(例如,彎曲文本)方面優(yōu)于之前的方法。
在ICDAR2013、ICDAR2015和Total-Text數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,所提出的方法在場(chǎng)景文本檢測(cè)和端到端文本識(shí)別任務(wù)中都達(dá)到了state-of-the-art的水平。
彎曲形狀文本檢測(cè)與識(shí)別的例子:
左圖是水平text spotting方法的結(jié)果,它的檢測(cè)框是水平的;中間圖是具有方向的text spotting方法的結(jié)果,它的檢測(cè)框傾斜;右圖是該文提出的Mask TextSpotter算法的結(jié)果,它的檢測(cè)框不是外接矩形而是一個(gè)最小外接多邊形,對(duì)這種彎曲文本達(dá)到了更精確的文本檢測(cè)和識(shí)別。
▌網(wǎng)絡(luò)架構(gòu)
網(wǎng)絡(luò)架構(gòu)由四部分組成,骨干網(wǎng)feature pyramid network (FPN),文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN),文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN,文本實(shí)例分割與字符分割網(wǎng)絡(luò)mask branch。
▌?dòng)?xùn)練階段
RPN首先生成大量的文本候選區(qū)域,然后這些候選區(qū)域的RoI特征被送入Fast R-CNN branch和mask branch,由它們?nèi)シ謩e生成精確的文本候選包圍盒(text candidate boxes)、文本實(shí)例分割圖(text instance segmentation maps)、字符分割圖(character segmentation maps)。
尤其值得一提的是Mask Branch,如下圖:
它將輸入的RoI(固定大小16*64)經(jīng)過(guò)4層卷積層和1層反卷積層,生成38通道的圖(大小32*128),包括一個(gè)全局文本實(shí)例圖——它給出了文本區(qū)域的精確定位,無(wú)論文本排列的形狀如何它都能分割出來(lái),還包括36個(gè)字符圖(對(duì)應(yīng)于字符0~9,A~Z),一個(gè)字符背景圖(排除字符后的的所有背景區(qū)域),在后處理階段字符背景圖會(huì)被用到。
這是一個(gè)多任務(wù)模型,其Loss組成:
▌推理階段
推理階段mask branch的輸入RoIs來(lái)自于Fast R-CNN的輸出。
推理的過(guò)程如下:首先輸入一幅測(cè)試圖像,通過(guò)Fast R-CNN獲取候選文本區(qū)域,然后通過(guò)NMS(非極大抑制)過(guò)濾掉冗余的候選區(qū)域,剩下的候選區(qū)域resize后送入mask branch,得到全局文本實(shí)例圖,和字符圖。通過(guò)計(jì)算全局文本實(shí)例圖的輪廓可以直接得到包圍文本的多邊形,通過(guò)在字符圖上使用提出的pixel voting方法生成字符序列。
如上圖所示,Pixel voting方法根據(jù)字符背景圖中每一個(gè)聯(lián)通區(qū)域,計(jì)算每一字符層相應(yīng)區(qū)域的平均字符概率,即得到了識(shí)別的結(jié)果。
為了在識(shí)別出來(lái)的字符序列中找到最佳匹配單詞,作者在編輯距離(Edit Distance)基礎(chǔ)上發(fā)明了加權(quán)編輯距離(Weighted Edit Distance)。
識(shí)別結(jié)果示例:
▌ICDAR2013的結(jié)果
該庫(kù)主要用來(lái)驗(yàn)證在水平文本上的識(shí)別效果。
▌ICDAR2015的結(jié)果
用來(lái)驗(yàn)證方向變化的文本的結(jié)果。
▌Total-Text結(jié)果
驗(yàn)證彎曲的文本檢測(cè)識(shí)別結(jié)果。
彎曲文本識(shí)別示例
▌速度
在Titan Xp顯卡上,720*1280的圖像,速度可以達(dá)到6.9FPS。
▌效果分析
作者通過(guò)進(jìn)一步的實(shí)驗(yàn)分析,發(fā)現(xiàn):如果去除字符圖子網(wǎng)絡(luò),只訓(xùn)練檢測(cè)模型,檢測(cè)的性能會(huì)下降,說(shuō)明檢測(cè)可以受益于識(shí)別模塊。下圖中Ours(det only)為只有檢測(cè)的模型。
如果去除訓(xùn)練樣本中的真實(shí)世界字符標(biāo)注圖像,模型依然可以達(dá)到相當(dāng)競(jìng)爭(zhēng)力的性能。下圖中Ours(a)即不使用真實(shí)世界字符標(biāo)注圖像的訓(xùn)練結(jié)果。
通過(guò)加權(quán)編輯距離(weighted edit distance)和原始編輯距離的比較,發(fā)現(xiàn),加權(quán)編輯距離可以明顯提高識(shí)別性能。下圖中Ours(b)為原始編輯距離的結(jié)果。
該文將Mask R-CNN語(yǔ)義分割的方法用于文本檢測(cè)與識(shí)別,取得了顯著的性能改進(jìn),并能成功應(yīng)對(duì)任意形狀的文本,其他語(yǔ)義分割方法是否也能拿來(lái)試一下呢?(該文目前還沒(méi)有開(kāi)源代碼。)
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100417 -
文本
+關(guān)注
關(guān)注
0文章
118瀏覽量
17055
原文標(biāo)題:ECCV 2018 | 華科白翔老師團(tuán)隊(duì)ECCV2018 OCR論文:Mask TextSpotter
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論