0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個(gè)基于深度學(xué)習(xí)的端到端在線手寫(xiě)數(shù)學(xué)公式識(shí)別模型

倩倩 ? 來(lái)源:lq ? 作者:SandaG ? 2019-09-20 15:35 ? 次閱讀

本文簡(jiǎn)要介紹 2018 年 5 月被 TMM 錄用論文“ Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作 。該論文是 2017 年發(fā)表在 ICDAR 上的文章 [1] 的升級(jí)版,主要解決了在線手寫(xiě)數(shù)學(xué)公式的識(shí)別問(wèn)題。

該論文中介紹的方法獲得了國(guó)際最大在線手寫(xiě)數(shù)學(xué)公式比賽 CROHME2019 的冠軍,且是在未使用額外數(shù)據(jù)的情況下超過(guò)了有大量額外數(shù)據(jù)的國(guó)際企業(yè)參賽隊(duì)伍,如 MyScript , Wiris , MathType 等,突出了該算法較傳統(tǒng)數(shù)學(xué)公式識(shí)別算法的優(yōu)勢(shì)。

一、研究背景

手寫(xiě)數(shù)學(xué)公式識(shí)別較傳統(tǒng) OCR 問(wèn)題而言,是一個(gè)更復(fù)雜的二維手寫(xiě)識(shí)別問(wèn)題,其內(nèi)部復(fù)雜的二維空間結(jié)構(gòu)使得其很難被解析,傳統(tǒng)方法的識(shí)別效果不佳。隨著深度學(xué)習(xí)在各領(lǐng)域的成功應(yīng)用,文章 [2] [3] 首次提出了基于深度學(xué)習(xí)的端到端離線數(shù)學(xué)公式算法,并在公開(kāi)數(shù)據(jù)集上較傳統(tǒng)方法獲得了顯著提升,開(kāi)辟了全新的數(shù)學(xué)公式識(shí)別框架。然而在線手寫(xiě)數(shù)學(xué)公式識(shí)別框架還未被提出,論文 TAP 則是首個(gè)基于深度學(xué)習(xí)的端到端在線手寫(xiě)數(shù)學(xué)公式識(shí)別模型,且針對(duì)數(shù)學(xué)公式識(shí)別的任務(wù)特性提出了多種優(yōu)化。

二、TAP原理簡(jiǎn)述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整體結(jié)構(gòu)。 TAP 遵循文章 [2] [3] 中的做法,將數(shù)學(xué)公式的樹(shù)結(jié)構(gòu)識(shí)別問(wèn)題轉(zhuǎn)換成了數(shù)學(xué)公式 LaTeX 字符串識(shí)別問(wèn)題。這一思路的轉(zhuǎn)換簡(jiǎn)化了數(shù)學(xué)公式識(shí)別問(wèn)題,使端到端的識(shí)別成為了可能。 TAP 的基本框架為基于注意力機(jī)制的編解碼模型,也稱(chēng) Encoder-Decoder 模型 [4] ,其將輸入的軌跡點(diǎn)序列通過(guò) Encoder 編碼得到高維特征表達(dá),依靠 Attention 機(jī)制找出高維特征中的關(guān)鍵部分以用于解碼出當(dāng)前時(shí)刻的 LaTeX 字符,直至解碼結(jié)束。

TAP 延續(xù)了會(huì)議文章 [1] 中的 Encoder 框架,在 Attention 機(jī)制上針對(duì)在線手寫(xiě)公式識(shí)別提出了 Spatial Attention, Temporal Attention, Attention Guider 用于改善 Attention 的對(duì)齊以及 Decoder 的解碼能力。文章中還利用了在線與離線兩個(gè)模態(tài)之間的互補(bǔ)性進(jìn)一步提升了手寫(xiě)識(shí)別性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 機(jī)制,除了常用的S patial Attention 外,還采用了T emporal Attention 機(jī)制。其中,S patial Attention 利用了A ttention 的歷史信息以解決數(shù)學(xué)公式中多個(gè)同樣數(shù)學(xué)字符出現(xiàn)時(shí)的對(duì)齊混淆問(wèn)題。

而T emporal Attention 用于處理 LaTeX 中的結(jié)構(gòu)字符的特殊對(duì)齊。因?yàn)樵?LaTeX 的語(yǔ)法規(guī)則中,為了重現(xiàn)數(shù)學(xué)公式語(yǔ)言里的二維空間結(jié)構(gòu),需要額外有一些特殊的結(jié)構(gòu)字符來(lái)形成語(yǔ)法,而這些特殊的結(jié)構(gòu)字符在輸入的數(shù)學(xué)公式中不存在,因而S patial Attention 無(wú)法完成對(duì)齊,此時(shí)則需要T emporal Attention 來(lái)補(bǔ)足這個(gè)不存在的對(duì)齊空缺,既能不干擾S patial Attention 的學(xué)習(xí),又能提高D ecoder 的解碼能力,進(jìn)一步提升性能。

Fig.3. Illustration of the attention guider

此外, TAP 還采用了A ttention Guider 來(lái)強(qiáng)化S patial Attention 的學(xué)習(xí),從 Fig 3 中可以看出,在使用了A ttention Guider 來(lái)引導(dǎo)S patial Attention 的學(xué)習(xí)后,S patial Attention 的對(duì)齊效果顯著提升,十分精確,并且效果也反映到了最終的識(shí)別性能上。

三、主要實(shí)驗(yàn)結(jié)果及可視化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 來(lái)看,文章所提方案在 CROHME2014 和 CROHME2016 公開(kāi)數(shù)據(jù)集上取得了 state-of-the-art 的結(jié)果,且較傳統(tǒng)方法有巨大的提升,驗(yàn)證了該方法的有效性,且 TAP 展示的結(jié)果相對(duì)于會(huì)議版本也有了進(jìn)一步的提升,體現(xiàn)了H ybrid Attention 在糾正對(duì)齊和提升性能處起到了關(guān)鍵作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是對(duì)于T emporal Attention 的可視化,可見(jiàn)T emporal Attention 能夠很正確的幫助 Spatial Attention 區(qū)分結(jié)構(gòu)字符和實(shí)體字符。 Fig 5 是對(duì) Hybrid Attention 整體在一個(gè)手寫(xiě)數(shù)學(xué)公式實(shí)例上的可視化。 Fig 6 列出了一個(gè)手寫(xiě)數(shù)學(xué)公式在線和離線模態(tài)互補(bǔ)性的實(shí)例,由于存在倒筆現(xiàn)象,單純的在線模型無(wú)法正確識(shí)別該例子,而通過(guò)離線模型的融合輔助最終使得這個(gè)公式例子被正確識(shí)別(由于符號(hào)定義過(guò)多,更詳細(xì)的內(nèi)容請(qǐng)參考原文,鏈接附后)。

四、總結(jié)及討論

1. TAP-ICDAR 版首次提出了基于深度學(xué)習(xí)的端到端在線手寫(xiě)數(shù)學(xué)公式識(shí)別模型,將樹(shù)形結(jié)構(gòu)識(shí)別問(wèn)題巧妙轉(zhuǎn)換成了 LaTe X 字符串識(shí)別問(wèn)題,成功突破了傳統(tǒng)方法在該問(wèn)題上的性能瓶頸, 開(kāi)辟了全新的在線數(shù)學(xué)公式識(shí)別框架。

2. TAP-TMM 相比 TAP-ICDAR 而言, 進(jìn)一步提出了 Hybrid Attention ,不僅提高了 Attention 的對(duì)齊準(zhǔn)確度,也針對(duì)性地處理了 LaTeX 中結(jié)構(gòu)字符的對(duì)齊和生成,且效果最終都很好地反映在了最終的識(shí)別性能上。此外,通過(guò)融合離線模態(tài)的全局特性,進(jìn)一步提升了在線手寫(xiě)數(shù)學(xué)公式的識(shí)別率。

3. TAP 中匯報(bào)出來(lái)的在 CROHME2014 及 CROHME2016 上的識(shí)別率,至今仍是最好的公開(kāi)結(jié)果,相關(guān)算法也在 CROHME2019 競(jìng)賽上獲得了第一名,并且在沒(méi)有使用額外數(shù)據(jù)的情況便超越了其他使用大量額外數(shù)據(jù)的企業(yè)隊(duì)伍 。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4592

    瀏覽量

    92519
  • 識(shí)別模型
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6716
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5471

    瀏覽量

    120903
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    連接視覺(jué)語(yǔ)言大模型自動(dòng)駕駛

    自動(dòng)駕駛在大規(guī)模駕駛數(shù)據(jù)上訓(xùn)練,展現(xiàn)出很強(qiáng)的決策規(guī)劃能力,但是面對(duì)復(fù)雜罕見(jiàn)的駕駛場(chǎng)景,依然存在局限性,這是因?yàn)?b class='flag-5'>端
    的頭像 發(fā)表于 11-07 15:15 ?111次閱讀
    連接視覺(jué)語(yǔ)言大<b class='flag-5'>模型</b>與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛

    智己汽車(chē)“”智駕方案推出,老司機(jī)真的會(huì)被取代嗎?

    隨著智能駕駛技術(shù)的發(fā)展,行業(yè)已經(jīng)從早期基于簡(jiǎn)單規(guī)則和模塊化邏輯的自動(dòng)駕駛,逐步邁向依托深度學(xué)習(xí)的高復(fù)雜度智能駕駛解決方案,各車(chē)企也緊跟潮流,先后宣布了自己的
    的頭像 發(fā)表于 10-30 09:47 ?138次閱讀
    智己汽車(chē)“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕方案推出,老司機(jī)真的會(huì)被取代嗎?

    AI大模型深度學(xué)習(xí)的關(guān)系

    人類(lèi)的學(xué)習(xí)過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的學(xué)習(xí)識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練和推理。
    的頭像 發(fā)表于 10-23 15:25 ?318次閱讀

    InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    的,這需要大量的計(jì)算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。InfiniBand(IB)網(wǎng)絡(luò)作為高性能計(jì)算和AI模型訓(xùn)練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語(yǔ)言
    的頭像 發(fā)表于 10-23 11:26 ?253次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    Mobileye自動(dòng)駕駛解決方案的深度解析

    強(qiáng)大的技術(shù)優(yōu)勢(shì)。 Mobileye的解決方案概述 1.1 什么是自動(dòng)駕駛?
    的頭像 發(fā)表于 10-17 09:35 ?256次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛解決方案的<b class='flag-5'>深度</b>解析

    智駕進(jìn)程發(fā)力?小鵬、蔚來(lái)模型上車(chē)

    轉(zhuǎn)型的關(guān)鍵時(shí)期,而智能駕駛技術(shù)的發(fā)展被視為這場(chǎng)變革的核心動(dòng)力。作為自動(dòng)駕駛的支撐技術(shù)之一,模型憑借其感知、規(guī)劃和控制的一體化能力,大幅提升了智能駕駛的效率和穩(wěn)定性。不同于傳統(tǒng)的
    的頭像 發(fā)表于 09-26 09:19 ?210次閱讀
    智駕進(jìn)程發(fā)力?小鵬、蔚來(lái)<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>上車(chē)

    測(cè)試用例怎么寫(xiě)

    編寫(xiě)測(cè)試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是一個(gè)詳細(xì)的指南,介紹如何編寫(xiě)
    的頭像 發(fā)表于 09-20 10:29 ?313次閱讀

    深度識(shí)別人臉識(shí)別在任務(wù)中為什么有很強(qiáng)大的建模能力

    通過(guò)大量數(shù)據(jù)進(jìn)行訓(xùn)練,能夠自動(dòng)學(xué)習(xí)人臉的特征表示,而不需要人為設(shè)計(jì)特征提取算法。 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) :深度學(xué)習(xí)模型通常包含多層神經(jīng)網(wǎng)絡(luò),這
    的頭像 發(fā)表于 09-10 14:53 ?284次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用

    , LSTM)和門(mén)控循環(huán)單元(Gated Recurrent Unit, GRU)等,展現(xiàn)了強(qiáng)大的性能。本文將深入探討循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用,包括其背景、核心算法原理、具
    的頭像 發(fā)表于 07-08 11:09 ?493次閱讀

    小鵬汽車(chē)發(fā)布國(guó)內(nèi)首個(gè)量產(chǎn)上車(chē)的模型

    小鵬汽車(chē)近日宣布,國(guó)內(nèi)首個(gè)模型量產(chǎn)上車(chē),這一革命性的技術(shù)將大幅提升智能駕駛的能力。據(jù)小鵬汽車(chē)介紹,這一大
    的頭像 發(fā)表于 05-28 11:47 ?657次閱讀

    小鵬汽車(chē)發(fā)布模型

    小鵬汽車(chē)近日宣布,其成功研發(fā)并發(fā)布了“國(guó)內(nèi)首個(gè)量產(chǎn)上車(chē)”的模型,該模型可直接通過(guò)傳感器輸
    的頭像 發(fā)表于 05-21 15:09 ?638次閱讀

    理想汽車(chē)自動(dòng)駕駛模型實(shí)現(xiàn)

    理想汽車(chē)在感知、跟蹤、預(yù)測(cè)、決策和規(guī)劃等方面都進(jìn)行了模型化,最終實(shí)現(xiàn)了模型。這種模型不僅
    發(fā)表于 04-12 12:17 ?395次閱讀
    理想汽車(chē)自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>實(shí)現(xiàn)

    牽手NVIDIA 元戎啟行模型將搭載 DRIVE Thor芯片

    NVIDIA的DRIVE Thor芯片適配公司的智能駕駛模型。據(jù)悉,元戎啟行是業(yè)內(nèi)首批能用 DRIVE Thor芯片適配
    發(fā)表于 03-25 11:49 ?301次閱讀
    牽手NVIDIA 元戎啟行<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>將搭載 DRIVE Thor芯片

    模型卷入智駕圈 周光:今年上車(chē)!

    讓AI像人類(lèi)司機(jī)一樣開(kāi)車(chē),今年就能做到。 ? 3月17日,在中國(guó)電動(dòng)汽車(chē)百人會(huì)汽車(chē)新質(zhì)生產(chǎn)力論壇上,元戎啟行CEO周光表示,智能駕駛模型將會(huì)成就一位“超級(jí)AI司機(jī)”,開(kāi)啟物理世界
    發(fā)表于 03-18 11:17 ?477次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>卷入智駕圈 周光:今年上車(chē)!

    復(fù)合擺線軌跡介紹

    一、擺線 擺線,又稱(chēng)旋輪線、圓滾線,在數(shù)學(xué)中,擺線(Cycloid)被定義為,一個(gè)圓沿一條直線運(yùn)動(dòng)時(shí),圓邊界上一定點(diǎn)所形成的軌跡。它是一般旋輪線的一種。 總結(jié)成數(shù)學(xué)公式為: 二、足軌跡約束方程 為
    的頭像 發(fā)表于 11-22 11:35 ?722次閱讀
    足<b class='flag-5'>端</b>復(fù)合擺線軌跡介紹