99精品免费视频网站6,自拍毛片,亚洲美亚洲AV

近年來，自然語言處理（NLP，Natural Language Processing）技術(shù)的快速發(fā)展大力推動了人工智能的整體進(jìn)展。尤其是在過去三年，機(jī)器學(xué)習(xí)給NLP所帶來的進(jìn)步，使計算機(jī)在機(jī)器翻譯、閱讀理解、語法檢查等任務(wù)上，都達(dá)到了可以媲美人類的水平。

不過相比現(xiàn)實世界中的實際應(yīng)用環(huán)境，研究中的NLP任務(wù)相對單純。事實上，在NLP已經(jīng)取得很多突破的今天，機(jī)器卻連企業(yè)文檔中最常見的Word、PDF也無法從頭“讀”到尾。如何能夠讓機(jī)器理解文檔中的標(biāo)題、段落、腳注、圖片、表格等內(nèi)容信息，是NLP能夠處理更多實際應(yīng)用場景的第一步。

最近，微軟亞洲研究院自然語言計算組發(fā)表了一篇論文——TableBank: Table Benchmark for Image-based Table Detection and Recognition，致力于解決文檔中的表格檢測與表格信息識別，并首次在業(yè)界同時開源表格檢測和表格結(jié)構(gòu)識別數(shù)據(jù)集，供研究人員使用。

TableBank：高質(zhì)量的標(biāo)注表格數(shù)據(jù)集

雖然人類在視覺上可以很容易地判斷出一個表格，但由于表格的布局、樣式多種多樣，對于機(jī)器而言判斷“何為表格”以及表格中內(nèi)容之間的關(guān)系卻并不容易。傳統(tǒng)的基于規(guī)則的表格識別方式，一旦換一份文檔就需要大量在文檔后臺的手工操作；而現(xiàn)有的機(jī)器學(xué)習(xí)方法，又無法獲得大量有效的標(biāo)注數(shù)據(jù)，很難支持實際場景中的應(yīng)用。于是，TableBank應(yīng)運(yùn)而生。

TableBank是一個表格檢測與識別的數(shù)據(jù)集，基于公開的、大規(guī)模的Word文檔和LaTex文檔，通過弱監(jiān)督方法創(chuàng)建而來。與傳統(tǒng)的弱監(jiān)督訓(xùn)練集不同，TableBank不僅數(shù)據(jù)質(zhì)量高，而且數(shù)據(jù)規(guī)模比之前的人工標(biāo)記的表格分析數(shù)據(jù)集大幾個數(shù)量級，其表格數(shù)據(jù)量達(dá)到了41.7萬。

然而要讓機(jī)器讀懂表格，首先要能夠從文檔中識別哪些是表格，隨后再去識別表格區(qū)域內(nèi)的信息。因此TableBank的實現(xiàn)主要分兩步走：一，表格檢測（Table Detection）；二，表格結(jié)構(gòu)識別（Table Structure Recognition）。

表格檢測

如何能自動檢測到文檔中的表格？

通常每個Word文檔都有一個對應(yīng)的Office XML源代碼文件，在代碼中對應(yīng)表格的位置，可以對其進(jìn)行修改，讓表格加上邊框，以此來區(qū)分表格與文檔的其他部分。對于LaTex文檔（由LaTex編輯器生成的文檔），則可以直接使用特殊命令將邊界框添加到表格中，以此來確定表格在文檔中的位置。

然后再將Word和LaTex文檔中的表格轉(zhuǎn)化為相對應(yīng)的PDF頁面（如下圖所示），便可獲得帶有表格信息的PDF頁面，且該文檔對表格的位置已經(jīng)進(jìn)行了標(biāo)注。這些標(biāo)注過的表格，都可以放到訓(xùn)練數(shù)據(jù)集中，并且越來越多。目前，該表格檢測模型采用了計算機(jī)視覺研究中常用的Faster R-CNN 算法。

表格結(jié)構(gòu)識別

表格結(jié)構(gòu)識別的目的是識別表格文檔中的文字信息、表格中行和列的布局信息，以及理解行與列之間的關(guān)系。從PDF或圖像中識別出文字，大家的第一反應(yīng)都是使用OCR（光學(xué)字符識別）技術(shù)，確實OCR技術(shù)可以識別出文字，但它只能將其轉(zhuǎn)換成文本格式，再按照在圖像中出現(xiàn)的先后順序依次填入到可編輯的文檔中，而無法確定文字之間的邏輯關(guān)系，更難于理解表格的行、列信息。

在TableBank的論文里，研究員們一方面結(jié)合OCR技術(shù)，識別出表格里每個單元格中的文本內(nèi)容，另一方面，使用了創(chuàng)新方法去自動識別出表格在文檔中的位置，以及行與列的布局，明確表格中行列交叉所形成的單元格之間的關(guān)系。

對于形式、來源不同的表格，研究員們給出了相應(yīng)的方法來實現(xiàn)表格結(jié)構(gòu)的識別。Word文檔中的表格可直接將XML源代碼文件轉(zhuǎn)換為HTML標(biāo)記序列；LaTex文檔則先生成XML再轉(zhuǎn)換為HTML，然后框定表格中行和列的位置。這樣表格中的行、列信息也就有了標(biāo)注數(shù)據(jù)。

目前，TableBank數(shù)據(jù)集已經(jīng)在GitHub社區(qū)開源，其中表格檢測數(shù)據(jù)有41.7萬個，表格結(jié)構(gòu)識別數(shù)據(jù)有14.5萬個。

數(shù)據(jù)集地址：https://github.com/doc-analysis/TableBank。

表格檢測與識別：文檔智能分析的第一步

高質(zhì)量、大規(guī)模、帶有標(biāo)注的表格數(shù)據(jù)集的建立，意味著表格識別相關(guān)的機(jī)器學(xué)習(xí)訓(xùn)練可大規(guī)模開展，并將逐步提升表格識別的準(zhǔn)確率。集成了計算機(jī)視覺、OCR等跨領(lǐng)域技術(shù)的TableBank為NLP在實際場景中的應(yīng)用，做好了智能分析表格數(shù)據(jù)的前期準(zhǔn)備。

未來，在企業(yè)文檔分析中，無論是掃描件還是紙質(zhì)文件中的表格識別，都可以基于TableBank訓(xùn)練的模型進(jìn)行。同樣的場景也可以延伸到由PDF轉(zhuǎn)成Word的文檔中的表格轉(zhuǎn)換，企業(yè)年報、員工報銷發(fā)票中的表格信息提取等等。

當(dāng)然，表格只是各類文檔中的一小部分，表格檢測與識別是NLP在文檔分析研究領(lǐng)域的第一步，文檔中的標(biāo)題、段落、腳注、圖片等其他非結(jié)構(gòu)化數(shù)據(jù)的檢測與識別，也是微軟亞洲研究院自然語言計算組的研究范疇。要想真正實現(xiàn)對文檔里的內(nèi)容的智能分析和理解，還有很多研究課題亟待解決。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1200

瀏覽量
24619
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
596

瀏覽量
13482
nlp

nlp

+關(guān)注

關(guān)注
1

文章
484

瀏覽量
21987

原文標(biāo)題：這是一份數(shù)據(jù)量達(dá)41.7萬開源表格數(shù)據(jù)集

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

何為高質(zhì)量的代碼？如何寫出高質(zhì)量代碼？

懂得“數(shù)據(jù)結(jié)構(gòu)與算法” 寫出高效的代碼，懂得“設(shè)計模式”寫出高質(zhì)量的代碼。

發(fā)表于 08-02 09:44 ?758次閱讀

何為<b class='flag-5'>高質(zhì)量</b>的代碼？如何寫出<b class='flag-5'>高質(zhì)量</b>代碼？

protel輸出高質(zhì)量gerber

圖文并茂一步一步手把手教你輸出高質(zhì)量的gerber傻瓜式教學(xué)。。。。[hide] [/hide]

發(fā)表于 12-12 15:43

高質(zhì)量C++、C編程指南

高質(zhì)量C++、C編程指南

發(fā)表于 08-06 11:58

高質(zhì)量C&C++

高質(zhì)量C&C++

發(fā)表于 08-16 19:45

原版PIC實戰(zhàn)項目-C（高質(zhì)量PDF版本）

英文原版，高質(zhì)量保證。

發(fā)表于 07-10 21:42

高質(zhì)量C語言編程

高質(zhì)量c語言，精，精，精，精華

發(fā)表于 07-22 13:48

編寫高質(zhì)量C語言代碼

編寫高質(zhì)量C語言代碼編寫高質(zhì)量C語言代碼編寫高質(zhì)量C語言代碼

發(fā)表于 07-31 17:47

林銳《高質(zhì)量C語言編程》

林銳《高質(zhì)量C語言編程》

發(fā)表于 08-17 12:10

高質(zhì)量C++與C編程指南

高質(zhì)量C++與C編程指南

發(fā)表于 03-09 10:54

高質(zhì)量編程

干貨，《495個C語言問題》、《華為內(nèi)部程序設(shè)計編碼規(guī)范》、《C語言：陷阱和缺陷》、《高質(zhì)量C編程[林銳]》

發(fā)表于 02-27 19:39

【下載】高質(zhì)量干貨-22本高質(zhì)量EMC電磁兼容性設(shè)計資料

22本高質(zhì)量EMC電磁兼容性設(shè)計資料請君自取總體太大壓縮成兩個壓縮包。希望這些內(nèi)容能對大家在設(shè)計上有所幫助！

發(fā)表于 03-20 00:02

請問怎么才能設(shè)計出高質(zhì)量的印制線路板？

怎么才能設(shè)計出高質(zhì)量的印制線路板？

發(fā)表于 04-23 06:57

MIND：高質(zhì)量的新聞推薦數(shù)據(jù)集

。高質(zhì)量基準(zhǔn)數(shù)據(jù)集的缺乏限制了新聞推薦領(lǐng)域的研究進(jìn)展。因此，微軟亞洲研究院聯(lián)合微軟新聞產(chǎn)品團(tuán)隊在 ACL 2020上發(fā)布了一個大規(guī)模的英文新聞推薦數(shù)據(jù)

發(fā)表于 01-07 14:42 ?7736次閱讀

要實現(xiàn)高質(zhì)量AI診斷，需要大量的高質(zhì)量標(biāo)注圖像進(jìn)行前期的算法訓(xùn)練

發(fā)展情況看，有效的人工智能算法大多聚集于存在大量標(biāo)準(zhǔn)化數(shù)據(jù)的病種，畢竟要實現(xiàn)高質(zhì)量AI診斷，需要大量的高質(zhì)量標(biāo)注圖像進(jìn)行前期的算法訓(xùn)練。這一數(shù)據(jù)

發(fā)表于 01-28 15:28 ?2736次閱讀

如何構(gòu)建高質(zhì)量的大語言模型數(shù)據(jù)集

構(gòu)建高質(zhì)量的大語言模型數(shù)據(jù)集是訓(xùn)練強(qiáng)大自然語言處理模型的關(guān)鍵一步。以下是一些關(guān)鍵步驟和考慮因素，有助于創(chuàng)建具有多樣性、準(zhǔn)確性和時效性的數(shù)據(jù)集

發(fā)表于 09-11 17:00 ?1445次閱讀

搜索歷史