少妇人妻中文字幕HD,www.943vv.com

科大訊飛A.I.研究院聯(lián)合中科大語音及語言信息處理國家工程實(shí)驗(yàn)室（NELSLIP）（以下統(tǒng)稱為訊飛-中科大聯(lián)合團(tuán)隊(duì)）在近期舉辦的計算機(jī)視覺頂級會議CVPR 2019和文檔分析與識別頂級會議ICDAR 2019上的多項(xiàng)評測任務(wù)中獲得冠軍：

1.在計算機(jī)視覺與模式識別國際會議（CVPR 2019）舉辦的物體檢測挑戰(zhàn)賽DIW 2019（Detection in the Wild challenge Workshop 2019）上取得Objects365 Tiny Track第一，Objects365 Full Track第三的佳績；

2.在文檔分析與識別國際會議（ICDAR 2019）舉辦的多項(xiàng)賽事中，包攬手寫數(shù)學(xué)公式識別挑戰(zhàn)賽CROHME（Competition on Recognition of Handwritten Mathematical Expressions）全部兩項(xiàng)任務(wù)以及場景文本視覺問答挑戰(zhàn)賽ST-VQA（Scene Text Visual Question Answering）挑戰(zhàn)賽上全部三項(xiàng)任務(wù)冠軍，此外還取得了街景招牌中文文本識別挑戰(zhàn)賽ReCTS（Reading Chinese Text on Signboard）單字識別任務(wù)冠軍。

這一系列的佳績標(biāo)志著科大訊飛在計算機(jī)視覺領(lǐng)域的積累日益深厚，始終保持著先進(jìn)的水平和探索的步伐。

DIW2019挑戰(zhàn)賽

DIW 2019挑戰(zhàn)賽由曠視科技與北京智源人工智能研究院共同舉辦，該項(xiàng)賽事吸引了包括騰訊、百度、字節(jié)跳動等300多支隊(duì)伍參賽，其所采用的Objects365數(shù)據(jù)集包含63萬張圖像，高達(dá)1000萬人工標(biāo)注框，覆蓋365個日常物體類別，堪稱最大通用物體檢測數(shù)據(jù)集。

相比于大家熟知的ImageNet和COCO數(shù)據(jù)集，Objects365數(shù)據(jù)集更貼近自然場景，覆蓋更多的類別并且提供了更密集的標(biāo)注，由于數(shù)據(jù)分布極度不均衡，因此極大增加了比賽的難度，對算法提出了更高的要求。

作為計算機(jī)視覺的兩項(xiàng)基礎(chǔ)任務(wù)，物體檢測和分割一直以來是業(yè)界主流的研究方向。科大訊飛團(tuán)隊(duì)在2018年10月刷新了國際自動駕駛權(quán)威評測Cityscapes全部兩項(xiàng)子任務(wù)（駕駛場景語義分割和實(shí)例分割）的世界紀(jì)錄。

在本次DIW2019比賽中，訊飛-中科大聯(lián)合團(tuán)隊(duì)在以往視覺技術(shù)積累的基礎(chǔ)上，針對該項(xiàng)任務(wù)中物體尺度多樣性和樣本數(shù)量分布不均衡的特點(diǎn)，對物體檢測的經(jīng)典框架Faster-RCNN進(jìn)行針對性改進(jìn)：混合樣本數(shù)據(jù)增強(qiáng)策略提升網(wǎng)絡(luò)的泛化能力；多級可變形卷積使得網(wǎng)絡(luò)的感受野能夠更加適應(yīng)相應(yīng)尺度下的候選框；級聯(lián)檢測方案逐步提升了候選框的質(zhì)量。此外針對更具挑戰(zhàn)性的Tiny Track任務(wù)（樣本數(shù)量小），遷移Objects365 Full Track模型提升Objects365 Tiny Track的性能，并融合兩個賽道模型進(jìn)一步提升了Full Track的檢測效果。

物體檢測和分割在工業(yè)界同樣具有廣泛的應(yīng)用前景，科大訊飛在這兩項(xiàng)基礎(chǔ)任務(wù)上的技術(shù)積累不僅確保團(tuán)隊(duì)在各項(xiàng)賽事中持續(xù)保持競爭力，也為應(yīng)用落地提供了扎實(shí)的技術(shù)保障，無論是訊飛翻譯機(jī)中的圖文識別，醫(yī)療影像領(lǐng)域中的輔助診斷，以及視頻結(jié)構(gòu)化技術(shù)中的視頻理解等，都蘊(yùn)含著科大訊飛對核心技術(shù)的不懈追求和對應(yīng)用落地的堅(jiān)定決心。

CROHME 挑戰(zhàn)賽

在2018年的ICPR MTWI圖文識別挑戰(zhàn)賽中科大訊飛A.I.研究院包攬了全部三項(xiàng)任務(wù)的冠軍，充分說明了科大訊飛在自然場景文字識別技術(shù)上的領(lǐng)先性。本次訊飛-中科大聯(lián)合團(tuán)隊(duì)選擇挑戰(zhàn)難度更高的手寫數(shù)學(xué)公式識別任務(wù)CROHME。該項(xiàng)賽事由美國羅切斯特理工學(xué)院（Rochester Institute of Technology）負(fù)責(zé)承辦，吸引了MyScript、三星、 WIRIS（MathType）、中科院自動化所、中山大學(xué)等多家在手寫數(shù)學(xué)公式識別領(lǐng)域著名的國內(nèi)外研究機(jī)構(gòu)參與。

訊飛-中科大聯(lián)合團(tuán)隊(duì)參加了在線手寫數(shù)學(xué)公式識別（Online Handwritten Mathematical Expressions Recognition）和離線手寫數(shù)學(xué)公式識別（Offline Handwritten Mathematical Expressions Recognition）的兩項(xiàng)主要任務(wù)，這兩項(xiàng)任務(wù)的不同之處在于，前者的輸入為手寫數(shù)學(xué)公式的筆劃軌跡，它記錄了筆劃書寫的先后順序，常應(yīng)用于實(shí)時的在線手寫識別應(yīng)用場景，在線手寫識別系統(tǒng)需要采集用戶在手機(jī)、平板等在線化輸入設(shè)備上書寫的字符軌跡作為系統(tǒng)輸入；后者的輸入則為手寫數(shù)學(xué)公式的圖像，常應(yīng)用于拍照、掃描等離線手寫識別應(yīng)用場景，該場景下用戶只需要將手寫字符的照片送入離線手寫識別系統(tǒng)中即可完成分析與識別。

在線數(shù)學(xué)公式（手寫軌跡）

離線數(shù)學(xué)公式（靜態(tài)圖像）

CROHME 2019使用的數(shù)據(jù)集是由美國羅切斯特理工學(xué)院收集和標(biāo)注的手寫數(shù)學(xué)公式，其中訓(xùn)練集共9993個，驗(yàn)證集共986個，測試集共1199個，此次比賽不僅要求參賽系統(tǒng)識別出公式中的每個字符，還要求參賽系統(tǒng)給出被識別的字符之間的位置關(guān)系，因此，相比于常規(guī)OCR任務(wù)，該任務(wù)的難點(diǎn)在于：

1)位置關(guān)系

位置關(guān)系不再只是常規(guī)OCR任務(wù)中單一的左右或者上下的關(guān)系，還存在垂直、包含、上下標(biāo)等多種結(jié)構(gòu)關(guān)系以及這些結(jié)構(gòu)關(guān)系之間的組合嵌套；

2)字符尺寸

數(shù)學(xué)公式中的字符尺寸差異較常規(guī)OCR任務(wù)更大；

3)書寫風(fēng)格

書寫者的書寫風(fēng)格會使得某些不同字符之間容易產(chǎn)生混淆，且同樣的字符由不同書寫者書寫，不僅字符形態(tài)差異可能會很大，對于在線任務(wù)來說，其筆劃軌跡的順序也有可能會不一致；

科大訊飛在手寫文字識別領(lǐng)域已深耕多年。與將字符識別和位置關(guān)系識別分別建模的傳統(tǒng)數(shù)學(xué)公式識別思路不同，科大訊飛使用的參賽系統(tǒng)正是借鑒了手寫文字識別技術(shù)中基于空間注意力機(jī)制的Encoder-Decoder思想，實(shí)現(xiàn)了數(shù)學(xué)公式的字符和位置關(guān)系的端到端識別，同時提出了多尺度空間注意力機(jī)制以解決由字符尺寸差異較大帶來的識別字符丟失問題。此外，針對不同書寫者書寫風(fēng)格迥異的問題，提出了空間注意力引導(dǎo)機(jī)制和時間注意力機(jī)制，從空間和時間兩個維度上提升注意力的準(zhǔn)確度，最后融合了多種不同模態(tài)的信息提升了系統(tǒng)最終決策的效果。

基于雄厚的人工智能核心技術(shù)，科大訊飛在應(yīng)用領(lǐng)域正積極落地。特別在教育領(lǐng)域，以行業(yè)領(lǐng)先的高精準(zhǔn)手寫識別技術(shù)、智能評測技術(shù)為典型應(yīng)用代表的智能評卷系統(tǒng)，目前已經(jīng)在CET、多地中高考中實(shí)現(xiàn)了人機(jī)結(jié)合的智能輔助評分新方式，最大限度的保證了評卷質(zhì)量。同時，在日常教學(xué)環(huán)節(jié)中，基于對每一個學(xué)生個體作業(yè)練習(xí)測試的精準(zhǔn)識別和深度數(shù)據(jù)挖掘，科大訊飛形成了以數(shù)據(jù)驅(qū)動方式實(shí)現(xiàn)的個性化精準(zhǔn)教學(xué)。通過圖文識別、智能評測分析每個學(xué)生的知識掌握薄弱環(huán)節(jié)，針對性地實(shí)現(xiàn)個性化學(xué)習(xí)推薦，讓每個孩子回家后有針對自己能力水平的不同家庭作業(yè)，讓每個老師有更多的時間推動因材施教。

ST-VQA挑戰(zhàn)賽

ST-VQA（Scene Text Visual Question Answering）是由CVC（Computer Vision Center）舉辦的一項(xiàng)視覺問答挑戰(zhàn)賽，要求算法能夠像人類一樣解析圖像中實(shí)體之間的關(guān)系，并正確地回答出問題。這一方面對算法的圖像檢測和分割等前端技術(shù)提出了要求；另一方面還需要算法具備多模態(tài)數(shù)據(jù)融合、理解和推理的能力，是未來人工智能的發(fā)展方向之一。

如在下圖的場景中為了找出藍(lán)色公交車的目的地，首先需要正確地識別出藍(lán)色公交車的位置，并推理出公交車的目的地顯示在公交車前方的電子顯示屏上，最后需要算法識別出電子顯示屏上的內(nèi)容。

ST-VQA比賽總共分為三個任務(wù)，分別為Task1-Strongly Contextualized、Task2-Weakly Contextualized和Task3-Open Dictionary，這三項(xiàng)任務(wù)的不同之處在于Task1會對每張圖像給定一個候選詞表，Task2會對整個數(shù)據(jù)集給定一個候選詞表，而Task3則沒有額外的詞表用于輔助答案的預(yù)測。這三個任務(wù)的難度逐漸增加，訊飛-中科大聯(lián)合團(tuán)隊(duì)參加了全部三項(xiàng)比賽，并包攬冠軍。

針對于此次參加的ST-VQA任務(wù)，訊飛-中科大聯(lián)合團(tuán)隊(duì)將模型分為視覺理解前端模型和視覺推理后端模型。文本檢測和物體檢測模型作為前端模型從圖像中提取出有效實(shí)體，此外針對數(shù)據(jù)集中的語料少的問題，借鑒了科大訊飛在SQuAD2.0評測任務(wù)上采用無監(jiān)督預(yù)訓(xùn)練模型的思想并加以改進(jìn)，成功融入到了前端模塊中。

在后端網(wǎng)絡(luò)的設(shè)計上，團(tuán)隊(duì)設(shè)計了相應(yīng)的Encoder-Decoder模型用于融合上述從圖像中提取得到的實(shí)體信息和問題數(shù)據(jù)并預(yù)測出答案，此外在Encoder-Decoder模型的設(shè)計過程中融合了多任務(wù)的設(shè)計思想，使其能夠兼容三項(xiàng)任務(wù)，從而使得這三項(xiàng)任務(wù)能夠同時訓(xùn)練，相互提升。參加ST-VQA比賽，是訊飛在視覺理解以及多模態(tài)數(shù)據(jù)融合方面的前瞻性探索，比賽中使用的技術(shù)為公司未來在多模態(tài)交互方面的發(fā)展打下了基礎(chǔ)。

作為亞太地區(qū)知名的智能語音與人工智能上市公司，圍繞著訊飛超腦，科大訊飛一直秉承技術(shù)頂天、產(chǎn)品落地的戰(zhàn)略理念，在核心技術(shù)上不斷創(chuàng)新?；诖?，科大訊飛在智能語音、自然語言處理等領(lǐng)域碩果累累，也在視覺場景理解領(lǐng)域獲得長足進(jìn)步，并且積極推動相關(guān)賽道技術(shù)落地，在教育、醫(yī)療、政法等業(yè)務(wù)上已經(jīng)取得了很好的成效。未來，訊飛將全面持續(xù)推進(jìn)核心技術(shù)的優(yōu)化迭代與落地應(yīng)用，努力踐行用人工智能建設(shè)美好世界的公司使命。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
28876

瀏覽量
266216
計算機(jī)視覺

計算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1685

瀏覽量
45811
科大訊飛

科大訊飛

+關(guān)注

關(guān)注
19

文章
772

瀏覽量
60867

原文標(biāo)題：科大訊飛奪冠2019年度計算機(jī)視覺頂級會議CVPR和ICDAR多項(xiàng)評測

文章出處：【微信號：iFLYTEK1999，微信公眾號：科大訊飛】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Nullmax視覺感知能力再獲國際頂級學(xué)術(shù)會議認(rèn)可

日前，歐洲計算機(jī)視覺國際會議 ECCV 2024公布論文錄用結(jié)果，Nullmax感知團(tuán)隊(duì)的目標(biāo)檢測論文《SimPB: A Single Model for 2D and 3D Object Detection from Mult

發(fā)表于 09-02 14:07 ?274次閱讀

銳思智芯展示融合視覺感知技術(shù)創(chuàng)新與產(chǎn)品應(yīng)用

日前，計算機(jī)視覺和人工智能領(lǐng)域最具影響力的頂級學(xué)術(shù)會議——IEEE國際計算機(jī)視覺與模式識別

發(fā)表于 08-28 14:36 ?333次閱讀

計算機(jī)視覺有哪些優(yōu)缺點(diǎn)

計算機(jī)視覺作為人工智能領(lǐng)域的一個重要分支，旨在使計算機(jī)能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動了多個行業(yè)的變革，也帶來了諸多優(yōu)勢，但同時也伴隨著一些挑戰(zhàn)和局限性。以下是對

發(fā)表于 08-14 09:49 ?286次閱讀

機(jī)器視覺和計算機(jī)視覺有什么區(qū)別

機(jī)器視覺和計算機(jī)視覺是兩個密切相關(guān)但又有所區(qū)別的概念。一、定義機(jī)器視覺機(jī)器視覺，又稱為計算機(jī)

發(fā)表于 07-16 10:23 ?282次閱讀

計算機(jī)視覺的工作原理和應(yīng)用

圖像和視頻中提取有用信息，進(jìn)而進(jìn)行決策和行動。自1960年代第一批學(xué)術(shù)論文問世以來，計算機(jī)視覺技術(shù)已經(jīng)取得了長足的發(fā)展，并在多個領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力和價值。

發(fā)表于 07-10 18:24 ?1064次閱讀

計算機(jī)視覺與人工智能的關(guān)系是什么

引言 計算機(jī)視覺是一門研究如何使計算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機(jī)器學(xué)習(xí)等多個領(lǐng)域的知識。人工智能則是研究如何使計算

發(fā)表于 07-09 09:25 ?306次閱讀

計算機(jī)視覺和機(jī)器視覺區(qū)別在哪

計算機(jī)視覺和機(jī)器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。一、定義 計算機(jī)視覺 計算機(jī)

發(fā)表于 07-09 09:22 ?289次閱讀

計算機(jī)視覺和圖像處理的區(qū)別和聯(lián)系

計算機(jī)視覺和圖像處理是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計算機(jī)視覺 計算機(jī)視覺

發(fā)表于 07-09 09:16 ?541次閱讀

計算機(jī)視覺屬于人工智能嗎

屬于，計算機(jī)視覺是人工智能領(lǐng)域的一個重要分支。引言 計算機(jī)視覺是一門研究如何使計算機(jī)具有視覺能

發(fā)表于 07-09 09:11 ?549次閱讀

OpenCV攜Orbbec 3D相機(jī)亮相CVPR 2024，加速AI視覺創(chuàng)新

在科技發(fā)展的浪潮中，一年一度的IEEE國際計算機(jī)視覺與模式識別會議（CVPR）無疑是視覺技術(shù)領(lǐng)域

發(fā)表于 06-21 10:15 ?459次閱讀

計算機(jī)視覺的主要研究方向

計算機(jī)視覺（Computer Vision, CV）作為人工智能領(lǐng)域的一個重要分支，致力于使計算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展，計算機(jī)

發(fā)表于 06-06 17:17 ?520次閱讀

計算機(jī)視覺的十大算法

隨著科技的不斷發(fā)展，計算機(jī)視覺領(lǐng)域也取得了長足的進(jìn)步。本文將介紹計算機(jī)視覺領(lǐng)域的十大算法，包括它們的基本原理、應(yīng)用場景和優(yōu)缺點(diǎn)。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)

發(fā)表于 02-19 13:26 ?1045次閱讀

什么是計算機(jī)視覺？計算機(jī)視覺的三種方法

計算機(jī)視覺是指通過為計算機(jī)賦予人類視覺這一技術(shù)目標(biāo)，從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計算機(jī)缺乏像人類一樣憑直覺產(chǎn)生

發(fā)表于 11-16 16:38 ?4159次閱讀

最適合AI應(yīng)用的計算機(jī)視覺類型是什么？

計算機(jī)視覺是指為計算機(jī)賦予人類視覺這一技術(shù)目標(biāo)，從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計算機(jī)缺乏像人類一樣憑直覺產(chǎn)生

發(fā)表于 11-15 16:38 ?346次閱讀

科大訊飛ICDAR 2023收獲四項(xiàng)冠軍，圖文識別理解能力持續(xù)進(jìn)階

作為文檔圖像分析識別領(lǐng)域最重要的國際會議之一，國際文檔分析與識別會議ICDAR 2023（International Conference on Document Analysis

發(fā)表于 11-03 14:09 ?502次閱讀