0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開源OCR 過(guò)程介紹

人工智能與大數(shù)據(jù)技術(shù) ? 來(lái)源:人工智能與大數(shù)據(jù)技術(shù) ? 作者:人工智能與大數(shù)據(jù) ? 2020-10-30 10:54 ? 次閱讀

不久前,百度技術(shù)團(tuán)隊(duì)在不久前,百度技術(shù)團(tuán)隊(duì)在 GitHub 上正式開源了一款 OCR 神器,在發(fā)布后不久便多次沖上 GitHub Trending 榜單,引起了技術(shù)圈內(nèi)開發(fā)者的熱議,今天就跟大家好好介紹下這個(gè)項(xiàng)目。

眾所周知,OCR(Optical Character Recognition,光學(xué)字符識(shí)別) 技術(shù)已被廣泛應(yīng)用到我們生活中的方方面面,從印刷稿的文字識(shí)別、身份證電子信息錄入,到傳統(tǒng)郵件自動(dòng)分揀、汽車牌照識(shí)別等領(lǐng)域,都上正式開源了一款 OCR 神器,在發(fā)布后不久便多次沖上 GitHub Trending 榜單,引起了技術(shù)圈內(nèi)開發(fā)者的熱議,今天就跟大家好好介紹下這個(gè)項(xiàng)目。

眾所周知,OCR(Optical Character Recognition,光學(xué)字符識(shí)別) 技術(shù)已被廣泛應(yīng)用到我們生活中的方方面面,從印刷稿的文字識(shí)別、身份證電子化信息錄入,到傳統(tǒng)郵件自動(dòng)分揀、汽車牌照識(shí)別等領(lǐng)域,都少不了 OCR 的身影。

在平時(shí)工作的時(shí)候,我也經(jīng)常會(huì)使用一些 OCR 軟件來(lái)掃描圖片并提取文字,而要替代人工完成一系列的文本分析,圖像識(shí)別操作,則必將使用到 AI 技術(shù)。

百度在 GitHub 上開源的 PaddleOCR 模型,大小僅有 8.6M,是目前圈內(nèi)為數(shù)不多,能支持中英文圖像、橫豎排排版識(shí)別的 AI 深度學(xué)習(xí)模型之一。

先看下 PaddleOCR 自今年年中開源以來(lái),短短幾個(gè)月在 GitHub 上的表現(xiàn):

7 月,8.6M 超輕量模型發(fā)布,GitHub Trending 全球日榜榜單第一!

8 月,開源 CVPR2020 頂會(huì) SOTA 算法,再上 GitHub 趨勢(shì)榜單!

9 月,GitHub Star 數(shù)量已超過(guò) 4.6K, 近期又帶來(lái)哪些重磅更新?

果然,看 9 月最新更新,PaddleOCR 再次誠(chéng)意滿滿為大家?guī)?lái)真干貨,直接看官方介紹:

01. 官方介紹

數(shù)量上,這次 PaddleOCR 一口氣發(fā)布了三個(gè)系列模型,滿足移動(dòng)端、服務(wù)器端各種場(chǎng)景需求。而且,多語(yǔ)言也妥妥安排上了,全部訓(xùn)練代碼和模型毫無(wú)保留開源。其中 3.5M 超輕量文字識(shí)別模型,堪稱目前業(yè)界開源的最輕量 OCR 模型了。質(zhì)量上,如此輕量的模型,效果有保障嗎?不看廣告,直接看療效。 先看幾個(gè)常見的通用場(chǎng)景識(shí)別效果:

3.5M 的模型能達(dá)到這個(gè)識(shí)別精度,絕對(duì)是良心之作了!傳送門 Github:https://github.com/PaddlePaddle/PaddleOCR論文下載鏈接:https://arxiv.org/abs/2009.09941

02. 快速體驗(yàn)

PaddleOCR 的 3.5M 超輕量 OCR 模型1).PC 端快速嘗試:(打開網(wǎng)頁(yè),選一張圖片,即可實(shí)時(shí)看到結(jié)果) https://www.paddlepaddle.org.cn/hub/scene/ocr

2). 手機(jī)端 App 安裝體驗(yàn)PaddleOCR 在百度大腦 EasyEdge 上開放了文字識(shí)別 APP demo。 示例效果如下(可以在 github 首頁(yè)找到下載二維碼)

多個(gè)開源 repo 測(cè)試對(duì)比

簡(jiǎn)單對(duì)比一下目前主流 OCR 方向開源 repo 的核心能力:

3). 從性能指標(biāo)來(lái)看:

針對(duì) OCR 實(shí)際應(yīng)用場(chǎng)景,包括合同,車牌,銘牌,火車票,化驗(yàn)單,表格,證書,街景文字,名片,數(shù)碼顯示屏等,收集的 300 張圖像,每張圖平均有 17 個(gè)文本框,PaddleOCR 的 F1-Score 超過(guò) 0.5,這個(gè)性能已經(jīng)很不錯(cuò)了。

4). 從功能完備來(lái)看:

預(yù)訓(xùn)練模型大?。篹asyOCR 目前暫無(wú)超輕量模型,chineseocr_lite 最新的模型是 4.7M 左右,而 PaddleOCR 提供的 3.5M 無(wú)疑是目前業(yè)界已知最輕量的。

PIP 安裝:目前僅 PaddleOCR 和 easyOCR 支持。

自定義訓(xùn)練:實(shí)際業(yè)務(wù)場(chǎng)景中,預(yù)訓(xùn)練模型往往不能滿足需求,對(duì)于自定義訓(xùn)練和模型 Finetuning,目前只有 PaddleOCR 支持。

部署方面:easyOCR 模型較大不適合端側(cè)部署,Chineseocr_lite 和 PaddleOCR 都具備端側(cè)部署能力。

開發(fā)者可以根據(jù)自己的實(shí)際需求,選擇適合自己的開源方案。 對(duì)于 PaddleOCR3.5MB 的超輕量模型,是如何做到的,repo 中也給出了解釋。

3.5M 超輕量模型應(yīng)用了一套超輕量 OCR 系統(tǒng) PP-OCR,主要由 DB 文本檢測(cè)、檢測(cè)框矯正和 CRNN 文本識(shí)別三部分組成。該系統(tǒng)從骨干網(wǎng)絡(luò)選擇和調(diào)整、預(yù)測(cè)頭部的設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、學(xué)習(xí)率變換策略、正則化參數(shù)選擇、預(yù)訓(xùn)練模型使用以及模型自動(dòng)裁剪量化 8 個(gè)方面,采用 19 個(gè)有效策略,對(duì)各個(gè)模塊的模型進(jìn)行效果調(diào)優(yōu)和瘦身。 其中,飛槳模型壓縮庫(kù) PaddleSlim 為 PaddleOCR 超輕量化模型的實(shí)現(xiàn)提供了核心的技術(shù)支撐。從超輕量模型 8.1M 的壓縮到 3.5M,模型大小降低了 56.79%,其中檢測(cè)模型速度提升 21%,而且整體模型精度還有提升。

除了 3.5M 超輕量 OCR 模型,PaddleOCR 提供了多語(yǔ)言預(yù)訓(xùn)練模型(英、德、法、韓、日),支持自定義訓(xùn)練和豐富的部署方式。

責(zé)任編輯:PSY

原文標(biāo)題:Github標(biāo)星4.6K+!這個(gè)OCR開源項(xiàng)目,火了!

文章出處:【微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3125

    瀏覽量

    42067
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    16261
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    461

    瀏覽量

    16232

原文標(biāo)題:Github標(biāo)星4.6K+!這個(gè)OCR開源項(xiàng)目,火了!

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    光學(xué)識(shí)別的過(guò)程包含哪些

    光學(xué)識(shí)別(Optical Character Recognition,OCR)是一種將圖像中的文字轉(zhuǎn)換為機(jī)器可讀文本的技術(shù)。這個(gè)過(guò)程涉及多個(gè)步驟,包括圖像預(yù)處理、文本檢測(cè)、字符分割、字符識(shí)別和后處理
    的頭像 發(fā)表于 09-10 15:36 ?135次閱讀

    ?介紹一款Java開發(fā)的開源MES系統(tǒng)

    ?介紹一款Java開發(fā)的開源MES系統(tǒng),萬(wàn)界星空科技開源的MES系統(tǒng)。該系統(tǒng)基于Java開發(fā),具有廣泛的適用性和高度的可定制性,能夠滿足不同行業(yè)、不同規(guī)模企業(yè)的智能制造需求。
    的頭像 發(fā)表于 09-05 17:39 ?279次閱讀
    ?<b class='flag-5'>介紹</b>一款Java開發(fā)的<b class='flag-5'>開源</b>MES系統(tǒng)

    明治案例 | PE編織袋【大視野】【OCR識(shí)別】

    OCR識(shí)別技術(shù)OCR識(shí)別技術(shù)在工業(yè)生產(chǎn)中扮演著至關(guān)重要的角色。它利用先進(jìn)的圖像處理技術(shù),自動(dòng)、高效地識(shí)別并轉(zhuǎn)換圖像中的文字信息為可編輯的文本數(shù)據(jù)。這一技術(shù)的應(yīng)用確保了生產(chǎn)數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,為生
    的頭像 發(fā)表于 08-13 08:25 ?280次閱讀
    明治案例 | PE編織袋【大視野】【<b class='flag-5'>OCR</b>識(shí)別】

    智能手機(jī)充電頭OCR精準(zhǔn)識(shí)別

    文本是人類最重要的信息來(lái)源之一,自然場(chǎng)景中充滿了形形色色的文字符號(hào)。光學(xué)字符識(shí)別(OCR)相信大家都不陌生。而工業(yè)場(chǎng)景的圖像文字識(shí)別更加復(fù)雜,OCR出現(xiàn)在很多不同的場(chǎng)合,對(duì)某些特殊的表面、產(chǎn)品整體上
    的頭像 發(fā)表于 06-11 08:24 ?298次閱讀
    智能手機(jī)充電頭<b class='flag-5'>OCR</b>精準(zhǔn)識(shí)別

    如何判斷觸摸屏用有機(jī)硅OCR/LOCA性能的優(yōu)劣

    判斷OCR/LOCA性能的優(yōu)劣
    的頭像 發(fā)表于 02-29 10:48 ?397次閱讀

    OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

    : 無(wú)論是中英文的大段文字: 還是包含了公式的文檔圖片: 又或是手機(jī)頁(yè)面截圖: 甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式: 當(dāng)然,作為多模大模型,通用能力的保持也是必須的: Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長(zhǎng)的 pipline,直接
    的頭像 發(fā)表于 12-24 21:40 ?1663次閱讀
    <b class='flag-5'>OCR</b>終結(jié)了?曠視提出可以文檔級(jí)<b class='flag-5'>OCR</b>的多模態(tài)大模型框架Vary,支持中英文,已<b class='flag-5'>開源</b>!

    ?【AWTK開源智能串口屏方案】方案介紹和工作原理

    本篇文章介紹一下AWTK開源智能串口屏方案的基本原理和實(shí)際使用效果,包括主要特點(diǎn)、應(yīng)用場(chǎng)景、工作原理以及簡(jiǎn)單的Demo演示。引言:AWTK-HMI是基于AWTK與AWTK-MVVM開發(fā)的低代碼智能
    的頭像 發(fā)表于 12-21 08:24 ?768次閱讀
    ?【AWTK<b class='flag-5'>開源</b>智能串口屏方案】方案<b class='flag-5'>介紹</b>和工作原理

    Banana Pi BPI-M6開源硬件開發(fā)板介紹以及與 Raspberry Pi 5 的比較

    Banana Pi BPI-M6開源硬件開發(fā)板介紹以及與 Raspberry Pi 5 的比較
    的頭像 發(fā)表于 11-09 09:22 ?573次閱讀
    Banana Pi BPI-M6<b class='flag-5'>開源</b>硬件開發(fā)板<b class='flag-5'>介紹</b>以及與 Raspberry Pi 5 的比較

    基于OpenVINO+OpenCV的OCR處理流程化實(shí)現(xiàn)

    預(yù)處理主要是基于OpenCV、場(chǎng)景文字檢測(cè)與識(shí)別基于OpenVINO框架 + PaddleOCR模型完成。直接按圖索驥即可得到最終結(jié)果。 OpenCV預(yù)處理主要是完成偏斜矯正、背景矯正等操作,然后使用場(chǎng)景文字檢測(cè)模型+OCR識(shí)別模型完成中英文識(shí)別。
    的頭像 發(fā)表于 11-07 11:21 ?616次閱讀
    基于OpenVINO+OpenCV的<b class='flag-5'>OCR</b>處理流程化實(shí)現(xiàn)

    OCR如何自動(dòng)識(shí)別圖片文字

    OCR 是光學(xué)字符識(shí)別(英語(yǔ):Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程。 很早之前就有同學(xué)在公眾號(hào)后臺(tái)
    的頭像 發(fā)表于 10-31 16:45 ?636次閱讀
    <b class='flag-5'>OCR</b>如何自動(dòng)識(shí)別圖片文字

    easyocr:超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具

    今天給大家介紹一個(gè)超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具: easyocr . 這個(gè)模塊支持70多種語(yǔ)言的即用型OCR,包括中文,日文,韓文和泰文等。 下面是這個(gè)模塊的實(shí)戰(zhàn)教程。 1.準(zhǔn)備 開始之前,你
    的頭像 發(fā)表于 10-30 09:30 ?2322次閱讀
    easyocr:超級(jí)簡(jiǎn)單且強(qiáng)大的<b class='flag-5'>OCR</b>文本識(shí)別工具

    關(guān)于兩個(gè)Python開源識(shí)別工具的效果

    OCR 是光學(xué)字符識(shí)別(英語(yǔ):Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程。 很早之前就有同學(xué)在公眾號(hào)后臺(tái)
    的頭像 發(fā)表于 10-17 11:36 ?520次閱讀
    關(guān)于兩個(gè)Python<b class='flag-5'>開源</b>識(shí)別工具的效果

    【KV260視覺入門套件試用體驗(yàn)】Vitis AI Library體驗(yàn)之OCR識(shí)別

    OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀
    發(fā)表于 10-16 23:25

    華為云發(fā)布 CodeArts?Governance 開源治理服務(wù),開源使用更安心

    在華為云服務(wù)上,助力企業(yè)更加安全、更加高效的使用開源軟件。 開源軟件的使用在當(dāng)前軟件開發(fā)過(guò)程中已經(jīng)成為不可或缺的一部分,根據(jù)最近的一項(xiàng)調(diào)查報(bào)告顯示,全球超過(guò) 90%的企業(yè)在其軟件開發(fā)過(guò)程
    的頭像 發(fā)表于 10-12 15:41 ?372次閱讀
    華為云發(fā)布 CodeArts?Governance <b class='flag-5'>開源</b>治理服務(wù),<b class='flag-5'>開源</b>使用更安心

    【KV260視覺入門套件試用體驗(yàn)】七、VITis AI字符和文本檢測(cè)(OCR&amp;Textmountain)

    ?filename=xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 鏡像下載地址 1.2、SD卡系統(tǒng)燒錄 balenaEtcher軟件 二、字符和文本檢測(cè)介紹 字符和文本檢測(cè)是計(jì)算機(jī)
    發(fā)表于 09-26 16:31