0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Tesseract的安裝測試使用

嵌入式DSP ? 來源:DSP工程師 ? 2019-11-20 15:44 ? 次閱讀

OCR開源項目很多,給大家一個鏈接,這個鏈接列出了現(xiàn)有的比較出名的OCR開源項目,鏈接如下:

https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software

從上面的排名可以看到,Tesseract是排在第一名的!所以下面就認真學習一下Tesseract。首先介紹一下Tesseract,然后安裝,測試,了解其不足等等。

Tesseract的OCR引擎目前已作為開源項目發(fā)布在Google Project,

其項目主頁在這里查看https://github.com/tesseract-ocr,

它支持中文OCR,并提供了一個命令行工具。python中對應(yīng)的包是

pytesseract. 通過這個工具我們可以識別圖片上的文字。

一 Tesseract的安裝測試使用

首先下載Tesseract在Windows下的安裝版。(因為在國外訪問不了谷歌,所以別人***下載了下來,這里給大家百度網(wǎng)盤鏈接)

http://pan.baidu.com/s/1i56Uxlr

根據(jù)https://github.com/tesseract-ocr/tesseract/wiki,找到非官方的安裝包,好像只看到64位的安裝包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下載后直接安裝即可,但是要記得你的安裝目錄,我們等會配置環(huán)境變量要用。

如果不是做英文的圖文識別,還需要下載其他語言的識別包https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。

簡體字識別包:https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

繁體字識別包:https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata

1.3 安裝Tesseract

下載Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安裝就行。(此處附上windows 4.0的安裝過程)

既然是要訓練中文,記得勾選 additional language data

找到中文簡體和中文繁體,按需勾選,然后點下一步

可以先不勾選,因為這樣直接下載語言的包實在太慢??梢詮木W(wǎng)頁上直接下載語言包,然后等程序安裝好后,放入安裝目錄下tessdata目錄下面

下載下來之后一路Next安裝好,然后在開始菜單找到其控制臺引導程序,如下圖所示

1.4 測試英文字符識別

上面的安裝包里自帶了已經(jīng)訓練好的英文-拉丁文識別數(shù)據(jù)~所以我們先來測試一下英文字符的識別吧~識別圖像如下:

1.4.1把上面的圖片放到Tesseract的安裝目錄下,如下圖所示:

1.4.2打開上面提到的控制臺窗口,如下圖所示:

1.4.3在窗口中輸入命令:“tesseract.exe 0.jpg 1”,并回車,如下圖所示:

01.jpg代表待識別的源文件,1代表輸出文件名,默認輸出格式是txt文件格式!

注意,上面的 lang之前是-l 而不是-1!

1.4.4讓我們先查看一下01.jpg照片,如下圖:

1.4.5在安裝目錄下生成了1.txt文件,識別結(jié)果如下圖所示:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4554

    瀏覽量

    92037
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    16264

原文標題:深入學習使用ocr算法識別圖片中文字的方法

文章出處:【微信號:ddongcloud,微信公眾號:嵌入式DSP】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    什么是系統(tǒng)集成測試?DC-DC電源測試系統(tǒng)可以測試哪些參數(shù)?

    對于DC-DC電源模塊的檢測,自動化集成測試系統(tǒng)以其軟硬件結(jié)合的特點成為首選,通過軟件程控實現(xiàn)測試自動化。該系統(tǒng)一般采用自動化測試柜的設(shè)計,便于搬運和安裝,同時節(jié)省了空間。面對電源模塊
    的頭像 發(fā)表于 09-11 18:07 ?175次閱讀
    什么是系統(tǒng)集成<b class='flag-5'>測試</b>?DC-DC電源<b class='flag-5'>測試</b>系統(tǒng)可以<b class='flag-5'>測試</b>哪些參數(shù)?

    電源ATE自動測試系統(tǒng)的定制化測試

    納米軟件電源模塊測試系統(tǒng)采用模塊化內(nèi)嵌式框架結(jié)構(gòu),將測試設(shè)備與測試PC集成在電源測試柜中。該測試柜是標準36U自動化
    的頭像 發(fā)表于 08-26 15:55 ?183次閱讀
    電源ATE自動<b class='flag-5'>測試</b>系統(tǒng)的定制化<b class='flag-5'>測試</b>柜

    家用斷路器的安裝方法

    家用斷路器的安裝是家庭電氣安全的重要環(huán)節(jié),其安裝方法需要細致且準確,以確保電路的安全可靠運行。以下是對家用斷路器安裝方法的詳細介紹,包括安裝前的準備、
    的頭像 發(fā)表于 08-23 11:36 ?376次閱讀

    德國GMC-I多功能安裝測試儀METRALINE MF - 高效、便捷的電氣測試解決方案

    安裝測試儀,用于符合 IEC 60364-6 (DIN VDE 0100-600)、DIN EN 50110-1 (DIN VDE 0105-100)、IEC 61851-1 (DIN VDE 0122-1) 和 EN 61557 (VDE 0413) 相應(yīng)部分的電氣系統(tǒng)
    的頭像 發(fā)表于 05-28 16:18 ?166次閱讀
    德國GMC-I多功能<b class='flag-5'>安裝</b><b class='flag-5'>測試</b>儀METRALINE MF - 高效、便捷的電氣<b class='flag-5'>測試</b>解決方案

    注射器滑動性測試儀的基本測試原理

    文章由濟南三泉智能科技有限公司提供注射器滑動性測試儀的原理主要是通過模擬注射器的推注動作,以評估注射器芯桿在筒體內(nèi)部的滑動性能。具體來說,其工作原理如下:固定與安裝:首先,將待測試的注射器筒體固定
    的頭像 發(fā)表于 05-24 14:18 ?285次閱讀
    注射器滑動性<b class='flag-5'>測試</b>儀的基本<b class='flag-5'>測試</b>原理

    蓄電池整組充放電活化儀上位機軟件安裝說明

    上位機軟件說明1軟件安裝運行SD卡上的setup.exe,用戶按照界面提示步驟進行,即可完成數(shù)據(jù)管理軟件的安裝。2軟件運行運行“桌面-圖標”或運行“開始-程序-蓄電池活化儀分析軟件從菜單中選擇“文件
    的頭像 發(fā)表于 04-08 13:39 ?255次閱讀
    蓄電池整組充放電活化儀上位機軟件<b class='flag-5'>安裝</b>說明

    米爾全志T527開發(fā)板安裝測試軟件

    在上1貼T527開發(fā)板已上電安裝WIFI熱點,這個帖子說明如何安裝安兔兔測試軟件。 1)安卓13自帶瀏覽器沒有下載并安裝apk功能,請先用u盤安裝
    發(fā)表于 03-07 13:36

    探針測試臺工作原理 探針測試臺為嘛測試會偏大?

    探針測試臺是一種用于測試集成電路(IC)的設(shè)備,工作原理是將待測試的IC芯片安裝測試座上,然后通過探針接觸到芯片的引腳,以
    的頭像 發(fā)表于 02-04 15:14 ?2997次閱讀

    48V通信電源安裝調(diào)試

    一、安裝上電及檢查 系統(tǒng)上電前必須良好的接地,測試前必須進行安裝檢查,然后才能對電池進行初次充電。確認交流輸入空開,整流模塊的市電輸入空開和負載空開斷開,確保所有設(shè)備安裝到位。
    的頭像 發(fā)表于 01-05 11:01 ?692次閱讀
    48V通信電源<b class='flag-5'>安裝</b>調(diào)試

    linux docker安裝部署

    Docker是一種開源的容器化平臺,可以幫助開發(fā)者在不同的環(huán)境中快速構(gòu)建、測試和部署應(yīng)用程序。它能夠解決不同操作系統(tǒng)之間的兼容性問題,簡化了應(yīng)用程序的部署過程,并提供了高效的資源利用。本文將帶您詳細
    的頭像 發(fā)表于 11-23 09:27 ?875次閱讀

    cnocr和tesseract的使用方法和效果

    今天嘗試了一下cnocr和tesseract,給大家分別講講兩個模塊的使用方法和效果。 1.準備 開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上噢,如果沒有,請訪問這篇文章: 超詳細
    的頭像 發(fā)表于 11-02 14:37 ?1032次閱讀
    cnocr和<b class='flag-5'>tesseract</b>的使用方法和效果

    OCR如何自動識別圖片文字

    回復希望出一篇 OCR 相關(guān)的文章,今天嘗試了一下 cnocr 和 tesseract 兩個 Python 開源識別工具的效果,給大家分別講講兩個工具的使用方法和對比效果。 1.準備 開始之前,你要確保
    的頭像 發(fā)表于 10-31 16:45 ?642次閱讀
    OCR如何自動識別圖片文字

    關(guān)于兩個Python開源識別工具的效果

    回復希望出一篇 OCR 相關(guān)的文章,今天嘗試了一下 cnocr 和 tesseract 兩個 Python 開源識別工具的效果,給大家分別講講兩個工具的使用方法和對比效果。 1.準備 開始之前,你要確保
    的頭像 發(fā)表于 10-17 11:36 ?528次閱讀
    關(guān)于兩個Python開源識別工具的效果

    Newspaper安裝和使用教程

    中提取關(guān)鍵字 自動提取摘要 自動提取作者 自動提取 Google 趨勢詞 下面是這個開源模塊的安裝和使用教程。 1.準備 開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章: 超詳細Python安裝
    的頭像 發(fā)表于 10-17 10:36 ?639次閱讀

    一種新的PCB測試技術(shù)

    目前隨著使用大規(guī)模集成電路的產(chǎn)品不斷出現(xiàn),相應(yīng)的PCB的安裝測試工作已越來越困難。雖然印制電路板的測試仍然使用在線測試技術(shù)這一傳統(tǒng)方法,但是這種方法由于芯片的小型化及封裝而變得問題越
    發(fā)表于 10-16 15:20 ?317次閱讀