如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。
Python 第三方模塊 Camelot 能夠精準(zhǔn)識別PDF中的表格信息,并提取為pandas數(shù)據(jù)結(jié)構(gòu),而且還能導(dǎo)出為多種格式:JSON,Excel,HTML和Sqlite。
下面給大家介紹這個模塊的使用方法:
1.準(zhǔn)備
開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。
如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.
此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點:Python 編程的最好搭檔—VSCode 詳細(xì)指南。
請選擇以下任一種方式輸入命令安裝依賴 :
- Windows 環(huán)境 打開 Cmd (開始-運行-CMD)。
- MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
- 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]
2.使用
最簡單的使用方式如下:
import camelot
# 1.讀取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.導(dǎo)出pdf所有的表格為csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite
第一行,導(dǎo)入了camelot這個模塊。
第二行,以stream的模式讀取當(dāng)前目錄的foo.pdf文件。
第三行,將所有表格數(shù)據(jù)導(dǎo)出為 foo.csv 文件,并保存在當(dāng)前文件夾下。
相當(dāng)簡單,請注意,read_pdf 的 flavor 參數(shù)是可選的,如果你不帶這個參數(shù),請注意需要安裝 ghostscript 這個驅(qū)動,因為它默認(rèn)使用 ghostscript 去用 lattice 模式。
3.進(jìn)階
3.1 處理背景線:
可以看到,很多表格的線都隱藏在背景中。這種表格默認(rèn)是不支持的,這時候我們需要讓程序能夠自動識別這樣的表格:
tables = camelot.read_pdf('background_lines.pdf', process_background=True)
增加 process_background=True 參數(shù)即可。
3.2 指定表格區(qū)域
某些情況下無法正確識別到PDF中的表格,此時手動設(shè)定左上角和右下角的邊界可能是有效果的:
tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])
其中 table_areas
接受格式為 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐標(biāo)空間中,頁面的左下角是原點,坐標(biāo)為(0,0)。
-
數(shù)據(jù)結(jié)構(gòu)
+關(guān)注
關(guān)注
3文章
569瀏覽量
40072 -
python
+關(guān)注
關(guān)注
55文章
4767瀏覽量
84375 -
提取器
+關(guān)注
關(guān)注
0文章
14瀏覽量
8110
發(fā)布評論請先 登錄
相關(guān)推薦
評論