可將 PDF 轉(zhuǎn)換成 docx 文件的 Python 庫。該項(xiàng)目通過 PyMuPDF 庫提取 PDF 文件中的數(shù)據(jù),然后采用 python-docx 庫解析內(nèi)容的布局、段落、圖片、表格等,最后自動(dòng)生成 docx 文件。
pdf2docx功能
-解析和創(chuàng)建頁面布局
-頁邊距
-章節(jié)和分欄(目前最多支持兩欄布局)
-頁眉和頁腳[TODO]
-解析和創(chuàng)建段落
-OCR文本[TODO]
-水平(從左到右)或豎直(自底向上)方向文本
-字體樣式例如字體、字號(hào)、粗/斜體、顏色
-文本樣式例如高亮、下劃線和刪除線
-列表樣式[TODO]
-外部超鏈接
-段落水平對(duì)齊方式(左/右/居中/分散對(duì)齊)及前后間距
-解析和創(chuàng)建圖片
-內(nèi)聯(lián)圖片
-灰度/RGB/CMYK等顏色空間圖片
-帶有透明通道圖片
-浮動(dòng)圖片(襯于文字下方)
-解析和創(chuàng)建表格
-邊框樣式例如寬度和顏色
-單元格背景色
-合并單元格
-單元格垂直文本
-隱藏部分邊框線的表格
-嵌套表格
-支持多進(jìn)程轉(zhuǎn)換
pdf2docx
同時(shí)解析出了表格內(nèi)容和樣式,因此也可以作為一個(gè)表格內(nèi)容提取工具。
限制
-目前暫不支持掃描PDF文字識(shí)別
-僅支持從左向右書寫的語言(因此不支持阿拉伯語)
-不支持旋轉(zhuǎn)的文字
-基于規(guī)則的解析無法保證100%還原PDF樣式
安裝
pipinstallpdf2docx
案例
frompdf2docximportparse
pdf_file='/path/to/sample.pdf'
docx_file='path/to/sample.docx'
#convertpdftodocx
parse(pdf_file,docx_file)
Run
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
原文標(biāo)題:只需2行代碼,輕松將PDF轉(zhuǎn)換成Word
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
相關(guān)推薦
本帖最后由 滿街`遊.赱 于 2012-2-7 09:48 編輯
pdf轉(zhuǎn)換成word轉(zhuǎn)換器 12.0下載地址:http://xiaz
發(fā)表于 02-07 09:48
pdf轉(zhuǎn)換成word顯示亂碼,pdf復(fù)制文字文件打開時(shí)亂碼,為什么呢?有誰知道嗎?
發(fā)表于 12-01 16:10
ppt轉(zhuǎn)換成word的轉(zhuǎn)換方法是什么?這就是要交給大家的。繼續(xù)往下看,就會(huì)明白了,其實(shí)文件之間的轉(zhuǎn)換是非常的簡單,你與文件之間只差個(gè)轉(zhuǎn)換器。
發(fā)表于 10-25 14:45
鐘將pdf轉(zhuǎn)換成jpg?! ∵@里向大家推薦一個(gè)非常簡單而又實(shí)用的方法,那就是使用迅捷PDF在線轉(zhuǎn)換器這個(gè)軟件就可以搞定了。這款軟件可以完美的
發(fā)表于 10-28 11:27
ppt轉(zhuǎn)換成word文檔?今天就給大家詳細(xì)的介紹下。讓我們一起來看下吧! 迅捷pdf轉(zhuǎn)換器是國內(nèi)首款具備智能轉(zhuǎn)換技術(shù)的
發(fā)表于 10-28 11:29
文件轉(zhuǎn)換的問題,不知所措。今天呢就再次給大家分享如何能把ppt轉(zhuǎn)換成word的方法,讓那些還是不會(huì)轉(zhuǎn)換文件的朋友學(xué)習(xí)一下。下面就詳細(xì)的跟大家講解一下?! ∥疫€是推薦大家使用迅捷
發(fā)表于 10-31 15:03
就可以了,簡單方便又使用,那么我們今天就討論下怎么使用軟件把ppt轉(zhuǎn)換成word文檔吧?下面就一起的來看看吧! 迅捷pdf轉(zhuǎn)換器將PPT文
發(fā)表于 11-01 14:41
”模式?! ?b class='flag-5'>2、點(diǎn)擊軟件界面的“添加文件”將需要轉(zhuǎn)換的PDF文件加入文件列表中,一次可添加多個(gè)?! ?、設(shè)置輸出文本路徑,自定義文設(shè)置文件儲(chǔ)存的位置。 4、點(diǎn)擊“開始
發(fā)表于 11-02 10:24
支持多種格式轉(zhuǎn)換的軟件,可將Word/Excel/PPT、JPG等格式的文件快速轉(zhuǎn)換成PDF,也支持PDF轉(zhuǎn)Office、圖片、TXT、HT
發(fā)表于 11-03 11:04
今天就以最簡單的把Excel轉(zhuǎn)換成word,拿出來跟大家分享下,把Excel轉(zhuǎn)換成word應(yīng)該怎么轉(zhuǎn)換?下面就一起看看吧! 迅捷
發(fā)表于 11-03 15:10
本帖最后由 1714472470 于 2016-11-18 11:51 編輯
在說過了那么多文件格式的轉(zhuǎn)換方法后,發(fā)現(xiàn)大家最常用到的還是pdf轉(zhuǎn)換成word格式,但是很多朋友
發(fā)表于 11-18 11:03
完成所有文件的轉(zhuǎn)換工作它的操作也很簡單。 把ppt轉(zhuǎn)換成word文檔,轉(zhuǎn)換器使用的詳細(xì)方法: 1、先下載pdf
發(fā)表于 03-17 13:56
,因此能夠更好地針對(duì)不同文件內(nèi)容的PDF文件進(jìn)行全面更新。即便針對(duì)超大容量以及復(fù)雜的內(nèi)容的PDF文件,迅捷軟件本身也可以輕松實(shí)現(xiàn)極速轉(zhuǎn)換。它的操作也很簡單,一學(xué)就會(huì)?! pt
發(fā)表于 03-20 14:37
此壓縮文件里面包含二款轉(zhuǎn)換工具:pdf轉(zhuǎn)換成word轉(zhuǎn)換器與word
發(fā)表于 09-18 09:17
?110次下載
經(jīng)常做設(shè)計(jì)的相關(guān)的伙伴們可能都知道Word怎樣轉(zhuǎn)換成PDF文件,畢竟在很多的辦公軟件都是可以相通的,我們?cè)谠O(shè)計(jì)中,不光單單是為了設(shè)計(jì),有時(shí)候,為了需要,也會(huì)將world轉(zhuǎn)換成
發(fā)表于 09-28 08:00
?0次下載
評(píng)論