在實際工作中,我們可能經常需要從PDF文檔中獲得相關的內容,在沒有安裝Adobe Acrobat的情況下,可以利用Microsoft Office 2007套件中的Microsoft Office Document Imaging組件實現PDF→DOC之間的轉換,具體步驟如下:
第1步:打印為圖像文件
使用Adobe Reader打開相關的PDF文檔,從“文件”菜單下執行“打印”命令,此時會彈出“打印”對話框,由於一般情況默認的打印機大多為真實的物理打印機而非虛擬打印機,因此請從“打印機”下拉列表框中選擇“Microsoft Office Document Imaging Writer”,然後單擊“確認”按鈕,確認後即可將PDF文檔輸出為TIFF格式的圖像文件。
第2步:讀取圖像文件
運行Microsoft Office Document Imaging,這個組件可以從Office程序組的“Office工具”子程序組下找到,打開剛才所打印的圖像文件,選擇“工具→將文本發送到 Word”的命令,此時會彈出對話框,如果你不需要更改輸出文件夾,那麼直接單擊“確定”按鈕,此時會提示“必須在執行此操作前重 新運行OCR。 這可能需要一些時間”,確認後即可開始轉換操作。大家稍等片刻,轉換完成後,系統會自動打開Word窗口並顯示從PDF文檔轉換而來的文檔內容。不過如果 PDF文檔比較復雜的話,某些內容例如圖像、表格可能顯示的不太完美。
如果你只是需要獲得PDF文檔中的文字內容,那麼操作是非常簡單的,首先使用Adobe Reader打開相關的PDF文檔,然後從“文件”菜單下執行“另存為文本”的命令,在隨之彈出的對話框中指定保存路徑和文件名,確認後需要稍等片刻,保存時間取決於當前文檔的頁碼),我們很快就可以獲得一份完整的文本文件,至於原文檔中的圖像內容,就只能另想它法了。