Adobe

PythonでPDFをdocxに変換する pdf2docxをインストール サンプルコード付き

取引先の関係で、PDFをword(docx)に変換したいことがあると思います。ファイル名を変更したかったり、一部分を書き換えたかったり…このようなことは効率化したいですよね。本稿では、pdf2docxを使って変換してみます。公式はこちらから。

pdf2docxをインストールする

pip install pdf2docx

サンプルコード

parseで変換できます。引数に、startとendを設定することができます。サンプルのコメントアウトのようにすると、0ページ目と1ページ目のみ変換します。

from pdf2docx.main import parse

pdf_file = 'sample.pdf'
docx_file = 'sample.docx'

parse(pdf_file, docx_file)

#parse(pdf_file, docx_file, start=0, end=2)