取引先の関係で、PDFをword(docx)に変換したいことがあると思います。ファイル名を変更したかったり、一部分を書き換えたかったり…このようなことは効率化したいですよね。本稿では、pdf2docxを使って変換してみます。公式はこちらから。
pdf2docxをインストールする
pip install pdf2docx
サンプルコード
parseで変換できます。引数に、startとendを設定することができます。サンプルのコメントアウトのようにすると、0ページ目と1ページ目のみ変換します。
from pdf2docx.main import parse
pdf_file = 'sample.pdf'
docx_file = 'sample.docx'
parse(pdf_file, docx_file)
#parse(pdf_file, docx_file, start=0, end=2)