PDFの英語を読み取ってテキストファイルに出力する。

洋書をPDFで読んでいるのですが、英単語を調べるのにキーボードで手打ちするのが手間で、テキストファイル化したくなりました。

GeminiにPDFの英語を読み取ってテキストファイルに出力するコードをPythonで作成してもらいました。エラーの度に直してもらいながら、思い通りの動きになりました。


Pythonライブラリ

必要なPythonのライブラリは3つです。
・PyMuPDF: PDFファイルを扱うためのライブラリです。コード内では fitz としてインポートされています。
・pytesseract: Tesseract-OCRエンジンをPythonから利用するためのラッパーライブラリです。
・Pillow: 画像処理ライブラリです。コード内では PIL としてインポートされています。
以下のコマンドでインストールできます。

pip install PyMuPDF pytesseract Pillow


Tesseract OCRエンジン

・上記のPythonライブラリに加えて、OCR処理を行うためのTesseract OCRエンジン本体を別途インストールする必要があります。これはPythonライブラリではなく、システムにインストールするアプリケーションです。
・Windowsユーザーの場合: Tesseract OCR for Windowsの公式サイトからインストーラーをダウンロードしてインストールしてください。
・macOSユーザーの場合: Homebrewを使ってインストールするのが一般的です。ターミナルで brew install tesseract を実行します。