洋書をPDFで読んでいるのですが、英単語を調べるのにキーボードで手打ちするのが手間で、テキストファイル化したくなりました。
GeminiにPDFの英語を読み取ってテキストファイルに出力するコードをPythonで作成してもらいました。エラーの度に直してもらいながら、思い通りの動きになりました。
Pythonライブラリ
必要なPythonのライブラリは3つです。
・PyMuPDF: PDFファイルを扱うためのライブラリです。コード内では fitz としてインポートされています。
・pytesseract: Tesseract-OCRエンジンをPythonから利用するためのラッパーライブラリです。
・Pillow: 画像処理ライブラリです。コード内では PIL としてインポートされています。
以下のコマンドでインストールできます。
pip install PyMuPDF pytesseract Pillow
Tesseract OCRエンジン
・上記のPythonライブラリに加えて、OCR処理を行うためのTesseract OCRエンジン本体を別途インストールする必要があります。これはPythonライブラリではなく、システムにインストールするアプリケーションです。
・Windowsユーザーの場合: Tesseract OCR for Windowsの公式サイトからインストーラーをダウンロードしてインストールしてください。
・macOSユーザーの場合: Homebrewを使ってインストールするのが一般的です。ターミナルで brew install tesseract を実行します。