PDFからテキストを抽出する無料ツール

PDFに埋め込まれたテキスト情報をそのまま抽出します。論文・契約書・議事録などコピー禁止のPDFも、テキスト・Markdown・ページ別に書き出してダウンロードできます。すべての処理はブラウザ内で完結します。

PDFファイルをここにドロップ

またはクリックして選択(アップロード後に自動でテキスト抽出します)

このツールでできること

PDF内に「埋め込まれた」テキストを取り出します。スキャン画像のみのPDFには画像OCRをご利用ください。

PDFテキスト抽出とは

PDFテキスト抽出は、PDF内に埋め込まれた文字データをそのまま取り出す処理です。WordやPagesなどで作成して書き出されたPDFには、見た目の描画情報とは別にテキストデータが格納されており、本ツールはこれを取り出します。一方でスキャナで読み取った「画像のみ」のPDFには文字データが含まれていないため、テキスト抽出はできません(その場合は画像OCRで文字認識する必要があります)。本ツールはPDF.jsのテキストレイヤーをブラウザ内で実行するため、PDFがサーバーに送信されることはありません。

なぜブラウザ完結が安全なのか

契約書・人事評価・診断書など機密性の高いPDFのテキスト化はクラウド型OCRに送信したくないケースが多くあります。本ツールはWebAssembly版のPDF.jsをブラウザ内で動作させるため、PDFファイルがネットワークを経由することはありません。ブラウザを閉じた瞬間にメモリからも消去されるため、社外秘・個人情報を含むPDFも安心して処理できます。

他のツールとの違い

Adobe Acrobatの「PDFを書き出し」機能は高精度ですが有料サブスクリプションが必要です。ilovepdfやSmallpdfには無料枠がありますが、ファイルをサーバーへアップロードする点と1日あたりの回数制限がある点が課題です。FreeToolは完全無料・回数無制限・登録不要で、PDFをブラウザの外に出さずにテキスト抽出できます。

業種・職種別の活用シーン

研究者・大学院生の論文整理

ダウンロードした学術論文PDFから本文・引用・図表キャプションを抽出して、ノートツール(Notion・Obsidian・Roam Research)にMarkdownで貼り付け。文献管理ソフトに本文テキストを取り込むことで全文検索が可能になり、複数論文を横断したリサーチ効率が向上します。研究データを含むPDFもサーバー送信なしで処理できます。

法務・契約レビューの条項検索

数十ページの契約書PDFをテキスト化し、エディタで「損害賠償」「秘密保持」など特定条項を検索・引用。PDFビューアの検索より高速で、抽出したテキストをWordへ持ち込んで赤入れすることもできます。NDA下にあるドラフト契約書もFreeToolならクラウドへ送信されないため安全に扱えます。

学生のレポート・卒論資料化

教科書PDFや配布資料から引用箇所を抜き出し、Markdownで卒論・レポートに整形。ページ別タブから必要な章だけを取り出せるため、引用元のページ番号と本文を紐付けやすくなります。学内ライセンスの教材PDFも、外部サーバーに送信されない点で配布規約に抵触しません。

こんな場面で使えます

  • 学術論文PDFから引用したい本文・図表キャプションを抽出
  • 議事録PDFを編集可能なテキストに変換して要約
  • 契約書PDFから条項を検索・引用
  • 卒論・修論PDFから本文だけを抜き出してリライト
  • 報告書PDFから数値だけを抜き出して再集計

使い方

1

PDFをアップロード

2

自動で抽出し3形式から選択

3

.txt/.mdでダウンロード or コピー

トラブルシューティング

抽出結果が空白で何も出ない

そのPDFはスキャン画像のみで構成されている可能性が高いです。PDFを画像ビューアで開いて文字をマウスでドラッグ選択できなければ、テキストデータは含まれていません。先に「PDF→画像」ツールでPDFを画像化し、「画像OCR」ツール(/image/ocr)でOCR処理してください。

「パスワードで保護されています」とエラーが出る

暗号化されたPDFはそのままでは読み取れません。パスワードをご存知であれば「PDF制限解除」(/pdf/unlock)でロックを解除してから本ツールに再投入してください。パスワード自体は本ツールでは推測しません。

表のレイアウトが崩れて1行に並ぶ

PDFは「表」という構造を持たないため、セル間のスペースは半角空白として抽出されます。「ページ別」タブで各ページを確認し、表の部分は手動でTab区切りや改行を追加してExcel等へ貼り付けてください。複雑な表は元のExcel/Wordファイルからのコピーが確実です。

日本語が文字化け(記号や四角になる)する

PDFにフォントが埋め込まれていない場合に起こります。元のPDFをAcrobat等で開き「ファイル→プロパティ→フォント」で埋め込み状態を確認してください。フォント非埋め込みのPDFは元データから再書き出しが必要です。

改行が多すぎる/少なすぎる

PDF内の改行はビジュアル上の改行であり、文の途中で入っていることもあります。プレーンテキストタブをコピーした後、エディタの「正規表現置換」で `\n(?!\n)` を半角スペースに置換すると段落単位の改行に整形できます。Markdownタブはページごとに見出しを付与するためエディタで再整形しやすくなっています。

機能比較:FreeTool PDFテキスト抽出 vs Adobe Acrobat(PDF書き出し)

機能FreeToolAdobe Acrobat(PDF書き出し)
価格○ 完全無料× 月額1,980円〜
ファイルのサーバー送信なし(ブラウザ完結)あり(Adobe Cloud経由のケース)
登録不要○ 不要× Adobe ID必須
回数制限○ 無制限○ 無制限(有料)
ページ別出力○ 対応(タブ表示)△ 別ファイル化が必要
Markdown形式での書き出し○ 対応× 非対応

関連ツール

よくある質問

スキャンしたPDFからもテキストを抽出できますか?
いいえ。本ツールはPDFに「埋め込まれた」テキスト情報を抽出するため、スキャン画像のみで構成されたPDFからはテキストを抽出できません。その場合は抽出結果が空欄になります。スキャンPDFの文字起こしには、PDFを画像に変換してから画像OCRツール(/image/ocr)をご利用ください。
表(テーブル)のレイアウトは保持されますか?
厳密な表組みのレイアウト保持はできません。PDFは描画情報の集まりで「ここからここまでが表」というメタ情報を持たないため、抽出後はセルの内容が空白で区切られたテキスト列として出力されます。表の構造が重要な場合はExcelなど表計算ソフトへの手動転記をおすすめします。
パスワード付きPDFは抽出できますか?
暗号化されたPDFはそのままでは抽出できません。パスワードをご存知の場合は、先に「PDF制限解除」ツールでロックを解除してから本ツールに読み込ませてください。パスワード総当たり(ブルートフォース)は行いません。
日本語テキストの抽出精度はどのくらいですか?
縦書きや段組レイアウトでは順序が前後することがありますが、横書き・単一段組の日本語PDFはほぼ正確に抽出できます。論文・契約書・議事録など標準的な文書では十分実用的な精度です。フォントが埋め込まれていないPDFでは文字化けが発生することがあります。
.docx形式(Word)で書き出せますか?
現在は .txt と .md(Markdown)形式のみ対応しています。Wordで開きたい場合は .txt または .md をダウンロードして、Word側でファイルを開いていただくか、Markdownを貼り付けてください。.docxの直接書き出しは今後対応を検討中です。