自炊ファイルから「OCRソフト」使って、青空文庫形式のテキストを作成
青空文庫形式のテキストを「i文庫HD」で使うと、とてもサクサクと動き、表示も美しい。
ならば・・
OCRソフト「読んでココ」を使って青空文庫形式のテキストを作成してみることにしてみました。
文字認識率は高いのですが、認識結果をチェックする必要があるので、読む前の本でやることにしました。
読む前に自炊、OCR使って青空文庫形式のテキスト作成してみる。
基本的な流れ
(1)Acrobat
自炊したPDFファイルをトリミング
「文書」→「ページのトリミング」
ページNo.等をカットするために、上下をトリミング。
(OCRするときを考え、文章領域だけにする)
TFFファイルで書き出し
「ファイル」→「書き出し」→「画像」→「TIFF」
(2)読んでココ Ver.12
環境設定の「認識」で
ルビの処理方法」:埋め込み
ルビの埋め込み時の囲み:《》
この設定で、青空文庫形式のルビ囲み「《》」にあわせる。
OCRファクトリーで、Acrobatで書き出したTIFFファイルを自動で処理してテキストファイルを作る。
(3)テキストファイルの修正
テキストファイルを読みながら、不要な改行を削除したり、認識間違えと思われる所にマークを入れる。
誤認識と思われる周辺の文章でPDFファイルを検索し、実際の文字を確認しながら修正する。
読んでココ、作動に問題はないがバージョンアップした方が良いのかな・・・
昔、まだ自炊なんて言葉がない頃、
フラットベットイメージスキャナーでイメージを取り、
「読んでココ」と言うOCRソフトを使い、透明テキスト付きPDFファイルを作成したことがありました。
(何冊かやって、スキャンするのに時間が掛かりすぎて挫折しました)
ならば・・
OCRソフト「読んでココ」を使って青空文庫形式のテキストを作成してみることにしてみました。
文字認識率は高いのですが、認識結果をチェックする必要があるので、読む前の本でやることにしました。
読む前に自炊、OCR使って青空文庫形式のテキスト作成してみる。
基本的な流れ
(1)Acrobat
自炊したPDFファイルをトリミング
「文書」→「ページのトリミング」
ページNo.等をカットするために、上下をトリミング。
(OCRするときを考え、文章領域だけにする)
TFFファイルで書き出し
「ファイル」→「書き出し」→「画像」→「TIFF」
(2)読んでココ Ver.12
環境設定の「認識」で
ルビの処理方法」:埋め込み
ルビの埋め込み時の囲み:《》
この設定で、青空文庫形式のルビ囲み「《》」にあわせる。
OCRファクトリーで、Acrobatで書き出したTIFFファイルを自動で処理してテキストファイルを作る。
(3)テキストファイルの修正
テキストファイルを読みながら、不要な改行を削除したり、認識間違えと思われる所にマークを入れる。
誤認識と思われる周辺の文章でPDFファイルを検索し、実際の文字を確認しながら修正する。
読んでココ、作動に問題はないがバージョンアップした方が良いのかな・・・
昔、まだ自炊なんて言葉がない頃、
フラットベットイメージスキャナーでイメージを取り、
「読んでココ」と言うOCRソフトを使い、透明テキスト付きPDFファイルを作成したことがありました。
(何冊かやって、スキャンするのに時間が掛かりすぎて挫折しました)
この記事へのコメント