Computer/PDF

書類のスキャン

必要なソフトウェア

たとえばA3見開きの書類をスキャンしてOCRをかけるとする.例で使用しているソフトウェアは次の通り.

  1. PDF編集ソフト1(ページの切り取り):(Mac) OS Xのプレビュー.app
  2. PDF編集ソフト2(ページ操作):pdftk
  3. PDF編集ソフト3(メタデータ):Cube PDF Utility
  4. PDFサイズ削減ソフト(Reduce PDF Size)
  5. OCRソフト(PDF-XChange Viewer)

手順

  1. スキャナで両面開きでスキャンする.
  2. スキャンしたPDFファイルのバックアップを取っておく.
  3. プレビュー.appで[ツール]—[長方形で選択]にし,全ページを選択した状態で左ページの部分を選択して[ツール]—[切り取り]する.
  4. [プリント]で「用紙サイズ」を1ページ分の大きさにし,a.pdfとして保存する.
  5. プレビュー.appで[編集]—[やり直す]して,左ページの部分を切り取る前の状態にする.
  6. 今度は右ページの部分を選択して[ツール]—[切り取り]する.
  7. [プリント]で「用紙サイズ」を1ページ分の大きさにし,b.pdfとして保存する.
  8. 次のコマンドでページ順を整える.$ pdftk a.pdf b.pdf shuffle output c.pdf
  9. プレビュー.appで不要なページを削除する.ページ番号を正しいものとするために,少なくとも第1ページを削除するか,あるいは第1ページの前に1枚白紙を挿入する([編集]—[挿入]—[空白のページ])必要がある.
  10. 必要に応じて,たとえばWindows上でReduce PDF Sizeを用いてファイルサイズを削減する.プレビュー.appを用いた場合は,ページの半分を切り取ってもファイルサイズは小さくならず,したがって手順8の段階でファイルサイズが約2倍になっていることに注意する.
  11. 必要に応じて,たとえばPDF-XChange Viewerなどを使ってOCRをかける.
  12. 必要に応じて,PDFのメタデータ(タイトル,作成者など)をpdftkやCube PDF Utilityなどを使って編集する.

pdftkでPDFのメタデータを編集する

PDFのメタデータ(プロパティ)を編集する場合は次のようにする.

  1. 以下のようなpdfinfo_new.txtを,PDFファイルと同じディレクトリに用意する.
  2. 次のコマンドを実行する.
    • $ pdftk input.pdf update_info_utf8 pdfinfo_new.txt output output.pdf
InfoBegin
InfoKey: Title
InfoValue: タイトル
InfoBegin
InfoKey: Author
InfoValue: 作成者(著者)
InfoBegin
InfoKey: Subject
InfoValue: サブタイトル
InfoBegin
InfoKey: Creator
InfoValue: CREATOR
InfoBegin
InfoKey: Producer
InfoValue: PRODUCER

備考

  1. スキャンしたPDFの横幅が異なる場合は手順2-7をその数だけ行う.その際,1ページ分の大きさは一番広い横幅に統一しておくとできあがったPDFの用紙サイズが揃う.

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-04-16 (土) 14:26:05