Computer/PDF
書類のスキャン†
必要なソフトウェア†
たとえばA3見開きの書類をスキャンしてOCRをかけるとする.例で使用しているソフトウェアは次の通り.
- PDF編集ソフト1(ページの切り取り):(Mac) OS Xのプレビュー.app
- PDF編集ソフト2(ページ操作):pdftk
- PDF編集ソフト3(メタデータ):Cube PDF Utility
- PDFサイズ削減ソフト(Reduce PDF Size)
- OCRソフト(PDF-XChange Viewer)
- スキャナで両面開きでスキャンする.
- スキャンしたPDFファイルのバックアップを取っておく.
- プレビュー.appで[ツール]—[長方形で選択]にし,全ページを選択した状態で左ページの部分を選択して[ツール]—[切り取り]する.
- [プリント]で「用紙サイズ」を1ページ分の大きさにし,a.pdfとして保存する.
- プレビュー.appで[編集]—[やり直す]して,左ページの部分を切り取る前の状態にする.
- 今度は右ページの部分を選択して[ツール]—[切り取り]する.
- [プリント]で「用紙サイズ」を1ページ分の大きさにし,b.pdfとして保存する.
- 次のコマンドでページ順を整える.$ pdftk a.pdf b.pdf shuffle output c.pdf
- プレビュー.appで不要なページを削除する.ページ番号を正しいものとするために,少なくとも第1ページを削除するか,あるいは第1ページの前に1枚白紙を挿入する([編集]—[挿入]—[空白のページ])必要がある.
- 必要に応じて,たとえばWindows上でReduce PDF Sizeを用いてファイルサイズを削減する.プレビュー.appを用いた場合は,ページの半分を切り取ってもファイルサイズは小さくならず,したがって手順8の段階でファイルサイズが約2倍になっていることに注意する.
- 必要に応じて,たとえばPDF-XChange Viewerなどを使ってOCRをかける.
- 必要に応じて,PDFのメタデータ(タイトル,作成者など)をpdftkやCube PDF Utilityなどを使って編集する.
pdftkでPDFのメタデータを編集する†
PDFのメタデータ(プロパティ)を編集する場合は次のようにする.
- 以下のようなpdfinfo_new.txtを,PDFファイルと同じディレクトリに用意する.
- 次のコマンドを実行する.
- $ pdftk input.pdf update_info_utf8 pdfinfo_new.txt output output.pdf
InfoBegin
InfoKey: Title
InfoValue: タイトル
InfoBegin
InfoKey: Author
InfoValue: 作成者(著者)
InfoBegin
InfoKey: Subject
InfoValue: サブタイトル
InfoBegin
InfoKey: Creator
InfoValue: CREATOR
InfoBegin
InfoKey: Producer
InfoValue: PRODUCER
- スキャンしたPDFの横幅が異なる場合は手順2-7をその数だけ行う.その際,1ページ分の大きさは一番広い横幅に統一しておくとできあがったPDFの用紙サイズが揃う.