Computer/PDF/BookScan

Computer/PDF

書類のスキャン†

↑

必要なソフトウェア†

たとえばA3見開きの書類をスキャンしてOCRをかけるとする．例で使用しているソフトウェアは次の通り．

PDF編集ソフト1（ページの切り取り）：(Mac) OS Xのプレビュー.app
PDF編集ソフト2（ページ操作）：pdftk
PDF編集ソフト3（メタデータ）：Cube PDF Utility
PDFサイズ削減ソフト（Reduce PDF Size）
OCRソフト（PDF-XChange Viewer）

↑

手順†

スキャナで両面開きでスキャンする．
スキャンしたPDFファイルのバックアップを取っておく．
プレビュー.appで［ツール］—［長方形で選択］にし，全ページを選択した状態で左ページの部分を選択して［ツール］—［切り取り］する．
［プリント］で「用紙サイズ」を1ページ分の大きさにし，a.pdfとして保存する．
プレビュー.appで［編集］—［やり直す］して，左ページの部分を切り取る前の状態にする．
今度は右ページの部分を選択して［ツール］—［切り取り］する．
［プリント］で「用紙サイズ」を1ページ分の大きさにし，b.pdfとして保存する．
次のコマンドでページ順を整える．$ pdftk a.pdf b.pdf shuffle output c.pdf
プレビュー.appで不要なページを削除する．ページ番号を正しいものとするために，少なくとも第1ページを削除するか，あるいは第1ページの前に1枚白紙を挿入する（［編集］—［挿入］—［空白のページ］）必要がある．
必要に応じて，たとえばWindows上でReduce PDF Sizeを用いてファイルサイズを削減する．プレビュー.appを用いた場合は，ページの半分を切り取ってもファイルサイズは小さくならず，したがって手順8の段階でファイルサイズが約2倍になっていることに注意する．
必要に応じて，たとえばPDF-XChange Viewerなどを使ってOCRをかける．
必要に応じて，PDFのメタデータ（タイトル，作成者など）をpdftkやCube PDF Utilityなどを使って編集する．

↑

pdftkでPDFのメタデータを編集する†

PDFのメタデータ（プロパティ）を編集する場合は次のようにする．

以下のようなpdfinfo_new.txtを，PDFファイルと同じディレクトリに用意する．
次のコマンドを実行する．
- $ pdftk input.pdf update_info_utf8 pdfinfo_new.txt output output.pdf

InfoBegin
InfoKey: Title
InfoValue: タイトル
InfoBegin
InfoKey: Author
InfoValue: 作成者（著者）
InfoBegin
InfoKey: Subject
InfoValue: サブタイトル
InfoBegin
InfoKey: Creator
InfoValue: CREATOR
InfoBegin
InfoKey: Producer
InfoValue: PRODUCER

↑

備考†

スキャンしたPDFの横幅が異なる場合は手順2-7をその数だけ行う．その際，1ページ分の大きさは一番広い横幅に統一しておくとできあがったPDFの用紙サイズが揃う．

書類のスキャン†

必要なソフトウェア†

手順†

pdftkでPDFのメタデータを編集する†

備考†

メニュー