トップ 最新

ただのにっき

2010-12-05(日) [長年日記]

Kindle3向け自炊本作成手順、(おれ的)ベストプラクティス

注意: この記事は古くなっており、現時点ではベストでもなんでもなくなっている。進化した「Kindlize手法」についてはKindle3向けdot by dotな自炊PDFを(真面目に)作成するを参照されたい。

あれこれ試行錯誤の末、自分的にだいたい納得できるクオリティの自炊本作成手順ができたのでメモっておく。対象はKindle3。

例えばiPadをはじめとする大型タブレットだとこういう苦労はあまりなくて、気にせずフルカラーかグレースケールでスキャンしてPDFにしてしまえば難なく読めるんだろうけど、Kindle3やSONYのアレみたいなモノクロの5~6インチ画面向けにはいろいろ最適化が必要だ。だからKindleダメというわけじゃなくて、この軽さ、小ささ、そしてE-Inkの美しさを享受するためにちょっとした手順が増えることは厭わない、という話だ。

1. スキャン

自炊派の人たちの間では、この時点で各自のポリシーが違ってくるようだ。保存用にフルカラーで取る人もいるが、それだと古めの黄ばんだ本だと地に色がついてしまって、せっかくのE-Inkの白さが失われてしまう。ので、ここは(どうしてもという場合を除き)「白黒」で。

その他、ScanSnapの設定の主なところは以下のとおり。

  • 読み取りモード: スーパーファイン、白黒、両面、文字くっきり、白紙削除、傾き自動補正
  • ファイル形式: PDF、テキスト認識「しない」*1
  • 原稿: サイズ自動検出

2. トリミング

これはsasasinさんのpdf2mobi.shを使うが、彼の元PDFはフルカラーなので、やはり色々と設定が違う。ので、自分用にパラメタを変更してgistに置いておいた(pdf2kindle現在はRakefile化されてさらに進化している)。GPLバンザイ。方向性としては、

  • 画像のリサイズをいっさいしない(かえってサイズが大きくなるので。結果的に第二パラメタをなくした)
  • PPM(フルカラー)ではなくPGM(グレースケール)を使用
  • 文字くっきり化(ガンマ補正)をやめた(代わりにKindleの機能を使う)
  • PDFメタデータを最初に抽出

最後のメタデータだが、Kindle上で本のタイトルはファイル名から取られるけど著者名がPDFのAuthorから取られているので(しかも困ったことに日本語はダメ)、ここで入れておきたい。元のPDFに入れておけばいいじゃんという話なんだが、pdftoppmにはうまく取り出せないパターンがあるようなので、pdf2kindleがせっせと画像変換をしている間に、抽出したメタデータファイルをエディタで書き換えられるようにした。

実行時にはノンブルまで削除するためにトリミングのパラメタも指定する。今のところ文庫メインでやっているけど、ハヤカワ文庫だと「60 30 10 10」、創元文庫だと「35 85 15 15」あたりがちょうどいいみたい。

出来上がりはこんな感じで、こないだのとたいして違わないように見えるけど、実際にKindle上で見るとだいぶすっきりして「いかにもスキャンしました」的な感じがだいぶ薄れている。

3. OCR

できたPDFファイルはざっと出来上がりを確認後、ScanSnap付属ユーティリティでOCRにかける。まぁ、小説だったら別にやらなくてもいいかなという感じだけど、CPUの空き時間を見つけてバッチ処理してくれるモードがあるので、寝る前に仕掛けておけば朝にはできたてホカホカの自炊本ができあがっているという具合なので、やっておけばいいと思う。

あとはUSBでつないだKindleに放りこんでおけばいいんだから、たった3ステップ、楽なもんだ。たいして苦にはならないレベルまで自動化できたので満足じゃよ。

Tags: ebook kindle

*1 これがONだと連続して複数の本をスキャンしにくくなるので後回しにする。