トップ 最新

ただのにっき

2010-12-02(木) [長年日記]

pdf2mobi.shを使って自炊本の余白をカットする

先日の記事で作者のsasasinさんご自身から猛プッシュされたpdf2mobi.shを使ってみた。名前だけ見るとPDFファイルをKindle向けフォーマットである.mobiにしてくれるように思えるが、PDFから画像ファイルを抽出して自動的に余白をカットした上で再度PDFにパッケージしてくれるシェルスクリプトである*1。「自動」ってところがミソですね。

リンク先の解説にあるように、余白のカットはImageMagicのconvertコマンドで「-chop」と「-flip -flop」を指定することでこれを実現している。いやー、ImageMagicの万能っぷりは相変わらずすげぇなぁ。あと、PDFから画像の抽出はpdftoppmを使っていて、実はconvertでもできるんだけど、手元にあるいくつかのPDFにはconvertがエラーになるものもあったので、そういう意味ではこっちの方がよさそう。

いろいろ試してみた感じ、Kindle3用の設定だとちょっと字が荒く見えるので(抽出したppmが二値なため?)、変換後の画像サイズを倍にして、代わりに圧縮率を上げるようにしてみたら、まぁまぁいい感じになった。シェルスクリプトだと改造しやすくていいですな。できあがったPDFのサイズも2倍程度におさまったし。このあたりはスキャンの設定でもっとよくなるかも知れないので、あとでもうちょっとトライする。

あと、変換元PDFが文字情報を持ってる場合に「Adobe-Japan1云々」というエラーが出るが、poppler-dataパッケージも入れることで抑制できた。

というわけで、さっそく『小惑星探査機 はやぶさ物語』を自炊してみた。

新書なので少し縦に長いけれど、ノンブルまでカットすることで余白をギリギリまで減らしたPDFファイルができた。うん、これなら文句ない。おまけにScanSnapのユーティリティであとからOCRをかけられるので、検索もちゃんとできる。pdf2mibiすばらしい。基本的にKindle向けの変換はこれ一本でいいや。

Tags: ebook kindle

*1 手元では「pdf2kindle」という名前に変えてある。