2011-01-04(火) [長年日記]
■ 日経電子版をスクレイピングしてKindle向けmobiファイルを作る
日経電子版は家族でアカウントを使い回してよいという先日の調査結果を受け、それなら新聞を読む生活に戻れるかも知れないねということで、Kindleで読むための準備を開始。「準備」というのは、まだ電子版の有料会員に申し込んでないからなんだけど……。
とりあえず、トップページに載っているトップニュースと主要カテゴリへのリンクを拾って、個々の記事を持ってくるという簡単なスクリプトを書いてみた(→nikkei-scraper.rb)。ついでにKindle向けのmobiにするための各種ファイルも生成するので、あとはkindlegenを実行するだけでmobiができる。
全面的にちゃんとCMSで生成されているだけあって、非常にスクレイピングしやすいサイトだというのはわかった。ただニュースだけじゃつまらないので、コラムなんかも拾ってくるようにしたいな。というか「私の履歴書」はどこ……?
それからこのコードはやっつけすぎるのでもうちょっとなんとか……。あと、生成したmobiファイルをメールでKindleに送るようにすればカンペキなんだが、添付ファイルつきメールをRubyで送るには、今だったら何を使えばいいんだっけ? まだTMail?
それにしてもKindle向けのデザインは難しい。HTML+CSSとはいえ、解釈が独特というか中途半端なので、どういうスタイルが期待通りに適用されるのか、ちゃんとベンチマークしてやらないとまともにレイアウトできそうにない。まぁ、ニュースや小説を読むだけなら、単純素朴なCSSでいいのだけれど、それすらも苦労する。OnDeckはすごいなぁ(というかそれを変換したcalibreがすごいんだろうけど)。
関連する日記: 2012-03-04(日)