新聞社とかから抽出するためのEFT

朝日新聞 科学ニュース

author: Toshi
custom_feed_handle: http://www\.asahi\.com/science/
custom_feed_follow_link: /science/news
handle: http://www\.asahi\.com/science/news/
extract: <!-- Start of Headline -->(.*?)<!-- End of Kiji -->
extract_capture: body

2つのhandleを少しいじれば他のジャンルのニュースにも対応できると思う。


毎日-MSN 科学ニュース

author: Toshi
custom_feed_handle: http://www\.mainichi-msn\.co\.jp/science/
custom_feed_follow_link: /science/.*?/news
handle: http://www\.mainichi-msn\.co\.jp/science/news/
extract: <!-- || todays_topics ||-->(.*?)<!-- || /todays_topics ||-->
extract_capture: body


日経bp (IT、環境、企業・経営、製造のみ)

author: Toshi
custom_feed_handle: http://www\.nikkeibp\.co\.jp/
custom_feed_follow_link: /news/(?:it|eco|life|biz|manu)[0-9]
handle: http://www\.nikkeibp\.co\.jp/news/(?:it|eco|life|biz|manu)
extract: <!--begin: title and date -->(.*?)<!-- end: article -->
extract_capture: body

これも正規表現をいじったら対応するものを変えられます。