6月
08
2005

正規表現は強力

ふと思い立ち、Google Newsのニュースタイトルの部分だけを取り出せないかと
試みた。

Google NewsのRSS化は、あきやんさんがやっている。
http://www.akiyan.com/rss_distribution

某所でこのRSSからニュースを加工して表示しているんだけど、正規表現を使え
ば意外に容易にできることがわかった。PerlならsocketでWebページにアクセス
すればよい。
(ここには書き込めないようなので、https://solisart.com/ajax/news.cgi で実行できるようにしておきます)

直接ニュースをテキストで取得できるならば、RSSでわざわざ加工しなくてもい
いか。

これを、Webブラウザの編集ページのような画面でマウスでどこを抽出してでき
るかを選べるようにすれば、他から簡単に情報を取り出すことができるようにな
る。さらに学習機能があれば、自動的に取り込めるってわけだ。

そんなの簡単にできるわけない!

Written by in: 楽天日記 |

コメントはまだありません »


コメント&トラックバック




トラックバック URL

コメントのRSS feed