10月
07
2006

スクレイピングはほどほどに

事業の技術として、スクレイピングをやっている。
人がブラウザを使ってWebにアクセスする代わりに、プログラムが代わりに
アクセスしてデータを取得するということをいう。

Excelにマクロというのがあるが、いくつかの計算をさせたり、メニューを
選ばせたりする操作を一つの命令で行う。
そのデータの対象がWebなんだ。

もともとは普通に人に見せるためにデータを提供するのが目的だ。
だから機械的にデータを取り出したら怒るだろうな。だから、あくまでも人
がブラウザを操作するような感じでプログラムを動かさないといけない。

例えば、昔ファミコンで高橋名人という人がいて1秒間に弾を数発打ってい
た。人間業とは思えないが1秒に10回か20回か早く打てば、その分だけ強く
なる(16連射だそうである)。

そこに目をつけた会社が、1秒間に30発打てるようなコントローラーを発売
した。そうしたら名人の技を超える。じゃあ60連発ならもっと強いのか?
それはゲームの性能を超えるというよりも、ゲームが受け付けない。ある一
定以上超えると同じである。

ゲームは複雑になり弾を早く打てばいいというわけではなくなった。他の動
きや場面展開を読まなくてはならないし、複雑なものは戦術を練らなくては
ならない。

こんなこと考えていたら、オリンピックもサッカーのワールドカップも[身体
の限界」を対象にしているだけという気もしなくはない。

話がそれてしまった。
要は機械が人間の不利をしていたら、許してくれるかなぁと思っている。そ
こに現れているデータを2次加工して売ることはない。あくまでも個人が
Excelのマクロで使うのと同じ根拠である。

あるサイトからデータを取り出そうとしたんだけれど、1秒間に数アクセスと
いう人がブラウザをクリックしただけではできないアクセスになってしまった。
その後、サイトからIPを拒否されてしまった。

スクレイピングの技術がだんだんと上がってきたので、これからは人間が操
作するのと同じように見分けがつかないように、ヒューリスティックにやら
ないといけないなと思った。

そうだ、FireFoxの機能拡張にRubyを載せればうまくいく。
と思ったら、風博士がやろうとしていた。
でも、CentOSにインストールがうまくいかない。ぐすん。

(すみません。今日は技術的な話ばっかりで。←いつも)

Written by in: 楽天日記 | タグ: ,

コメントはまだありません »


コメント&トラックバック




トラックバック URL

コメントのRSS feed