robots.txtを読むかしこいAT・・・違う、かしこいロボット。
Googleとか、Yahoo!とかの大御所はしっかり読んでくれる。
基本的にどのサイトにも
User-agent: *
Disallow: /
は欠かさないようにしている。レンタルスペースでやってるサイトで例外があるけど。
これだけでサルベージしないクローラは賢い。だけどクロールしなくなるわけではない。何ヶ月かしたらクロールしなくなるんだっけ?
UserAgentでもちゃんと自分がどこのクローラか名乗ってくれてるところはいいけどさ・・・
まったくもってクローラかどうかの判断材料がないやつは困る。
htaccessに対するちゃんとした記述を目にした今、ちょっと編集中。
ちょろーっと見かけたんだけど、背反条件もつけれるのかも・・・。