.htaccessでクローラーの拒否

WEBサービスを立ち上げてから早い段階に、やたらにアクセスしてくるクローラーがいる。

はじめだからクロールされてるからうれしく思っていた。

でも、Google[Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)]でも、Yahoo[Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)]のクローラーでもなく

"Yeti/1.0 (+http://help.naver.com/robots/)" だった。WEB初心者の自分としては、全くわからず、とりあえず調べてみた。

以下引用

NaverBot(ネイバー・ボット)、YetiBot(イエティ・ボット)


NaverBotとは、韓国のポータルサイトNAVER」が使用するクローラーの名称です。


NaverBotには複数の種類がありますが、主要なHTTP_USER_AGENTは以下です。

  Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)
  Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)


上記の「YetiBot」は、2007年3月26日から使用開始されたHTTP_USER_AGENTです。


NaverBotは、十分な間隔をおかずに連続アクセスするため、日本の多数のサイトが出入り禁止(アクセス拒否)にしているクローラーです。


また、アクセス拒否の回避のため、しばしばHTTP_USER_AGENTやIPアドレスを変える、悪名高いクローラーです。

http://www.seiren-udoku.com/noteOfSeoMR-NaverBot.html/

悪名高い!?
やたらアクセス多いし、サーバに負荷かかるし、何も良い事なさそうだから拒否しようと思った。

クローラーの拒否は.htaccessでできる。

.htaccess

SetEnvIfNoCase User-Agent "Yeti" shutout
SetEnvIfNoCase User-Agent "nabot" shutout
SetEnvIfNoCase User-Agent "NaverBot" shutout
SetEnvIfNoCase User-Agent "Yeti/1.0" shutout
Order Allow,Deny
Allow from all
deny from env=shutout

これ以降は、NaverBot(ネイバー・ボット)、YetiBot(イエティ・ボット)にアクセスされなくなった。

次回は、.htaccessの簡単な使い方について書きたいと思う。