.htaccessでクローラーの拒否
WEBサービスを立ち上げてから早い段階に、やたらにアクセスしてくるクローラーがいる。
はじめだからクロールされてるからうれしく思っていた。
でも、Google[Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)]でも、Yahoo[Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)]のクローラーでもなく
"Yeti/1.0 (+http://help.naver.com/robots/)" だった。WEB初心者の自分としては、全くわからず、とりあえず調べてみた。
以下引用
NaverBot(ネイバー・ボット)、YetiBot(イエティ・ボット)
NaverBotとは、韓国のポータルサイト「NAVER」が使用するクローラーの名称です。
NaverBotには複数の種類がありますが、主要なHTTP_USER_AGENTは以下です。
Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)
Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)
上記の「YetiBot」は、2007年3月26日から使用開始されたHTTP_USER_AGENTです。
NaverBotは、十分な間隔をおかずに連続アクセスするため、日本の多数のサイトが出入り禁止(アクセス拒否)にしているクローラーです。
また、アクセス拒否の回避のため、しばしばHTTP_USER_AGENTやIPアドレスを変える、悪名高いクローラーです。
http://www.seiren-udoku.com/noteOfSeoMR-NaverBot.html/
悪名高い!?
やたらアクセス多いし、サーバに負荷かかるし、何も良い事なさそうだから拒否しようと思った。
SetEnvIfNoCase User-Agent "Yeti" shutout SetEnvIfNoCase User-Agent "nabot" shutout SetEnvIfNoCase User-Agent "NaverBot" shutout SetEnvIfNoCase User-Agent "Yeti/1.0" shutout Order Allow,Deny Allow from all deny from env=shutout
これ以降は、NaverBot(ネイバー・ボット)、YetiBot(イエティ・ボット)にアクセスされなくなった。
次回は、.htaccessの簡単な使い方について書きたいと思う。