Бывает, что без видимых причин, нагрузка на сервер превышает желаемую. Иногда так бывает из-за ботов и склейки www
с основным доменом.
- Через
http://webmaster.yandex.ru
проверить: если главное зеркало сайта безwww
, то в.htaccess
добавить:
RewriteEngine on
#domen.com - заменить именем сайта
RewriteCond %{HTTP_HOST} ^www.domen.com$ [NC]
RewriteRule ^(.*)$ http://domen.com/$1 [R=301,L]
- Через тот же
.htaccess
закрыть доступ нежелательным ботам (список уточнить в конкретном случае):
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} Java [OR]
RewriteCond %{HTTP_USER_AGENT} NjuiceBot [OR]
RewriteCond %{HTTP_USER_AGENT} Gigabot [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} JS-Kit [OR]
RewriteCond %{HTTP_USER_AGENT} Voyager [OR]
RewriteCond %{HTTP_USER_AGENT} PostRank [OR]
RewriteCond %{HTTP_USER_AGENT} PycURL [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} larbin [OR]
RewriteCond %{HTTP_USER_AGENT} Butterfly [OR]
RewriteCond %{HTTP_USER_AGENT} libwww [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [OR]
RewriteCond %{HTTP_USER_AGENT} SWeb [OR]
RewriteCond %{HTTP_USER_AGENT} LinkExchanger [OR]
RewriteCond %{HTTP_USER_AGENT} Soup [OR]
RewriteCond %{HTTP_USER_AGENT} WordPress [OR]
RewriteCond %{HTTP_USER_AGENT} PHP/ [OR]
RewriteCond %{HTTP_USER_AGENT} spbot [OR]
RewriteCond %{HTTP_USER_AGENT} MLBot [OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer [OR]
RewriteCond %{HTTP_USER_AGENT} FairShare [OR]
RewriteCond %{HTTP_USER_AGENT} Yeti [OR]
RewriteCond %{HTTP_USER_AGENT} Birubot [OR]
RewriteCond %{HTTP_USER_AGENT} YottosBot [OR]
RewriteCond %{HTTP_USER_AGENT} gold\ crawler [OR]
RewriteCond %{HTTP_USER_AGENT} Linguee [OR]
RewriteCond %{HTTP_USER_AGENT} Ezooms [OR]
RewriteCond %{HTTP_USER_AGENT} lwp-trivial [OR]
RewriteCond %{HTTP_USER_AGENT} Purebot [OR]
RewriteCond %{HTTP_USER_AGENT} User-Agent [OR]
RewriteCond %{HTTP_USER_AGENT} kmSearchBot [OR]
RewriteCond %{HTTP_USER_AGENT} SiteBot [OR]
RewriteCond %{HTTP_USER_AGENT} CamontSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ptd-crawler [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} suggybot [OR]
RewriteCond %{HTTP_USER_AGENT} ttCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} Nutch [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus
RewriteRule ^(.*)$ – [F,L]
Комментарии:
Максим#
Добрый день! А вы этот список сами используете? Нужные боты не блокируются? Что-то боязно так просто взять и CTRL+C CTRL+V
coder hol es#
Здравствуйте! В прямо таком виде не использую – как правило, для каждого ресурса анализируются логи по-недельно.
Если обнаруживается нагрузка и ненужная активность от ненужных ботов – то есть, по ip ботов пытаемся определить ресурс, насколько он может быть плолезен, поведение самого бота – нагло-нагрузочное или уважительное) – и принимается решение.
Например, на некоторых ресурсах проявляли ненужную активность и сами не нужны были боты американских образовательных учреждений – что и закрыли.
Поэтому, не нужно блокировать то, чего у Вас нет по логам и вообще – без причины и четкого обоснования не стоит плодить сущностей)
Обобщаю – берите саму идею, а все остальное постарайтесь кастомизировать по реальным вопросам и надобностям Вашего ресурса.