Заблокируйте все боты / сканеры / пауки для специального каталога с помощью htaccess

Я пытаюсь заблокировать все боты / сканеры / пауки для специального каталога. Как я могу сделать это с htaccess? Я немного искал и нашел решение путем блокировки на основе пользовательского агента:

RewriteCond %{HTTP_USER_AGENT} googlebot

Теперь мне нужно больше пользовательских агентов (для всех известных ботов), и правило должно быть действительным только для моего отдельного каталога. У меня уже есть robots.txt, но не все сканеры смотрят на него... Блокировка по IP-адресу не возможна. Или есть другие решения? Я знаю защиту паролем, но сначала я должен спросить, будет ли это вариант. Тем не менее, я ищу решение на основе пользовательского агента.

3 ответа

Решение

Вам нужно включить mod_rewrite. Поместил его в.htaccess в эту папку. Если он размещен в другом месте (например, в родительской папке), шаблон RewriteRule необходимо слегка изменить, чтобы включить это имя папки).

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]
  1. Я ввел только несколько ботов - вы сами добавляете другие (регистр букв не имеет значения).
  2. Это правило ответит кодом результата "403 Access Forbidden" для таких запросов. Вы можете изменить HTTP-код другого ответа, если вы действительно хотите (403 здесь наиболее подходит, учитывая ваши требования).

Зачем использовать.htaccess или mod_rewrite для работы, которая специально предназначена для robots.txt? Вот фрагмент robots.txt, который вам понадобится для блокировки определенного набора каталогов.

User-agent: *
Disallow: /subdir1/
Disallow: /subdir2/
Disallow: /subdir3/

Это заблокирует все поисковые боты в каталогах /subdir1/, /subdir2/ а также /subdir3/,

Для получения дополнительной информации см. Здесь: http://www.robotstxt.org/orig.html

Я знаю, что тема "старая", но, тем не менее, для ппл, которые также приземлились здесь (как и я), вы можете посмотреть здесь великолепный 5g черный список 2013 года.
Это отличная помощь и НЕТ не только для WordPress, но и для всех других сайтов. Работает офигенно imho.
Еще одна вещь, на которую стоит обратить внимание, это обзоры Linux по борьбе со спамом через.htaccess.

Другие вопросы по тегам