Заблокируйте все боты / сканеры / пауки для специального каталога с помощью htaccess
Я пытаюсь заблокировать все боты / сканеры / пауки для специального каталога. Как я могу сделать это с htaccess
? Я немного искал и нашел решение путем блокировки на основе пользовательского агента:
RewriteCond %{HTTP_USER_AGENT} googlebot
Теперь мне нужно больше пользовательских агентов (для всех известных ботов), и правило должно быть действительным только для моего отдельного каталога. У меня уже есть robots.txt, но не все сканеры смотрят на него... Блокировка по IP-адресу не возможна. Или есть другие решения? Я знаю защиту паролем, но сначала я должен спросить, будет ли это вариант. Тем не менее, я ищу решение на основе пользовательского агента.
3 ответа
Вам нужно включить mod_rewrite. Поместил его в.htaccess в эту папку. Если он размещен в другом месте (например, в родительской папке), шаблон RewriteRule необходимо слегка изменить, чтобы включить это имя папки).
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]
- Я ввел только несколько ботов - вы сами добавляете другие (регистр букв не имеет значения).
- Это правило ответит кодом результата "403 Access Forbidden" для таких запросов. Вы можете изменить HTTP-код другого ответа, если вы действительно хотите (403 здесь наиболее подходит, учитывая ваши требования).
Зачем использовать.htaccess или mod_rewrite для работы, которая специально предназначена для robots.txt
? Вот фрагмент robots.txt, который вам понадобится для блокировки определенного набора каталогов.
User-agent: *
Disallow: /subdir1/
Disallow: /subdir2/
Disallow: /subdir3/
Это заблокирует все поисковые боты в каталогах /subdir1/
, /subdir2/
а также /subdir3/
,
Для получения дополнительной информации см. Здесь: http://www.robotstxt.org/orig.html
Я знаю, что тема "старая", но, тем не менее, для ппл, которые также приземлились здесь (как и я), вы можете посмотреть здесь великолепный 5g черный список 2013 года.
Это отличная помощь и НЕТ не только для WordPress, но и для всех других сайтов. Работает офигенно imho.
Еще одна вещь, на которую стоит обратить внимание, это обзоры Linux по борьбе со спамом через.htaccess.