Должен ли я удалить мета-роботов (индекс, следовать), когда у меня есть robots.txt?
Я немного запутался, должен ли я удалить метатег robots, если я хочу, чтобы поисковые системы следовали моим правилам robots.txt.
Если на странице существует метатег robots (index, follow), будут ли поисковые системы игнорировать мой файл robots.txt и проиндексировать указанные запрещенные URL-адреса в моем robots.txt?
Причина, по которой я спрашиваю об этом, заключается в том, что поисковые системы (в основном Google) по-прежнему индексируют запрещенные страницы с моего сайта.
2 ответа
Если бот поисковой системы соблюдает ваш robots.txt, и вы не разрешаете сканирование /foo
тогда бот никогда не будет сканировать страницы, чьи URL-адреса начинаются с /foo
, Следовательно, бот никогда не узнает, что есть meta
-robots
элементы.
И наоборот, это означает, что если вы хотите запретить индексирование страницы (указав meta
-robots
с noindex
), вам не следует запрещать сканирование этой страницы в вашем файле robots.txt. В противном случае noindex
никогда не доступен, и бот думает, что сканирование запрещено, а не индексация.
С robots.txt вы можете сказать поисковым системам не сканировать определенные страницы - но это не помешает им проиндексировать страницы. Если искатель обнаружил страницу, запрещенную в файле robots.txt, по внешней ссылке, он может быть проиндексирован. Это можно предотвратить с помощью мета-тега. Таким образом, robots.txt и метатег работают по-разному.
https://developers.google.com/search/reference/robots_meta_tag?hl=en
Метатеги роботов и HTTP-заголовки X-Robots-Tag обнаруживаются при сканировании URL. Если страница не разрешена для сканирования через файл robots.txt, то любая информация об указаниях или служебных директивах не будет найдена и поэтому будет игнорироваться. Если необходимо соблюдать директивы индексирования или обслуживания, URL-адреса, содержащие эти директивы, не могут быть запрещены для сканирования.