Должен ли я удалить мета-роботов (индекс, следовать), когда у меня есть robots.txt?

Я немного запутался, должен ли я удалить метатег robots, если я хочу, чтобы поисковые системы следовали моим правилам robots.txt.

Если на странице существует метатег robots (index, follow), будут ли поисковые системы игнорировать мой файл robots.txt и проиндексировать указанные запрещенные URL-адреса в моем robots.txt?

Причина, по которой я спрашиваю об этом, заключается в том, что поисковые системы (в основном Google) по-прежнему индексируют запрещенные страницы с моего сайта.

2 ответа

Решение

Если бот поисковой системы соблюдает ваш robots.txt, и вы не разрешаете сканирование /fooтогда бот никогда не будет сканировать страницы, чьи URL-адреса начинаются с /foo, Следовательно, бот никогда не узнает, что есть meta-robots элементы.

И наоборот, это означает, что если вы хотите запретить индексирование страницы (указав meta-robots с noindex), вам не следует запрещать сканирование этой страницы в вашем файле robots.txt. В противном случае noindex никогда не доступен, и бот думает, что сканирование запрещено, а не индексация.

С robots.txt вы можете сказать поисковым системам не сканировать определенные страницы - но это не помешает им проиндексировать страницы. Если искатель обнаружил страницу, запрещенную в файле robots.txt, по внешней ссылке, он может быть проиндексирован. Это можно предотвратить с помощью мета-тега. Таким образом, robots.txt и метатег работают по-разному.

https://developers.google.com/search/reference/robots_meta_tag?hl=en

Метатеги роботов и HTTP-заголовки X-Robots-Tag обнаруживаются при сканировании URL. Если страница не разрешена для сканирования через файл robots.txt, то любая информация об указаниях или служебных директивах не будет найдена и поэтому будет игнорироваться. Если необходимо соблюдать директивы индексирования или обслуживания, URL-адреса, содержащие эти директивы, не могут быть запрещены для сканирования.

Другие вопросы по тегам