Запретить поисковым системам сканирование определенной веб-страницы
У меня есть веб-страница, на которой пользователи могут заполнять некоторые данные, и для этого им необходимо войти в систему. Итак, когда я создал sitemap.xml
используя xml-sitemaps.com, он создал несколько locs, запрашивающих сначала логин. Что-то вроде:
<loc> https://www.example.com/login/?next=fill-form/ </loc>
Эта страница также не имеет контента, поэтому я подумал, что это хорошая идея, чтобы поисковые системы не сканировали ее.
Мне было интересно, как правильно предотвратить сканирование поисковых систем,
добавив тег ниже head
раздел,
<meta name="robots" content="noindex, nofollow">
или запретить веб-страницу, добавив ее URL в robots.txt
файл?
Кроме того, в чем разница между этими двумя?
2 ответа
Вы можете попробовать оба варианта, хотя единственное различие между вышеупомянутыми методами состоит в том, что <META>
тег содержит "NOFOLLOW"
, что говорит роботу не переходить по ссылкам, указанным на указанной странице.
Вы должны заметить, что роботы могут не соблюдать оба метода, поскольку оба метода не являются полностью разработанными стандартами.
Для получения дополнительной информации вы можете посетить: http://www.robotstxt.org/, он содержит подробное описание того, как использовать оба метода, в дополнение к проверке robots.txt.
robots.txt
запрещает ползатьnoindex
запрещает индексацию
Вы не можете запретить оба.
если ты Disallow
URL в вашем robots.txt, соответствующие боты не будут посещать этот URL. Если они каким-либо образом находят ссылку, поисковые системы могут решить проиндексировать URL (даже не посещая ее).
если ты noindex
URL, соответствующий поисковым системам, не будет индексировать URL, но боты все равно могут его посещать (иначе они не смогут узнать, что noindex
применяется в первую очередь).