Запретить поисковым системам сканирование определенной веб-страницы

Question

Запретить поисковым системам сканирование определенной веб-страницы

У меня есть веб-страница, на которой пользователи могут заполнять некоторые данные, и для этого им необходимо войти в систему. Итак, когда я создал sitemap.xml используя xml-sitemaps.com, он создал несколько locs, запрашивающих сначала логин. Что-то вроде:

<loc> https://www.example.com/login/?next=fill-form/ </loc>

Эта страница также не имеет контента, поэтому я подумал, что это хорошая идея, чтобы поисковые системы не сканировали ее.

Мне было интересно, как правильно предотвратить сканирование поисковых систем,

добавив тег ниже head раздел,

<meta name="robots" content="noindex, nofollow">

или запретить веб-страницу, добавив ее URL в robots.txt файл?

Кроме того, в чем разница между этими двумя?

0

web web-crawler sitemap robots.txt noindex

Источник

15 апр '18 в 16:20

2 ответа

Другие вопросы по тегам web web-crawler sitemap robots.txt noindex

user9634252 15 апр '18 в 16:52 2018-04-15 16:52 · Answer 1 · 2018-04-15 16:52

Вы можете попробовать оба варианта, хотя единственное различие между вышеупомянутыми методами состоит в том, что <META> тег содержит "NOFOLLOW", что говорит роботу не переходить по ссылкам, указанным на указанной странице.

Вы должны заметить, что роботы могут не соблюдать оба метода, поскольку оба метода не являются полностью разработанными стандартами.

Для получения дополнительной информации вы можете посетить: http://www.robotstxt.org/, он содержит подробное описание того, как использовать оба метода, в дополнение к проверке robots.txt.

user1591669 16 апр '18 в 17:26 2018-04-16 17:26 · Answer 2 · 2018-04-16 17:26

robots.txt запрещает ползать
noindex запрещает индексацию
Вы не можете запретить оба.

если ты Disallow URL в вашем robots.txt, соответствующие боты не будут посещать этот URL. Если они каким-либо образом находят ссылку, поисковые системы могут решить проиндексировать URL (даже не посещая ее).

если ты noindex URL, соответствующий поисковым системам, не будет индексировать URL, но боты все равно могут его посещать (иначе они не смогут узнать, что noindex применяется в первую очередь).