Управление поисковыми индексами
На моем сайте есть несколько конкретных страниц:
- Уже проиндексированы в поисковых системах, но я хочу удалить их из индексов.
- Многочисленные, так как они динамические (основаны на строке запроса).
- Немного "тяжелый" (Слишком усердный бот может напрягать сервер больше, чем хотелось бы.)
Из-за #2 я просто позволю им постепенно удаляться естественным путем, но мне нужно определиться с планом.
Я начал с того, что сделал следующее:
- Боты: прервать выполнение с помощью обнаружения агента пользователя в приложении и отправить практически пустой ответ. (Я не против, если некоторые боты проскальзывают и отображают реальную страницу, но я просто блокирую некоторые из них.)
- Боты: скинуть код ответа 403 (запрещено).
- Все клиенты: Отправьте заголовок "X-Robots-Tag: noindex".
- Все клиенты: Добавлено
rel="nofollow"
на ссылки, которые ведут на эти страницы. - Не запрещать ботам эти страницы в robots.txt. (Я думаю, что полезно запретить ботов только в том случае, если вы делаете это с самого начала или после того, как эти страницы полностью удалены из поисковых систем; в противном случае движки не могут сканировать / получать доступ к этим страницам, чтобы обнаружить / почитать заголовок noindex, поэтому они не удалили бы их. Я упоминаю об этом, потому что я думаю, что robots.txt обычно может быть неправильно понят, и это может быть предложено как неуместная серебряная пуля.)
Однако с тех пор я думаю, что некоторые из этих шагов были либо довольно бесполезны для моей цели, либо действительно проблематичны.
- Я не уверен, что бросать 403 боту - это хорошая идея. Видят ли поисковые системы это и полностью игнорируют X-Robots-Tag? Лучше просто дать им ответить 200?
- Я думаю
rel="nofollow"
только потенциально влияет на рейтинг целевой страницы и вообще не влияет на сканирование.
С остальным планом все в порядке (поправьте меня, если я ошибаюсь), но я не уверен насчет вышеупомянутых пунктов в общей схеме.
1 ответ
Решение
Я думаю, что это хороший план:
- Боты: прервать выполнение с помощью обнаружения агента пользователя в приложении и отправить практически пустой ответ. (Я не против, если некоторые боты проскальзывают и отображают реальную страницу, но я просто блокирую некоторые из них.)
- Боты: отправьте код ответа 410 (Gone).
"В общем, иногда веб-мастера слишком увлекаются крошечными деталями, и поэтому, если страница пропала, хорошо обслуживать 404, если вы знаете, что она ушла по-настоящему, хорошо обслуживать 410",
- http://goo.gl/AwJdEz - Все клиенты: Отправьте заголовок "X-Robots-Tag: noindex". Я думаю, что это было бы посторонним для известных ботов, которые получили 410, но это покрыло бы ботов неизвестных двигателей.
- Все клиенты: Добавить
rel="nofollow"
на ссылки, которые ведут на эти страницы. Это, вероятно, не совсем необходимо, но это не повредит. - Не запрещайте ботов этим страницам в robots.txt. (Полезно запретить ботов только в том случае, если вы делаете это с самого начала или после того, как эти страницы полностью удалены из поисковых систем; в противном случае движки не могут сканировать / открывать эти страницы, чтобы обнаружить / почитать заголовок noindex, поэтому они не смогут не удаляйте их. Я упоминаю об этом, потому что я думаю, что robots.txt обычно может быть неправильно понят и может быть предложен как неподходящая серебряная пуля.)