Управление поисковыми индексами

На моем сайте есть несколько конкретных страниц:

  1. Уже проиндексированы в поисковых системах, но я хочу удалить их из индексов.
  2. Многочисленные, так как они динамические (основаны на строке запроса).
  3. Немного "тяжелый" (Слишком усердный бот может напрягать сервер больше, чем хотелось бы.)

Из-за #2 я просто позволю им постепенно удаляться естественным путем, но мне нужно определиться с планом.

Я начал с того, что сделал следующее:

  1. Боты: прервать выполнение с помощью обнаружения агента пользователя в приложении и отправить практически пустой ответ. (Я не против, если некоторые боты проскальзывают и отображают реальную страницу, но я просто блокирую некоторые из них.)
  2. Боты: скинуть код ответа 403 (запрещено).
  3. Все клиенты: Отправьте заголовок "X-Robots-Tag: noindex".
  4. Все клиенты: Добавлено rel="nofollow" на ссылки, которые ведут на эти страницы.
  5. Не запрещать ботам эти страницы в robots.txt. (Я думаю, что полезно запретить ботов только в том случае, если вы делаете это с самого начала или после того, как эти страницы полностью удалены из поисковых систем; в противном случае движки не могут сканировать / получать доступ к этим страницам, чтобы обнаружить / почитать заголовок noindex, поэтому они не удалили бы их. Я упоминаю об этом, потому что я думаю, что robots.txt обычно может быть неправильно понят, и это может быть предложено как неуместная серебряная пуля.)

Однако с тех пор я думаю, что некоторые из этих шагов были либо довольно бесполезны для моей цели, либо действительно проблематичны.

  • Я не уверен, что бросать 403 боту - это хорошая идея. Видят ли поисковые системы это и полностью игнорируют X-Robots-Tag? Лучше просто дать им ответить 200?
  • Я думаю rel="nofollow" только потенциально влияет на рейтинг целевой страницы и вообще не влияет на сканирование.

С остальным планом все в порядке (поправьте меня, если я ошибаюсь), но я не уверен насчет вышеупомянутых пунктов в общей схеме.

1 ответ

Решение

Я думаю, что это хороший план:

  1. Боты: прервать выполнение с помощью обнаружения агента пользователя в приложении и отправить практически пустой ответ. (Я не против, если некоторые боты проскальзывают и отображают реальную страницу, но я просто блокирую некоторые из них.)
  2. Боты: отправьте код ответа 410 (Gone).
    "В общем, иногда веб-мастера слишком увлекаются крошечными деталями, и поэтому, если страница пропала, хорошо обслуживать 404, если вы знаете, что она ушла по-настоящему, хорошо обслуживать 410",
    - http://goo.gl/AwJdEz
  3. Все клиенты: Отправьте заголовок "X-Robots-Tag: noindex". Я думаю, что это было бы посторонним для известных ботов, которые получили 410, но это покрыло бы ботов неизвестных двигателей.
  4. Все клиенты: Добавить rel="nofollow" на ссылки, которые ведут на эти страницы. Это, вероятно, не совсем необходимо, но это не повредит.
  5. Не запрещайте ботов этим страницам в robots.txt. (Полезно запретить ботов только в том случае, если вы делаете это с самого начала или после того, как эти страницы полностью удалены из поисковых систем; в противном случае движки не могут сканировать / открывать эти страницы, чтобы обнаружить / почитать заголовок noindex, поэтому они не смогут не удаляйте их. Я упоминаю об этом, потому что я думаю, что robots.txt обычно может быть неправильно понят и может быть предложен как неподходящая серебряная пуля.)
Другие вопросы по тегам