Достаточно ли тегов Robots.txt и метаданных, чтобы поисковые системы не индексировали динамические страницы, зависящие от переменных $_GET?

Я создал страницу php, которая доступна только через токен / пароль, полученный через $_GET

Поэтому, если вы перейдете на следующий URL, вы получите общую или пустую страницу

http://fakepage11.com/secret_page.php

Однако, если вы использовали ссылку с токеном, она показывает вам специальный контент

http://fakepage11.com/secret_page.php?token=344ee833bde0d8fa008de206606769e4

Конечно, это не так безопасно, как страница входа, но моя единственная задача - создать динамическую страницу, которая не индексируется и доступна только через предоставленную ссылку.

Являются ли динамические страницы, которые зависят от переменных $_GET, проиндексированными Google и другими поисковыми системами?

Если это так, будет ли включать следующее будет достаточно, чтобы скрыть это?

  • Robots.txt User-agent: * Disallow: /

  • метаданные: <META NAME="ROBOTS" CONTENT="NOINDEX">

Даже если я введу в Google:

сайт:fakepage11.com/

Спасибо!

2 ответа

Решение

Если бот поисковой системы каким-либо образом находит ссылку с токеном, он может сканировать и индексировать ее.

Если вы используете robots.txt чтобы запретить сканирование страницы, соответствующие поисковые роботы не будут сканировать страницу, но они все равно могут индексировать ее URL (который затем может появиться в site: поиск).

Если вы используете meta-robots чтобы запретить индексацию страницы, соответствующие роботы поисковых систем не будут индексировать страницу, но они все равно могут сканировать ее.

Вы не можете иметь и то и другое: если вы запрещаете сканирование, соответствующие боты никогда не узнают, что вы также запрещаете индексирование, потому что им не разрешено посещать страницу, чтобы увидеть ваши meta-robots элемент.

Search Есть бесчисленное множество способов, как поисковые системы могут найти ссылку. Например, пользователь, посещающий страницу, может использовать панель инструментов браузера, которая автоматически отправляет все посещенные URL-адреса в поисковую систему.

Если ваша страница недоступна для обнаружения, она не будет проиндексирована.

под "обнаруживаемым" мы подразумеваем:

  1. это стандартная веб-страница, т.е. индекс. *
  2. на него ссылается другая ссылка, либо ваша, либо с другого сайта

Так что в вашем случае, используя параметр get для доступа, вы получаете 1, но не обязательно 2, поскольку кто-то может ссылаться на эту ссылку и, следовательно, на "скрытую" страницу.

Вы можете использовать robots.txt что вы дали, и в этом случае страница не будет проиндексирована ботом, который уважает это (не все будут делать). Не индексация вашей страницы не означает, конечно, что "скрытый" URL-адрес страницы не будет в дикой природе.

Кроме того, другая проблема, в зависимости от ваших требований, заключается в том, что вы используете незашифрованный HTTP, это означает, что ваши "скрытые" URL-адреса и содержимое страниц видны каждому серверу между вашим сервером и пользователем.

Помимо поисковых систем позаботьтесь о том, чтобы определенные службы кэшировали / разрешали контент при обмене URL-адресами, например, в мессенджере Skype или Facebook. В этом случае они посещают URL-адрес и пытаются извлечь метаданные и, возможно, кэшировать их, если это применимо. Конечно, этот сценарий не раскрывает ваш URL для общественности, но он открыт для систем этих служб и для них контента, который вы "скрыли".

ОБНОВЛЕНИЕ: Другая проблема, которую следует рассмотреть, - это раскрытие "скрытой" страницы путем ссылки на другую страницу. В этом случае в журналах сервера, на котором размещен связанный URL-адрес, ваша страница будет рассматриваться как реферальная и, следовательно, будет отображаться, что распространяется также на Google Analytics и т. Д. Таким образом, если вы хотите оставаться скрытным, не делайте ссылки на другие страницы из скрытая страница

Другие вопросы по тегам