Достаточно ли тегов Robots.txt и метаданных, чтобы поисковые системы не индексировали динамические страницы, зависящие от переменных $_GET?
Я создал страницу php, которая доступна только через токен / пароль, полученный через $_GET
Поэтому, если вы перейдете на следующий URL, вы получите общую или пустую страницу
Однако, если вы использовали ссылку с токеном, она показывает вам специальный контент
http://fakepage11.com/secret_page.php?token=344ee833bde0d8fa008de206606769e4
Конечно, это не так безопасно, как страница входа, но моя единственная задача - создать динамическую страницу, которая не индексируется и доступна только через предоставленную ссылку.
Являются ли динамические страницы, которые зависят от переменных $_GET, проиндексированными Google и другими поисковыми системами?
Если это так, будет ли включать следующее будет достаточно, чтобы скрыть это?
Robots.txt
User-agent: * Disallow: /
метаданные:
<META NAME="ROBOTS" CONTENT="NOINDEX">
Даже если я введу в Google:
сайт:fakepage11.com/
Спасибо!
2 ответа
Если бот поисковой системы каким-либо образом находит ссылку с токеном, он может сканировать и индексировать ее.
Если вы используете robots.txt
чтобы запретить сканирование страницы, соответствующие поисковые роботы не будут сканировать страницу, но они все равно могут индексировать ее URL (который затем может появиться в site:
поиск).
Если вы используете meta
-robots
чтобы запретить индексацию страницы, соответствующие роботы поисковых систем не будут индексировать страницу, но они все равно могут сканировать ее.
Вы не можете иметь и то и другое: если вы запрещаете сканирование, соответствующие боты никогда не узнают, что вы также запрещаете индексирование, потому что им не разрешено посещать страницу, чтобы увидеть ваши meta
-robots
элемент.
Search Есть бесчисленное множество способов, как поисковые системы могут найти ссылку. Например, пользователь, посещающий страницу, может использовать панель инструментов браузера, которая автоматически отправляет все посещенные URL-адреса в поисковую систему.
Если ваша страница недоступна для обнаружения, она не будет проиндексирована.
под "обнаруживаемым" мы подразумеваем:
- это стандартная веб-страница, т.е. индекс. *
- на него ссылается другая ссылка, либо ваша, либо с другого сайта
Так что в вашем случае, используя параметр get для доступа, вы получаете 1, но не обязательно 2, поскольку кто-то может ссылаться на эту ссылку и, следовательно, на "скрытую" страницу.
Вы можете использовать robots.txt
что вы дали, и в этом случае страница не будет проиндексирована ботом, который уважает это (не все будут делать). Не индексация вашей страницы не означает, конечно, что "скрытый" URL-адрес страницы не будет в дикой природе.
Кроме того, другая проблема, в зависимости от ваших требований, заключается в том, что вы используете незашифрованный HTTP, это означает, что ваши "скрытые" URL-адреса и содержимое страниц видны каждому серверу между вашим сервером и пользователем.
Помимо поисковых систем позаботьтесь о том, чтобы определенные службы кэшировали / разрешали контент при обмене URL-адресами, например, в мессенджере Skype или Facebook. В этом случае они посещают URL-адрес и пытаются извлечь метаданные и, возможно, кэшировать их, если это применимо. Конечно, этот сценарий не раскрывает ваш URL для общественности, но он открыт для систем этих служб и для них контента, который вы "скрыли".
ОБНОВЛЕНИЕ: Другая проблема, которую следует рассмотреть, - это раскрытие "скрытой" страницы путем ссылки на другую страницу. В этом случае в журналах сервера, на котором размещен связанный URL-адрес, ваша страница будет рассматриваться как реферальная и, следовательно, будет отображаться, что распространяется также на Google Analytics и т. Д. Таким образом, если вы хотите оставаться скрытным, не делайте ссылки на другие страницы из скрытая страница