Заблокировать сайт от поисковика - DuckDuckGo
У меня есть сайт разработки https://text-domain.com/. (не настоящий сайт) Когда я захожу на https://duckduckgo.com/ и ищу text-domain.com, он возвращает результаты.
Что я пробовал до сих пор:
созданный robots.txt
файл со следующим кодом (положить в мой корневой каталог, т.е. в text-domain.com/robots.txt):
User-agent: *
Disallow: /
Затем добавил метатег, как это в моем файле шаблона:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Даже после этого я искал на DuckDuckGo, и он дал тот же результат. Любые предложения будут приветствоваться.
PS
Привет, после ожидания нескольких дней есть 2 вывода:
- Тем не менее, результаты поиска извлекаются.
Но я вижу сообщение с таким результатом: "Мы хотели бы показать вам описание здесь, но сайт не позволит нам".
Можно ли полностью заблокировать показ в результатах?
2 ответа
DuckDuckGo должен почтить ваш robots.txt
, Их бот DuckDuckBot
задокументировано по адресу https://duckduckgo.com/duckduckbot.
Но обратите внимание: бот DuckDuckGo не сканирует все сам (так как DuckDuckGo получает результаты из других источников), поэтому ваши страницы могут все еще отображаться, если вы не заблокируете ботов этих других источников (например, Bing). Обратитесь к ответу mlissner для более подробной информации.
С robots.txt
Есть две вещи для рассмотрения:
- Требуется время, чтобы изменения в вашем
robots.txt
признаны. Вы должны подождать, пока соответствующий бот снова посетит ваш сайт. - Даже если ваши URL заблокированы в
robots.txt
поисковые системы могут по-прежнему перечислять ваши URL в своих результатах поиска (без просканированных метаданных, таких как заголовок и описание).
С использованием robots
-meta
элемент с noindex
помешал бы даже перечисление URL-адресов в поисковых системах, таких как Google, но DDG , похоже, не поддерживает его.
Обратите внимание, что вы использовали неправильные кавычки в вашем примере. Так должно быть
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
вместо
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
DuckDuckGo - странная утка, когда дело доходит до включения в их результаты. Я провел немало исследований по этой теме в ряде поисковых систем и получил несколько писем от DDG.
Вот сделка. Они получают свой контент от других поисковых систем, как указано здесь. Насколько мне известно, их результаты поиска не указывают, какая поисковая система была ее источником, поэтому для удаления вашего контента вам нужно в основном перейти к исходным текстам всех их источников и удалить свой контент оттуда. Если это звучит обременительно, не волнуйтесь - вы все равно захотите, верно?
У DDG также есть свой собственный сканер, метко названный DuckDuckBot. Это не чтим noindex
HTML-тег, а также заголовок HTTP robots.txt
), но это, похоже, не имеет значения, поскольку DuckDuckBot не создает никаких новых результатов. Насколько мне известно, это нигде не задокументировано, но я говорил с их сотрудниками, которые я цитирую ниже:
DDG говорит (2014-06-06):
Мы получаем результаты из разных источников, и наш собственный сканер не станет причиной вашей [проблемы]. Наш сканер выполняет только очень конкретные задачи, такие как поиск (а не сканирование) паркованных доменов, спам-сайтов и т. Д.
Если есть результаты с [вашего веб-сайта], появившиеся на DuckDuckGo и не должны быть, они, скорее всего, поступают из одного из наших исходных источников. Если их убрать, они перестанут показываться в наших результатах.
Я отвечаю:
ОК, так что в ваш индекс ничего не помещается через сканеры, которые действительно не поддерживают
noindex
HTML или HTTP теги?
Они подтверждают:
Ага! Извините за путаницу, и, если вы видите что-то необычное, пожалуйста, дайте нам знать.
Тогда единственный оставшийся вопрос - как вы удаляете свой контент у вышестоящих провайдеров. Для этого я указываю вам на мой блог, так как он отличается от поставщика. Суть этого:
- использование
noindex
HTML метатег иx-robots
HTTP-тег (для изображений и т. П.), Чтобы указать поисковым системам, что они не должны включать что-либо в свои результаты; - Укажите весь ваш сайт в файле sitemap.xml, чтобы все поисковые системы могли найти его там.
- использование
robots.txt
заблокировать поисковые системы, которые не поддерживаютnoindex
или жеx-robots
тег.
И для бонусных баллов:
- Установите свой
sitemaps.xml
файлы, чтобы ониnoindex
настроить (и, следовательно, не будет отображаться в результатах поиска). - Сделайте так же для вашего
robots.txt
файл.
Это сложный мир.