Заблокировать сайт от поисковика - DuckDuckGo

Question

Заблокировать сайт от поисковика - DuckDuckGo

У меня есть сайт разработки https://text-domain.com/. (не настоящий сайт) Когда я захожу на https://duckduckgo.com/ и ищу text-domain.com, он возвращает результаты.

Что я пробовал до сих пор:

созданный robots.txt файл со следующим кодом (положить в мой корневой каталог, т.е. в text-domain.com/robots.txt):

User-agent: *
Disallow: /

Затем добавил метатег, как это в моем файле шаблона:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Даже после этого я искал на DuckDuckGo, и он дал тот же результат. Любые предложения будут приветствоваться.

PS

Привет, после ожидания нескольких дней есть 2 вывода:

Тем не менее, результаты поиска извлекаются.
Но я вижу сообщение с таким результатом: "Мы хотели бы показать вам описание здесь, но сайт не позволит нам".
Можно ли полностью заблокировать показ в результатах?

8

web-crawler robots.txt robot duckduckgo

Источник

user1068142 06 авг '13 в 12:03

2 ответа

Решение

DuckDuckGo - странная утка, когда дело доходит до включения в их результаты. Я провел немало исследований по этой теме в ряде поисковых систем и получил несколько писем от DDG.

Вот сделка. Они получают свой контент от других поисковых систем, как указано здесь. Насколько мне известно, их результаты поиска не указывают, какая поисковая система была ее источником, поэтому для удаления вашего контента вам нужно в основном перейти к исходным текстам всех их источников и удалить свой контент оттуда. Если это звучит обременительно, не волнуйтесь - вы все равно захотите, верно?

У DDG также есть свой собственный сканер, метко названный DuckDuckBot. Это не чтим noindex HTML-тег, а также заголовок HTTP robots.txt), но это, похоже, не имеет значения, поскольку DuckDuckBot не создает никаких новых результатов. Насколько мне известно, это нигде не задокументировано, но я говорил с их сотрудниками, которые я цитирую ниже:

DDG говорит (2014-06-06):

Мы получаем результаты из разных источников, и наш собственный сканер не станет причиной вашей [проблемы]. Наш сканер выполняет только очень конкретные задачи, такие как поиск (а не сканирование) паркованных доменов, спам-сайтов и т. Д.
Если есть результаты с [вашего веб-сайта], появившиеся на DuckDuckGo и не должны быть, они, скорее всего, поступают из одного из наших исходных источников. Если их убрать, они перестанут показываться в наших результатах.

Я отвечаю:

ОК, так что в ваш индекс ничего не помещается через сканеры, которые действительно не поддерживают noindex HTML или HTTP теги?

Они подтверждают:

Ага! Извините за путаницу, и, если вы видите что-то необычное, пожалуйста, дайте нам знать.

Тогда единственный оставшийся вопрос - как вы удаляете свой контент у вышестоящих провайдеров. Для этого я указываю вам на мой блог, так как он отличается от поставщика. Суть этого:

использование noindex HTML метатег и x-robots HTTP-тег (для изображений и т. П.), Чтобы указать поисковым системам, что они не должны включать что-либо в свои результаты;
Укажите весь ваш сайт в файле sitemap.xml, чтобы все поисковые системы могли найти его там.
использование robots.txt заблокировать поисковые системы, которые не поддерживают noindex или же x-robots тег.

И для бонусных баллов:

Установите свой sitemaps.xml файлы, чтобы они noindex настроить (и, следовательно, не будет отображаться в результатах поиска).
Сделайте так же для вашего robots.txt файл.

Это сложный мир.

19

Источник

user64911 06 июн '14 в 19:34

Другие вопросы по тегам web-crawler robots.txt robot duckduckgo

user1591669 07 авг '13 в 16:23 2013-08-07 16:23 · Accepted Answer · 2013-08-07 16:23

DuckDuckGo должен почтить ваш robots.txt, Их бот DuckDuckBot задокументировано по адресу https://duckduckgo.com/duckduckbot.

Но обратите внимание: бот DuckDuckGo не сканирует все сам (так как DuckDuckGo получает результаты из других источников), поэтому ваши страницы могут все еще отображаться, если вы не заблокируете ботов этих других источников (например, Bing). Обратитесь к ответу mlissner для более подробной информации.

С robots.txtЕсть две вещи для рассмотрения:

Требуется время, чтобы изменения в вашем robots.txt признаны. Вы должны подождать, пока соответствующий бот снова посетит ваш сайт.
Даже если ваши URL заблокированы в robots.txtпоисковые системы могут по-прежнему перечислять ваши URL в своих результатах поиска (без просканированных метаданных, таких как заголовок и описание).

С использованием robots-meta элемент с noindex помешал бы даже перечисление URL-адресов в поисковых системах, таких как Google, но DDG , похоже, не поддерживает его.

Обратите внимание, что вы использовали неправильные кавычки в вашем примере. Так должно быть

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

вместо

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>