Есть ли способ заставить роботов игнорировать определенный текст?

У меня есть мой блог (вы можете увидеть его, если хотите, из моего профиля), и он свежий, а также результаты разбора роботов Google.

Результаты были тревожными для меня. По-видимому, наиболее распространенными 2 словами на моем сайте являются "rss" и "feed", потому что я использую текст для таких ссылок, как "Comments RSS", "Post Feed" и т. Д. Эти 2 слова будут присутствовать в каждом сообщении, в то время как другие слова будет более редким.

Есть ли способ заставить эти ссылки исчезнуть из анализа Google? Я не хочу, чтобы технические ссылки были проиндексированы. Я только хочу, чтобы контент, заголовки, описания были проиндексированы. Я ищу что-то, кроме замены этого текста с изображениями.

Я нашел некоторые старые обсуждения в Google, начиная с 2007 года (я думаю, что через 3 года многое могло измениться, надеюсь, это тоже)

Этот вопрос не о robots.txt, а о том, как заставить Google игнорировать страницы. Речь идет о том, чтобы заставить его игнорировать небольшие части страницы или трансформировать части таким образом, чтобы он был виден людям и невидим для роботов.

11 ответов

Решение

Существует простой способ заставить Google не индексировать части ваших документов, используя googleon а также googleoff:

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index-->

В этом примере второй абзац не будет проиндексирован Google. Обратите внимание на "indexПараметр, который может быть установлен в любое из следующих:

  • index - контент в окружении "googleoff: index"Не будет проиндексирован Google

    anchor - Якорный текст для любых ссылок в пределах "googleoff: anchor"Область не будет связана с целевой страницей

    snippet - контент в окружении "googleoff: snippet”Не будет использоваться для создания фрагментов для результатов поиска

    all - контент в окружении "googleoff: allОбращаются со всеми

источник

Google игнорирует HTML-теги, в которых есть data-nosnippet:

<p>This text can be included in a snippet <span data-nosnippet>and this part would not be shown</span>.</p>

Источник: специальные теги, которые понимает Google - встроенные директивы.

Я работаю над сайтом с топ-3 рейтинга Google в тысячах названий школ в США, и мы много работаем, чтобы защитить наш SEO. Вы можете сделать 3 основных вещи (которые, вероятно, являются пустой тратой времени, продолжайте читать):

  • Переместите материал, который вы хотите преуменьшить, в конец HTML-кода и используйте CSS и / или разместите его там, где вы хотите, чтобы читатели увидели его. Это не скроет это от сканеров, но они будут ценить это ниже.
  • Замените эти ссылки изображениями (вы говорите, что не хотите этого делать, но не объясняете, почему нет)
  • Подайте сканерам другую страницу с удаленными ссылками. В этом нет ничего черного, если контент в основном такой же, как браузер. Поисковые системы будут вам звонить, если вы откроете страницу, которая значительно отличается от того, что видят пользователи, но если вы удалите ссылки RSS из версии индекса поисковых роботов, у вас не возникнет проблем.

Тем не менее, сканеры умны, и вы не единственный сайт, заполненный постоянными ссылками и ссылками rss. Они заботятся о контексте и ищут термины и фразы в ваших заголовках и основном тексте. Они знают, как определить, что ваш блог посвящен технологиям, а не RSS. Я очень сомневаюсь, что эти ссылки имеют негативное влияние на ваш SEO. Какую проблему вы на самом деле пытаетесь решить?

Если вы хотите создать SEO, выясните, какую ценность вы предоставляете читателям, и напишите об этом. Скажите интересные вещи, которые приведут других к ссылке на ваш блог, и сканеры поймут, что вы являетесь источником информации, который ценят люди. Думайте больше о том, что ваши читатели видят и понимают, и меньше о том, что, по вашему мнению, видит гусеничный робот.

Сначала подумайте о проблеме. Если Google считает "RSS" основным словом, которое может указывать на то, что остальная часть вашего контента немного поверхностна и нуждается в расширении. Возможно, это должно быть в центре вашего внимания. Если остальная часть вашего контента богата, я не буду беспокоиться об этой проблеме, так как поисковая система должна знать, о чем эта страница, из заголовка и заголовков. Просто убедитесь, что RSS и т. Д. Не указаны в заголовке, жирном или сильном теге

Во-вторых, как вы правильно заметили, вы, вероятно, не хотите использовать изображения, поскольку они не поддаются оценке для программ чтения с экрана без альт-текста, и если у них есть альт-текст или вспомогательный текст, вы добавляете ключевое слово обратно. Однако aria live может помочь вам обойти этот вопрос, но я не специалист по доступности.

Варианты:

  • Используйте JavaScript, чтобы написать этот бит контента (может быть, Ajax его после загрузки). Такие поисковые системы, как Google, могут выполнять JavaScript, но я думаю, он не будет высоко ценить любой написанный JS контент.
  • Перефразируя содержимое или удаляя его дубликаты, одна заметная ссылка на канал RSS может быть лучше, чем несколько меньших, разбросанных по всей странице.
  • Используйте атрибут содержимого css с псевдо: before или: after, чтобы добавить свой контент. Я не уверен, что боты будут индексировать слова в атрибутах содержимого в CSS и знают, что значение содержимого относится к каждой странице, но это кажется маловероятным. Помещение в CSS таких слов, как RSS, в основном говорит о том, что это стиль, а не HTML, поэтому, даже если движки его индексируют, они не добавят к нему большого / какого-либо значения. Например, HTML и CSS могут быть:

    <a href="/my-feed.rss" class="add-text"></a>
    
    .add-text:after { content:'View my RSS feed'; }
    

Обратите внимание, что вышеупомянутое не будет работать в более старых версиях IE, поэтому вам могут понадобиться некоторые комментарии к версии IE, если вы заботитесь об этом.

"googleon" и "googleoff" поддерживаются только Google Search Appliance (когда вы размещаете собственные результаты поиска, обычно для своего внутреннего веб-сайта).

Они вообще не поддерживаются веб-поиском Google. Поэтому, пожалуйста, воздержитесь от этого, и я думаю, что это не должно быть помечено как правильный ответ, так как это может создать двусмысленность.

Теперь, чтобы Google исключил часть страницы, вам нужно будет поместить этот контент в отдельный файл, такой как exclude.html, и использовать iframe для отображения этого контента на странице хоста.

Тег iframe извлекает содержимое из другого файла и вставляет его на страницу хоста. Я думаю, что пока нет другого доступного метода.

Единственный элемент управления роботами-индексаторами - это файл robots.txt. См. Эту документацию, на которую ссылается Google на их странице, объясняющей использование файла.

Вы можете запретить определенные ссылки и URL, но не обязательно ключевые слова.

Помимо методов на стороне сервера, вы ничего не можете сделать. Возможно, вы захотите узнать, почему у вас есть такие слова, и удалить некоторые из них с сайта.

Раньше считалось, что вы можете использовать JS, чтобы "спрятать" вещи от googlebot, но вы не можете теперь, когда он анализирует JS. ( http://www.webmasterworld.com/google/4159807.htm)

Google Crawler умный, но тот, кто их программирует, самый умный. Люди всегда видят то, что разумно на странице, они проводят время в блоге, который имеет приятный контент и самый редкий и уникальный. Все дело в здравом смысле, как люди посещают ваш блог и сколько времени они проводят. Google измеряет результат поиска таким же образом. Рейтинг вашей страницы также увеличивается по мере увеличения числа ежедневных посещений, а также улучшения содержания и обновления контента сайта. На этой странице есть слова "Ответить", повторенные несколько раз. Это не значит, что он не будет проиндексирован. Это насколько полезно для каждого. Я надеюсь, что это даст вам некоторое представление

Я предполагаю, что в некоторых случаях вы можете отображать HTML как холст в режиме реального времени с прослушивателями изменения размера области просмотра.

https://github.com/miohtama/Krusovice/blob/master/src/tools/html2svg2canvas.js

https://github.com/tsayen/dom-to-image

Например, для модальных окон с URL-адресами с отслеживанием состояния.

Нет, на самом деле ничего подобного нет. Существуют различные методы на стороне сервера, но если Google поймает, что вы посылаете другому боту другой текст, чем вы предоставляете посетителям сайта, это накажет вас.

Вы должны вручную определить "Google Bot" из пользовательского агента запроса и передать им немного другой контент, чем вы обычно предоставляете своему пользователю.

Другие вопросы по тегам