Как включить / отключить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно?

Например, при использовании Google Search Appliance я бы использовал теги "googleon" - "googleoff" вокруг содержимого на странице, которое я не хочу индексировать (верхние и нижние колонтитулы, строки об авторских правах и т. Д.).

благодарю вас

2 ответа

Решение

Вам нужно будет создать собственный плагин для Nutch, чтобы иметь возможность выполнить это поведение. Ниже приведены некоторые соответствующие ссылки с примерами.

Существует текстовый файл "robots.txt", который предоставляет поисковым системам информацию о том, какие html-страницы программе разрешено или нет для поиска контента. В ссылке FAQ robots.txt: Как остановить индексацию вы найдете всю информацию.

Другие вопросы по тегам