Обработка псевдонимов доменов в Apache Nutch 2.3.1

Question

Обработка псевдонимов доменов в Apache Nutch 2.3.1

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop/Hbase. В настоящее время для индексирования платформы используется Apache Solr 6.6.2. Мы обработали с помощью Nutch около 3 миллионов документов и проиндексировали их для поиска. Мы сталкиваемся с проблемой дублирования для некоторых псевдонимов домена, например, "www.urdupoint.com" и "www.urdu.com.pk" - это два псевдонима, и их содержание, как некоторые метаданные и т. Д., Очень мало, такая же страница, которая Существуют, чтобы оба сайта дважды появлялись в индексе. Как обрабатывать такие случаи в Nutch, чтобы выбрать только сайт, если два сайта являются псевдонимами?

0

solr duplicates lucene nutch nutch2

Источник

user3454410 01 авг '18 в 07:37

0 ответов

Другие вопросы по тегам solr duplicates lucene nutch nutch2