Обработка псевдонимов доменов в Apache Nutch 2.3.1
Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop/Hbase. В настоящее время для индексирования платформы используется Apache Solr 6.6.2. Мы обработали с помощью Nutch около 3 миллионов документов и проиндексировали их для поиска. Мы сталкиваемся с проблемой дублирования для некоторых псевдонимов домена, например, "www.urdupoint.com" и "www.urdu.com.pk" - это два псевдонима, и их содержание, как некоторые метаданные и т. Д., Очень мало, такая же страница, которая Существуют, чтобы оба сайта дважды появлялись в индексе. Как обрабатывать такие случаи в Nutch, чтобы выбрать только сайт, если два сайта являются псевдонимами?