solr: как сохранить дублирование контента разных URL
У нас есть несколько веб-страниц с похожими страницами одного и того же контента (например, консоли MGMT UPS) в нашей внутренней сети. Solr всегда сохраняет только один из них, потому что они имеют один и тот же дайджест.
Indexer: finished at 2013-11-18 01:21:28, elapsed: 00:00:02
SolrDeleteDuplicates: starting at 2013-11-18 01:21:28
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/collection_test5
SolrDeleteDuplicates: deleting 4 duplicates
SolrDeleteDuplicates: finished at 2013-11-18 01:21:29, elapsed: 00:00:01
crawl finished: crawl
Все 4 удаленных дубликата имеют разные URL. Я хочу, чтобы все они были в solr, пока solr все еще может удалять другие виды дублированного контента. Я думаю, что URL-адрес не используется для создания дайджеста по умолчанию, так есть ли способ установить URL-адрес? Какие еще варианты у меня есть?