solr: как сохранить дублирование контента разных URL

У нас есть несколько веб-страниц с похожими страницами одного и того же контента (например, консоли MGMT UPS) в нашей внутренней сети. Solr всегда сохраняет только один из них, потому что они имеют один и тот же дайджест.

    Indexer: finished at 2013-11-18 01:21:28, elapsed: 00:00:02
    SolrDeleteDuplicates: starting at 2013-11-18 01:21:28
    SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/collection_test5
    SolrDeleteDuplicates: deleting 4 duplicates
    SolrDeleteDuplicates: finished at 2013-11-18 01:21:29, elapsed: 00:00:01
    crawl finished: crawl

Все 4 удаленных дубликата имеют разные URL. Я хочу, чтобы все они были в solr, пока solr все еще может удалять другие виды дублированного контента. Я думаю, что URL-адрес не используется для создания дайджеста по умолчанию, так есть ли способ установить URL-адрес? Какие еще варианты у меня есть?

0 ответов

Другие вопросы по тегам