Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов?

Question

Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов?

Я работаю с SOLR над проектом, в который мы импортируем кучу (~40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF.

Есть ли лучшая практика schema.xml и / или solrconfig.xml использовать в SOLR при использовании ExtractingRequestHandler ?

Я пытался настроить схему по умолчанию, чтобы заставить фасеты работать со временем изменения даты, но даже без этого я думаю, что вполне может существовать хороший пример того, какими должны быть эти файлы, когда достаточно вывода по умолчанию из Tika.

Если нет такой вещи, как лучшая практика schema.xml и / или solrconfig.xml Мне также интересны хорошие примеры, желательно из существующих проектов с открытым исходным кодом или даже хорошие посты в блоге.

Любые указатели приветствуются!

5

solr lucene full-text-search apache-tika solr-cell

Источник

user697243 05 дек '11 в 23:31

1 ответ

Другие вопросы по тегам solr lucene full-text-search apache-tika solr-cell

user222077 09 дек '11 в 14:04 2011-12-09 14:04 · Answer 1 · 2011-12-09 14:04

В книгах "Укрощение текста" (http://www.manning.com/ingersoll/) есть ссылки на ExtractingRequestHandler. Эта книга посвящена обработке текста с использованием инструментов с открытым исходным кодом, таких как solr, tika или lucene.

Я читал до главы 5, и до сих пор книга объясняет, как расширяет функциональность solr, изменяя файл schema.xml для создания полей различных типов и обрабатывая запросы или индексируя.