Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов?
Я работаю с SOLR над проектом, в который мы импортируем кучу (~40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF.
Есть ли лучшая практика schema.xml
и / или solrconfig.xml
использовать в SOLR при использовании ExtractingRequestHandler
?
Я пытался настроить схему по умолчанию, чтобы заставить фасеты работать со временем изменения даты, но даже без этого я думаю, что вполне может существовать хороший пример того, какими должны быть эти файлы, когда достаточно вывода по умолчанию из Tika.
Если нет такой вещи, как лучшая практика schema.xml
и / или solrconfig.xml
Мне также интересны хорошие примеры, желательно из существующих проектов с открытым исходным кодом или даже хорошие посты в блоге.
Любые указатели приветствуются!
1 ответ
В книгах "Укрощение текста" (http://www.manning.com/ingersoll/) есть ссылки на ExtractingRequestHandler. Эта книга посвящена обработке текста с использованием инструментов с открытым исходным кодом, таких как solr, tika или lucene.
Я читал до главы 5, и до сих пор книга объясняет, как расширяет функциональность solr, изменяя файл schema.xml для создания полей различных типов и обрабатывая запросы или индексируя.