Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов?

Я работаю с SOLR над проектом, в который мы импортируем кучу (~40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF.

Есть ли лучшая практика schema.xml и / или solrconfig.xml использовать в SOLR при использовании ExtractingRequestHandler ?

Я пытался настроить схему по умолчанию, чтобы заставить фасеты работать со временем изменения даты, но даже без этого я думаю, что вполне может существовать хороший пример того, какими должны быть эти файлы, когда достаточно вывода по умолчанию из Tika.

Если нет такой вещи, как лучшая практика schema.xml и / или solrconfig.xml Мне также интересны хорошие примеры, желательно из существующих проектов с открытым исходным кодом или даже хорошие посты в блоге.

Любые указатели приветствуются!

1 ответ

В книгах "Укрощение текста" (http://www.manning.com/ingersoll/) есть ссылки на ExtractingRequestHandler. Эта книга посвящена обработке текста с использованием инструментов с открытым исходным кодом, таких как solr, tika или lucene.

Я читал до главы 5, и до сих пор книга объясняет, как расширяет функциональность solr, изменяя файл schema.xml для создания полей различных типов и обрабатывая запросы или индексируя.

Другие вопросы по тегам