Невозможно проанализировать содержимое файлов FLV и EPUB с помощью NUTCH
Я работаю с Apache Nutch и Solr, мое требование состоит в том, чтобы проанализировать содержимое файлов FLV и EPUB, я использую команду ниже для анализа файлов
bin/nutch crawl urls -solr http://localhost:8983/solr/
Я сохранил файл URL в папке URL-адресов Nutch. Вышеприведенная команда работает, но когда я попытался просмотреть проанализированный контент с помощью solr с помощью следующей команды, он просто отображает URL-адрес файлов.
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
пожалуйста, предложите мне....
Спасибо
1 ответ
Ваша вторая команда собирается вставить ваш просканированный контент в индекс SOLR.
Вам нужно запустить поиск в SOLR, чтобы получить просканированный контент. Что-то похожее:
http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on
Можете ли вы изменить поле "content" в schema.xml на сохраненный ="true", выполнить повторное сканирование, переиндексировать и опубликовать результаты поиска SOLR?