Невозможно проанализировать содержимое файлов FLV и EPUB с помощью NUTCH

Я работаю с Apache Nutch и Solr, мое требование состоит в том, чтобы проанализировать содержимое файлов FLV и EPUB, я использую команду ниже для анализа файлов

bin/nutch crawl urls -solr http://localhost:8983/solr/ 

Я сохранил файл URL в папке URL-адресов Nutch. Вышеприведенная команда работает, но когда я попытался просмотреть проанализированный контент с помощью solr с помощью следующей команды, он просто отображает URL-адрес файлов.

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

пожалуйста, предложите мне....

Спасибо

1 ответ

Решение

Ваша вторая команда собирается вставить ваш просканированный контент в индекс SOLR.

Вам нужно запустить поиск в SOLR, чтобы получить просканированный контент. Что-то похожее:

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

Можете ли вы изменить поле "content" в schema.xml на сохраненный ="true", выполнить повторное сканирование, переиндексировать и опубликовать результаты поиска SOLR?

Другие вопросы по тегам