Stormcrawler не индексирует контент с помощью Elasticsearch

При использовании Stormcrawler он индексирует Elasticsearch, но не его содержимое.

Stormcrawler обновлен до версии "origin / master" https://github.com/DigitalPebble/storm-crawler.git

Использование asticsearch-5.6.4

crawler-conf.yaml имеет

indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"

Поля url и title индексируются, но не содержимое.

Я пытаюсь заставить это работать, следуя руководству Жюльена по адресу: https://www.youtube.com/watch?v=xMCuWpPh-4A

Все работает, кроме контента, который не индексируется в Elasticsearch. Я чувствую, что это небольшая ошибка конфигурации, но я попробовал много вариантов без удачи. Итак, теперь я ищу помощи.

Благодарю.

1 ответ

Решение

Вы уверены, что контент не проиндексирован? Поле содержимого не сохраняется, см. ES_IndexInit.sh, но оно должно быть проиндексировано. Чтобы сохранить его, вы можете изменить сценарий инициализации и повторно запустить сканирование, после чего вы получите его обратно, как и другие поля. Чтобы проверить, что он проиндексирован, попробуйте выполнить запрос к нему и посмотреть, как он влияет на результаты.

Другие вопросы по тегам