Stormcrawler не индексирует контент с помощью Elasticsearch
При использовании Stormcrawler он индексирует Elasticsearch, но не его содержимое.
Stormcrawler обновлен до версии "origin / master" https://github.com/DigitalPebble/storm-crawler.git
Использование asticsearch-5.6.4
crawler-conf.yaml имеет
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
Поля url и title индексируются, но не содержимое.
Я пытаюсь заставить это работать, следуя руководству Жюльена по адресу: https://www.youtube.com/watch?v=xMCuWpPh-4A
Все работает, кроме контента, который не индексируется в Elasticsearch. Я чувствую, что это небольшая ошибка конфигурации, но я попробовал много вариантов без удачи. Итак, теперь я ищу помощи.
Благодарю.
1 ответ
Вы уверены, что контент не проиндексирован? Поле содержимого не сохраняется, см. ES_IndexInit.sh, но оно должно быть проиндексировано. Чтобы сохранить его, вы можете изменить сценарий инициализации и повторно запустить сканирование, после чего вы получите его обратно, как и другие поля. Чтобы проверить, что он проиндексирован, попробуйте выполнить запрос к нему и посмотреть, как он влияет на результаты.