Использование HtmlParseFilter с анализатором Tika в Nutch 1.5

Что я хотел бы сделать: написать плагин Nutch, который получает проанализированные данные с каждой просканированной страницы. я знаю это HtmlParseFilter делает то, что мне нужно для HTML-страниц, но я также хочу обрабатывать другие типы контента. Когда Tika анализирует, скажем, документ PDF или Word, он передает результаты моей зарегистрированной HtmlParseFilter? Если нет, есть ли другой способ перехватить вывод Тики?

1 ответ

Решение

HtmlParseFilter обрабатывает все типы контента (что может Тика). Он был переименован в ParseFilter в ветвях 2.x, чтобы более точно отражать то, что он делает.

Другие вопросы по тегам