Использование HtmlParseFilter с анализатором Tika в Nutch 1.5
Что я хотел бы сделать: написать плагин Nutch, который получает проанализированные данные с каждой просканированной страницы. я знаю это HtmlParseFilter
делает то, что мне нужно для HTML-страниц, но я также хочу обрабатывать другие типы контента. Когда Tika анализирует, скажем, документ PDF или Word, он передает результаты моей зарегистрированной HtmlParseFilter
? Если нет, есть ли другой способ перехватить вывод Тики?
1 ответ
Решение
HtmlParseFilter обрабатывает все типы контента (что может Тика). Он был переименован в ParseFilter в ветвях 2.x, чтобы более точно отражать то, что он делает.