Использование HtmlParseFilter с анализатором Tika в Nutch 1.5

Question

Использование HtmlParseFilter с анализатором Tika в Nutch 1.5

Что я хотел бы сделать: написать плагин Nutch, который получает проанализированные данные с каждой просканированной страницы. я знаю это HtmlParseFilter делает то, что мне нужно для HTML-страниц, но я также хочу обрабатывать другие типы контента. Когда Tika анализирует, скажем, документ PDF или Word, он передает результаты моей зарегистрированной HtmlParseFilter? Если нет, есть ли другой способ перехватить вывод Тики?

1

java nutch

Источник

user365719 07 ноя '12 в 02:05

1 ответ

Решение

Другие вопросы по тегам java nutch

user1274085 28 ноя '12 в 06:56 2012-11-28 06:56 · Accepted Answer · 2012-11-28 06:56

HtmlParseFilter обрабатывает все типы контента (что может Тика). Он был переименован в ParseFilter в ветвях 2.x, чтобы более точно отражать то, что он делает.

3

Источник

user1274085 28 ноя '12 в 06:56