Nutch плагин, который сканирует по определенным ключевым словам

Есть ли какой-нибудь плагин Nutch, который помогает мне сканировать только те веб-страницы, которые содержат определенные ключевые слова, которые могут быть установлены пользователем Nutch?

Например, я хочу сканировать только веб-страницы, содержащие слова "работа" и "применять", или веб-страницы, содержащие слова типа "образование", "опыт", "преимущества"?

Если такой плагин не существует, можно ли изменить существующий?

0 ответов

Другие вопросы по тегам