Apache Nutch 2.3.1 извлекает документы определенного типа MIME

Question

Apache Nutch 2.3.1 извлекает документы определенного типа MIME

Я настроил Apache Nutch 2.3.1 с экосистемой hadoop/hbase. Я должен сканировать определенные документы, т.е. документы, имеющие только текстовое содержание. Я нашел regex-urlfilter.txt для исключения MIME, но не смог найти никакой опции для указания MIME, который я хочу сканировать. Проблема в фильтре regex-url состоит в том, что может быть много типов MIME, которые будут увеличиваться со временем. Так что все очень сложно включить все? Есть ли способ, которым я могу поручить Nutch для получения текстовых / HTML документов, например.

0

apache web-crawler nutch nutch2 mime-filter

Источник

user3454410 15 мар '18 в 08:51

1 ответ

Другие вопросы по тегам apache web-crawler nutch nutch2 mime-filter

user1977773 15 мар '18 в 09:30 2018-03-15 09:30 · Answer 1 · 2018-03-15 09:30

Фильтры URL работают только с URL, это означает, что вы можете утверждать только на основе этого. Поскольку фильтры URL-адресов выполняются до того, как документы извлекаются / анализируются, нет никакого mimetype, который можно было бы использовать для разрешения / блокировки URL-адресов.

Есть еще один вопрос: что произойдет, если вы укажете, что хотите сканировать определенный тип mime, но в текущем цикле сканирования больше нет документов с таким типом mime? Затем сканирование будет остановлено до тех пор, пока вы не добавите дополнительные URL для сканирования (вручную), или пока не будет выбран другой URL-адрес.

Обычный подход для этого - сканировать / анализировать все и извлекать все ссылки (вы никогда не знаете, когда может появиться новая ссылка, соответствующая вашим требованиям). Тогда только индексируйте определенные типы пантомимы.

Я боюсь, что для Nutch 2.x в настоящее время не существует такого механизма. На Nutch 1.x у нас их два:

https://github.com/apache/nutch/tree/master/src/plugin/index-jexl-filter
https://github.com/apache/nutch/tree/master/src/plugin/mimetype-filter (скоро будет устаревшим)

Вы можете перенести любой из этих вариантов в Nutch 2.x.