Apache Nutch 2.3.1 извлекает документы определенного типа MIME
Я настроил Apache Nutch 2.3.1 с экосистемой hadoop/hbase. Я должен сканировать определенные документы, т.е. документы, имеющие только текстовое содержание. Я нашел regex-urlfilter.txt для исключения MIME, но не смог найти никакой опции для указания MIME, который я хочу сканировать. Проблема в фильтре regex-url состоит в том, что может быть много типов MIME, которые будут увеличиваться со временем. Так что все очень сложно включить все? Есть ли способ, которым я могу поручить Nutch для получения текстовых / HTML документов, например.
1 ответ
Фильтры URL работают только с URL, это означает, что вы можете утверждать только на основе этого. Поскольку фильтры URL-адресов выполняются до того, как документы извлекаются / анализируются, нет никакого mimetype, который можно было бы использовать для разрешения / блокировки URL-адресов.
Есть еще один вопрос: что произойдет, если вы укажете, что хотите сканировать определенный тип mime, но в текущем цикле сканирования больше нет документов с таким типом mime? Затем сканирование будет остановлено до тех пор, пока вы не добавите дополнительные URL для сканирования (вручную), или пока не будет выбран другой URL-адрес.
Обычный подход для этого - сканировать / анализировать все и извлекать все ссылки (вы никогда не знаете, когда может появиться новая ссылка, соответствующая вашим требованиям). Тогда только индексируйте определенные типы пантомимы.
Я боюсь, что для Nutch 2.x в настоящее время не существует такого механизма. На Nutch 1.x у нас их два:
- https://github.com/apache/nutch/tree/master/src/plugin/index-jexl-filter
- https://github.com/apache/nutch/tree/master/src/plugin/mimetype-filter (скоро будет устаревшим)
Вы можете перенести любой из этих вариантов в Nutch 2.x.