Проблема парсинга заголовка Apache Nutch для языковых сайтов

Question

Проблема парсинга заголовка Apache Nutch для языковых сайтов

Я настроил Apache Nutch 2.3.1 с Hadoop 2.7.5 и Hbase 0.98. Я должен сканировать некоторые сайты на урду. Я использую парсеры по умолчанию, т. Е. HTML, Тика. У некоторых документов есть заголовок на урду, но у некоторых документов есть заголовок на урду и заголовок 1, т. Е. H1 имеет исходный заголовок, например, bbc-page. Аналогично, в некоторых случаях метатеги имеют заголовок облегчения. Есть ли встроенная опция (анализатор), которая может обработать эту опцию, чтобы она выбрала h1 для заголовка, если он доступен.

Или, если мне придется это сделать, каковы возможные пути для этого.

0

parsing nutch apache-tika nutch2

Источник

user3454410 02 авг '18 в 11:22

1 ответ

Решение

Другие вопросы по тегам parsing nutch apache-tika nutch2

user1977773 02 авг '18 в 12:02 2018-08-02 12:02 · Accepted Answer · 2018-08-02 12:02

Nutch будет использовать title тег, если он присутствует, найден в дереве DOM ( https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251) для этого вам нужно написать собственную логику в плагине парсера. Но реальный вопрос будет в том, как бы вы определили "плохое" title тег? Будет какой-то конкретный контент (например, URL).

В любом случае вам нужно написать свой собственный плагин либо в анализаторе, либо в плагине индексирования (например, взяв поле и скопировав его в поле заголовка в определенных условиях).