Проблема парсинга заголовка Apache Nutch для языковых сайтов
Я настроил Apache Nutch 2.3.1 с Hadoop 2.7.5 и Hbase 0.98. Я должен сканировать некоторые сайты на урду. Я использую парсеры по умолчанию, т. Е. HTML, Тика. У некоторых документов есть заголовок на урду, но у некоторых документов есть заголовок на урду и заголовок 1, т. Е. H1 имеет исходный заголовок, например, bbc-page. Аналогично, в некоторых случаях метатеги имеют заголовок облегчения. Есть ли встроенная опция (анализатор), которая может обработать эту опцию, чтобы она выбрала h1 для заголовка, если он доступен.
Или, если мне придется это сделать, каковы возможные пути для этого.
1 ответ
Nutch будет использовать title
тег, если он присутствует, найден в дереве DOM ( https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251) для этого вам нужно написать собственную логику в плагине парсера. Но реальный вопрос будет в том, как бы вы определили "плохое" title
тег? Будет какой-то конкретный контент (например, URL).
В любом случае вам нужно написать свой собственный плагин либо в анализаторе, либо в плагине индексирования (например, взяв поле и скопировав его в поле заголовка в определенных условиях).