Определение языка в Solr для документов Nutch

Как я могу использовать Solr для языковой идентификации документов, полученных при сканировании с помощью Nutch?

Я установил Nutch 1.9 и Solr 4.8.1. Я добавил новое ядро ​​с именем "core-test" чтобы решить с помощью Core Admin на странице Solr Admin, и я следовал инструкциям в вики Solr для определения языка во время индексации документов.

Я изменил schema.xml в core-test / conf, добавив поле

<field name="language_s" type="string" stored="true" indexed="true"/>

Затем я использовал Nutch для сканирования набора веб-страниц

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch работает должным образом, но язык документов не определен, т.е. я не получаю поле language_s когда я делаю запрос в http://localhost:8983/solr/ с q установлен в ":",

1 ответ

Вам необходимо включить определение языка Nutch. Скопируйте тег XML ниже Nutch_HOME/conf/nutch-site.xml:

<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|language-identifier</value> </property>

Приведенный выше тег включает плагин для определения языка в комплекте с Nutch. Как описано в вики Nutch, плагин добавит поле с именем "lang", которое содержит код языка ваших документов.

Другие вопросы по тегам