datastax mahout не может создавать векторы TFIDF из индексации datastax solr

Я запускаю datastax 4.5 mahout для индексации solr, созданной datastax 4.5.

dse mahout lucene.vector
--dir /var/lib/cassandra/data/solr.data/test.test/index/ 
--field body 
--dictOut $WORK_DIR/solr/wikipedia/dict.txt
--output $WORK_DIR/solr/wikipedia/out.txt 
--max 50

На странице mahout упоминается "Ваш индекс Lucene должен быть создан с той же версией Lucene, которая использовалась в Mahout. Начиная с Mahout 0.9, это Lucene 4.6.1. ". datastax 4.5 предлагает только mahout 0.8. Я получил исключение, как сказано на странице.

Я установил Mahout 0.9 и попробовал эту же команду, чтобы прочитать индекс datastax solr. Я получил ошибку "Исключение в потоке"main" java.lang.IllegalArgumentException: класс SPI типа org.apache.lucene.codecs.Codec с именем 'dse452' не существует". Кажется, datastax изменили информацию индекса Solr.

Любые подсказки о решении совместимой проблемы?

1 ответ

Включите JAR-кодек Lucene в ваш путь к классу: http://mvnrepository.com/artifact/org.apache.lucene/lucene-codecs

Другие вопросы по тегам