datastax mahout не может создавать векторы TFIDF из индексации datastax solr
Я запускаю datastax 4.5 mahout для индексации solr, созданной datastax 4.5.
dse mahout lucene.vector
--dir /var/lib/cassandra/data/solr.data/test.test/index/
--field body
--dictOut $WORK_DIR/solr/wikipedia/dict.txt
--output $WORK_DIR/solr/wikipedia/out.txt
--max 50
На странице mahout упоминается "Ваш индекс Lucene должен быть создан с той же версией Lucene, которая использовалась в Mahout. Начиная с Mahout 0.9, это Lucene 4.6.1. ". datastax 4.5 предлагает только mahout 0.8. Я получил исключение, как сказано на странице.
Я установил Mahout 0.9 и попробовал эту же команду, чтобы прочитать индекс datastax solr. Я получил ошибку "Исключение в потоке"main" java.lang.IllegalArgumentException: класс SPI типа org.apache.lucene.codecs.Codec с именем 'dse452' не существует". Кажется, datastax изменили информацию индекса Solr.
Любые подсказки о решении совместимой проблемы?
1 ответ
Включите JAR-кодек Lucene в ваш путь к классу: http://mvnrepository.com/artifact/org.apache.lucene/lucene-codecs