Есть ли в памяти реализация заданий SparseVectorsFromSequenceFiles, RowIdJob и RowSimilityJob

Я работал над выполнением скрытого семантического анализа с использованием SparseVectorsFromSequenceFiles, RowIdJob а также RowSimilarityJob Задания Hadoop, предоставляемые Mahout, которые запускают задания Map/Reduce. Я пытался найти эквивалентную реализацию для этих функций, которая работает в памяти, либо в одном потоке, либо, предпочтительно, в нескольких потоках.

Что-то подобное существует?

1 ответ

Я не знаю, не думаю, но было бы тривиально написать. Вы просто открываете SequenceFile.Reader и для каждой записи, получить Vector от стоимости Writable и делать то, что вы хотите. Это, вероятно, 10 строк кода и не стоит инструмента.

Другие вопросы по тегам